

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Exécution de tâches à l'aide de la SageMaker HyperPod CLI
<a name="sagemaker-hyperpod-eks-run-jobs-hyperpod-cli"></a>

Pour exécuter des tâches, assurez-vous d’avoir installé Kubeflow Training Operator dans les clusters EKS. Pour de plus amples informations, veuillez consulter [Installation de packages sur le cluster Amazon EKS à l’aide de Helm](sagemaker-hyperpod-eks-install-packages-using-helm-chart.md).

Exécutez la `hyperpod get-cluster` commande pour obtenir la liste des HyperPod clusters disponibles.

```
hyperpod get-clusters
```

Exécutez le `hyperpod connect-cluster` pour configurer la SageMaker HyperPod CLI avec le cluster EKS orchestrant le HyperPod cluster.

```
hyperpod connect-cluster --cluster-name <hyperpod-cluster-name>
```

Utilisez la commande `hyperpod start-job` pour exécuter une tâche. La commande suivante montre la commande avec les options requises. 

```
hyperpod start-job \
    --job-name <job-name>
    --image <docker-image-uri>
    --entry-script <entrypoint-script>
    --instance-type <ml.instance.type>
    --node-count <integer>
```

La commande `hyperpod start-job` propose également diverses options telles que la reprise automatique des tâches et la planification des tâches.

## Activation de la reprise automatique des tâches
<a name="sagemaker-hyperpod-eks-run-jobs-hyperpod-cli-enable-auto-resume"></a>

La commande `hyperpod start-job` dispose également des options suivantes pour spécifier la reprise automatique des tâches. Pour que la reprise automatique des tâches fonctionne avec les fonctionnalités de résilience des SageMaker HyperPod nœuds, vous devez définir la valeur de l'`restart-policy`option sur. `OnFailure` La tâche doit être exécutée sous l’espace de noms `kubeflow` ou sous un espace de noms préfixé par `hyperpod`.
+ [--auto-resume <bool>] \$1Optional, activez la reprise automatique des tâches en cas d’échec, la valeur par défaut est false.
+ [--max-retry <int>] \$1Optional, si la reprise automatique est true, la valeur par défaut de max-retry est 1 si elle n’est pas spécifiée.
+ [--restart-policy<enum>] \$1Optional, PyTorchJob politique de redémarrage. Les valeurs disponibles sont `Always`, `OnFailure`, `Never` ou `ExitCode`. La valeur par défaut est `OnFailure`. 

```
hyperpod start-job \
    ... // required options \
    --auto-resume true \
    --max-retry 3 \
    --restart-policy OnFailure
```

## Exécution de tâches avec options de planification
<a name="sagemaker-hyperpod-eks-run-jobs-hyperpod-cli-scheduling"></a>

La commande `hyperpod start-job` dispose des options suivantes pour configurer la tâche avec des mécanismes de mise en file d’attente. 

**Note**  
[Kueue](https://kueue.sigs.k8s.io/docs/overview/) doit être installé dans le cluster EKS. Si vous ne l’avez pas encore fait, suivez les instructions fournies dans [Configuration pour la gouvernance des SageMaker HyperPod tâches](sagemaker-hyperpod-eks-operate-console-ui-governance-setup.md).
+ [--scheduler-type <enum>] \$1Optional, spécifiez le type de planificateur. La valeur par défaut est `Kueue`.
+ [--queue-name <string>] \$1Optional, spécifiez le nom de la [file d’attente locale](https://kueue.sigs.k8s.io/docs/concepts/local_queue/) ou de la [file d’attente de cluster](https://kueue.sigs.k8s.io/docs/concepts/cluster_queue/) que vous souhaitez soumettre avec la tâche. La file d’attente doit être créée par les administrateurs du cluster à l’aide de `CreateComputeQuota`.
+ [--priority <string>] \$1Optional, spécifiez le nom de la [classe de priorité de charge de travail](https://kueue.sigs.k8s.io/docs/concepts/workload_priority_class/), qui doit être créée par les administrateurs du cluster.

```
hyperpod start-job \
    ... // required options
    --scheduler-type Kueue \
    --queue-name high-priority-queue \
    --priority high
```

## Exécution de tâches à partir d’un fichier de configuration
<a name="sagemaker-hyperpod-eks-run-jobs-hyperpod-cli-from-config"></a>

Vous pouvez également créer un fichier de configuration de tâche contenant tous les paramètres requis par la tâche, puis transmettre ce fichier de configuration à la commande `hyperpod start-job` à l’aide de l’option --config-file. Dans ce cas :

1. Créez votre fichier de configuration de tâche avec les paramètres requis. Reportez-vous au fichier de configuration des tâches dans le GitHub référentiel de la SageMaker HyperPod CLI pour obtenir un [fichier de configuration de base](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks-run-jobs-hyperpod-cli.html#sagemaker-hyperpod-eks-hyperpod-cli-from-config).

1. Démarrez la tâche en utilisant le fichier de configuration comme suit.

   ```
   hyperpod start-job --config-file /path/to/test_job.yaml
   ```

**Astuce**  
Pour une liste complète des paramètres de la `hyperpod start-job` commande, consultez la section [Soumission d'un Job](https://github.com/aws/sagemaker-hyperpod-cli?tab=readme-ov-file#submitting-a-job) dans le `README.md` GitHub référentiel SageMaker HyperPod CLI.