

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Jobs mit der SageMaker HyperPod CLI ausführen
<a name="sagemaker-hyperpod-eks-run-jobs-hyperpod-cli"></a>

Um Jobs auszuführen, stellen Sie sicher, dass Sie Kubeflow Training Operator in den EKS-Clustern installiert haben. Weitere Informationen finden Sie unter [Installation von Paketen auf dem Amazon-EKS-Cluster mit Helm](sagemaker-hyperpod-eks-install-packages-using-helm-chart.md).

Führen Sie den `hyperpod get-cluster` Befehl aus, um die Liste der verfügbaren HyperPod Cluster abzurufen.

```
hyperpod get-clusters
```

Führen Sie den aus`hyperpod connect-cluster`, um die SageMaker HyperPod CLI mit dem EKS-Cluster zu konfigurieren, der den HyperPod Cluster orchestriert.

```
hyperpod connect-cluster --cluster-name <hyperpod-cluster-name>
```

Verwenden Sie den `hyperpod start-job`-Befehl, um einen Auftrag auszuführen. Der folgende Befehl zeigt den Befehl mit den erforderlichen Optionen. 

```
hyperpod start-job \
    --job-name <job-name>
    --image <docker-image-uri>
    --entry-script <entrypoint-script>
    --instance-type <ml.instance.type>
    --node-count <integer>
```

Der `hyperpod start-job` Befehl bietet auch verschiedene Optionen wie die automatische Wiederaufnahme von Jobs und die Jobplanung.

## Automatische Wiederaufnahme von Jobs aktivieren
<a name="sagemaker-hyperpod-eks-run-jobs-hyperpod-cli-enable-auto-resume"></a>

Der `hyperpod start-job` Befehl bietet auch die folgenden Optionen zur Angabe der automatischen Wiederaufnahme von Jobs. Damit die automatische Wiederaufnahme von Jobs mit den SageMaker HyperPod Knotenausfallfunktionen funktioniert, müssen Sie den Wert für die `restart-policy` Option auf festlegen. `OnFailure` Der Auftrag muss unter dem Namespace `kubeflow` oder einem Namespace mit dem Präfix `hyperpod` ausgeführt werden.
+ [--auto-resume<bool>] \$1Optional, aktiviert die auto Wiederaufnahme des Jobs nach Fehlschlägen, die Standardeinstellung ist false
+ [--max-retry<int>] \$1Optional, wenn auto-resume wahr ist, ist der Standardwert für max-retry 1, falls nicht angegeben
+ [--restart-policy<enum>] \$1Optional, Richtlinie neu starten. PyTorchJob Die verfügbaren Werte sind `Always`, `OnFailure`, `Never` oder `ExitCode`. Der Standardwert ist `OnFailure`. 

```
hyperpod start-job \
    ... // required options \
    --auto-resume true \
    --max-retry 3 \
    --restart-policy OnFailure
```

## Jobs mit Planungsoptionen ausführen
<a name="sagemaker-hyperpod-eks-run-jobs-hyperpod-cli-scheduling"></a>

Der `hyperpod start-job` Befehl bietet die folgenden Optionen, um den Job mit Warteschlangenmechanismen einzurichten. 

**Anmerkung**  
Sie müssen [Kueue](https://kueue.sigs.k8s.io/docs/overview/) im EKS-Cluster installiert haben. Falls Sie die Installation noch nicht durchgeführt haben, folgen Sie den Anweisungen in [Einrichtung für die SageMaker HyperPod Task-Governance](sagemaker-hyperpod-eks-operate-console-ui-governance-setup.md).
+ [--scheduler-type<enum>] \$1Optional, Geben Sie den Scheduler-Typ an. Der Standardwert ist `Kueue`.
+ [--queue-name<string>] \$1Optional, Geben Sie den Namen der [lokalen Warteschlange oder [Cluster-Warteschlange](https://kueue.sigs.k8s.io/docs/concepts/cluster_queue/)](https://kueue.sigs.k8s.io/docs/concepts/local_queue/) an, die Sie zusammen mit dem Job einreichen möchten. Die Warteschlange sollte von Clusteradministratoren mithilfe von `CreateComputeQuota` erstellt werden.
+ [--priority<string>] \$1Optional, Geben Sie den Namen der [Workload-Prioritätsklasse](https://kueue.sigs.k8s.io/docs/concepts/workload_priority_class/) an, die von Cluster-Administratoren erstellt werden soll.

```
hyperpod start-job \
    ... // required options
    --scheduler-type Kueue \
    --queue-name high-priority-queue \
    --priority high
```

## Jobs aus einer Konfigurationsdatei ausführen
<a name="sagemaker-hyperpod-eks-run-jobs-hyperpod-cli-from-config"></a>

Als Alternative können Sie eine Job-Konfigurationsdatei erstellen, die alle für den Job erforderlichen Parameter enthält, und diese Konfigurationsdatei dann mit der Option --config-file an den `hyperpod start-job` Befehl übergeben. In diesem Fall.

1. Erstellen Sie Ihre Job-Konfigurationsdatei mit den erforderlichen Parametern. Eine [Basiskonfigurationsdatei finden Sie in der Job-Konfigurationsdatei](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks-run-jobs-hyperpod-cli.html#sagemaker-hyperpod-eks-hyperpod-cli-from-config) im SageMaker HyperPod GitHub CLI-Repository.

1. Starten Sie den Job mit der Konfigurationsdatei wie folgt.

   ```
   hyperpod start-job --config-file /path/to/test_job.yaml
   ```

**Tipp**  
Eine vollständige Liste der Parameter des `hyperpod start-job` Befehls finden Sie im Abschnitt [Einen Job einreichen](https://github.com/aws/sagemaker-hyperpod-cli?tab=readme-ov-file#submitting-a-job) im `README.md` SageMaker HyperPod GitHub CLI-Repository.