

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# SageMaker HyperPod Cluster-Verwaltung
<a name="sagemaker-hyperpod-cluster-management-slurm"></a>

In den folgenden Themen werden die Protokollierung und Verwaltung von SageMaker HyperPod Clustern behandelt.

## SageMaker HyperPod Ereignisse protokollieren
<a name="sagemaker-hyperpod-cluster-management-slurm-logging-hyperpod-events"></a>

Alle Ereignisse und Protokolle von SageMaker HyperPod werden in Amazon CloudWatch unter dem Namen der Protokollgruppe gespeichert`/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]`. Jeder Aufruf der `CreateCluster`-API erstellt eine neue Protokollgruppe. Die folgende Liste enthält alle verfügbaren Protokollstreams, die in jeder Protokollgruppe gesammelt wurden.


|  |  | 
| --- |--- |
| Name der Protokollgruppe | Name des Protokollstreams | 
| /aws/sagemaker/Clusters/[ClusterName]/[ClusterID] | LifecycleConfig/[instance-group-name]/[instance-id] | 

## Protokollierung SageMaker HyperPod auf Instanzebene
<a name="sagemaker-hyperpod-cluster-management-slurm-logging-at-instance-level"></a>

Sie können CloudWatch während der Konfiguration der Clusterinstanz auf die veröffentlichten LifecycleScript Protokolle zugreifen. Jede Instance innerhalb des erstellten Clusters generiert einen separaten Protokollstream, der sich durch das Format `LifecycleConfig/[instance-group-name]/[instance-id]` unterscheidet. 

Alle Protokolle, in die geschrieben wird, `/var/log/provision/provisioning.log` werden in den vorherigen CloudWatch Stream hochgeladen. Beispiel LifecycleScripts bei der [https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config](https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config)Weiterleitung ihres `stdout` und `stderr` an diesen Speicherort. Wenn Sie Ihre benutzerdefinierten Skripts verwenden, schreiben Sie Ihre Protokolle an den `/var/log/provision/provisioning.log` Ort, an dem sie verfügbar sind CloudWatch.

**Markierungen für Lifecycle-Skripte**

CloudWatch Logs für Lebenszyklusskripte enthalten spezielle Markierungen, anhand derer Sie den Ausführungsfortschritt verfolgen und Probleme identifizieren können:


|  |  | 
| --- |--- |
| Marker | Beschreibung | 
| START | Indicates the beginning of lifecycle script logs for the instance | 
| [SageMaker] Lifecycle scripts were provided, with S3 uri: [s3://bucket-name/] and entrypoint script: [script-name.sh] | Indicates the S3 location and entrypoint script that will be used | 
| [SageMaker] Downloading lifecycle scripts | Indicates scripts are being downloaded from the specified S3 location | 
| [SageMaker] Lifecycle scripts have been downloaded | Indicates scripts have been successfully downloaded from S3 | 
| [SageMaker] The lifecycle scripts succeeded | Indicates successful completion of all lifecycle scripts | 
| [SageMaker] The lifecycle scripts failed | Indicates failed execution of lifecycle scripts | 

Anhand dieser Markierungen können Sie schnell erkennen, an welcher Stelle im Ausführungsprozess des Lebenszyklus-Skripts ein Problem aufgetreten ist. Überprüfen Sie bei der Behebung von Fehlern die Protokolleinträge, um festzustellen, wo der Prozess gestoppt wurde oder fehlgeschlagen ist.

**Fehlermeldungen bei Lifecycle-Skripten**

Wenn das Lifecycle-Skript existiert, aber während der Ausführung fehlschlägt, erhalten Sie eine Fehlermeldung, die den Namen der CloudWatch Protokollgruppe und den Namen des Protokolldatenstroms enthält. Falls bei mehreren Instanzen ein Lifecycle-Skript fehlschlägt, weist die Fehlermeldung nur auf eine ausgefallene Instanz hin. Die Protokollgruppe sollte jedoch Streams für alle Instanzen enthalten.

Sie können die Fehlermeldung anzeigen, indem Sie die [DescribeCluster](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeCluster.html)API ausführen oder die Seite mit den Cluster-Details in der SageMaker Konsole aufrufen. In der Konsole befindet sich die Schaltfläche **Lebenszyklus-Skriptprotokolle anzeigen**, mit der Sie direkt zum CloudWatch Protokollstream gelangen. Die Fehlermeldung hat das folgende Format:

```
Instance [instance-id] failed to provision with the following error: "Lifecycle scripts did not run successfully. To view lifecycle script logs,
visit log group ‘/aws/sagemaker/Clusters/[cluster-name]/[cluster-id]' and log stream ‘LifecycleConfig/[instance-group-name]/[instance-id]’.
If you cannot find corresponding lifecycle script logs in CloudWatch, please make sure you follow one of the options here:
https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-faq-slurm.html#hyperpod-faqs-q1.” Note that multiple instances may be impacted.
```

## Taggen von Ressourcen
<a name="sagemaker-hyperpod-cluster-management-slurm-tagging"></a>

AWS Das Tagging-System hilft bei der Verwaltung, Identifizierung, Organisation, Suche und Filterung von Ressourcen. SageMaker HyperPod unterstützt Tagging, sodass Sie die Cluster als Ressource verwalten können. AWS Während der Clustererstellung oder Bearbeitung eines vorhandenen Clusters können Sie Tags für den Cluster hinzufügen oder bearbeiten. Weitere Informationen zum Markieren im Allgemeinen finden Sie unter [Markieren Ihrer AWS -Ressourcen](https://docs.aws.amazon.com/tag-editor/latest/userguide/tagging.html).

### Verwenden der Benutzeroberfläche der SageMaker HyperPod Konsole
<a name="sagemaker-hyperpod-cluster-management-slurm-tagging-in-console"></a>

Wenn Sie [einen neuen Cluster erstellen](sagemaker-hyperpod-operate-slurm-console-ui.md#sagemaker-hyperpod-operate-slurm-console-ui-create-cluster) oder [einen Cluster bearbeiten](sagemaker-hyperpod-operate-slurm-console-ui.md#sagemaker-hyperpod-operate-slurm-console-ui-edit-clusters), können Sie Tags hinzufügen, entfernen oder bearbeiten.

### Mit dem SageMaker HyperPod APIs
<a name="sagemaker-hyperpod-cluster-management-slurm-tagging-in-api-request"></a>

Wenn Sie eine [CreateCluster](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html)oder [UpdateCluster](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateCluster.html)API-Anforderungsdatei im JSON-Format schreiben, bearbeiten Sie den `Tags` Abschnitt.

### Verwenden Sie die AWS CLI Tagging-Befehle für KI SageMaker
<a name="sagemaker-hyperpod-cluster-management-slurm-tagging-using-cli"></a>

**So markieren Sie einen Cluster**

Verwenden Sie [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/add-tags.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/add-tags.html) wie folgt.

```
aws sagemaker add-tags --resource-arn cluster_ARN --tags Key=string,Value=string
```

**So heben Sie die Markierung eines Clusters auf**

Verwenden Sie [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/delete-tags.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/delete-tags.html) wie folgt.

```
aws sagemaker delete-tags --resource-arn cluster_ARN --tag-keys "tag_key"
```

**So listen Sie Tags für eine Ressource auf**

Verwenden Sie [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/list-tags.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/list-tags.html) wie folgt.

```
aws sagemaker list-tags --resource-arn cluster_ARN
```