

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# SageMaker HyperPod gestione dei cluster
<a name="sagemaker-hyperpod-cluster-management-slurm"></a>

Negli argomenti seguenti vengono illustrate la registrazione e la gestione dei cluster. SageMaker HyperPod 

## Registrazione degli eventi SageMaker HyperPod
<a name="sagemaker-hyperpod-cluster-management-slurm-logging-hyperpod-events"></a>

Tutti gli eventi e i log di SageMaker HyperPod vengono salvati su Amazon CloudWatch con il nome `/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]` del gruppo di log. Ogni chiamata all’API `CreateCluster` crea un nuovo gruppo di log. L’elenco seguente contiene tutti i flussi di log disponibili raccolti in ogni gruppo di log.


|  |  | 
| --- |--- |
| Nome del gruppo di log | Nome del flusso di log | 
| /aws/sagemaker/Clusters/[ClusterName]/[ClusterID] | LifecycleConfig/[instance-group-name]/[instance-id] | 

## Registrazione a SageMaker HyperPod livello di istanza
<a name="sagemaker-hyperpod-cluster-management-slurm-logging-at-instance-level"></a>

È possibile accedere ai LifecycleScript log pubblicati CloudWatch durante la configurazione dell'istanza del cluster. Ogni istanza all’interno del cluster creato genera un flusso di log separato, distinguibile in base al formato `LifecycleConfig/[instance-group-name]/[instance-id]`. 

Tutti i log in cui vengono scritti `/var/log/provision/provisioning.log` vengono caricati nel flusso precedente CloudWatch . Sample LifecycleScripts at [https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config](https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config)reindirizza il loro terreno `stderr` verso `stdout` questa posizione. Se utilizzi script personalizzati, scrivi i log nella `/var/log/provision/provisioning.log` posizione in cui saranno disponibili. CloudWatch

**Marcatori di log degli script del ciclo di vita**

CloudWatch i log per gli script del ciclo di vita includono marcatori specifici che consentono di tenere traccia dell'avanzamento dell'esecuzione e identificare i problemi:


|  |  | 
| --- |--- |
| Marker | Descrizione | 
| START | Indicates the beginning of lifecycle script logs for the instance | 
| [SageMaker] Lifecycle scripts were provided, with S3 uri: [s3://bucket-name/] and entrypoint script: [script-name.sh] | Indicates the S3 location and entrypoint script that will be used | 
| [SageMaker] Downloading lifecycle scripts | Indicates scripts are being downloaded from the specified S3 location | 
| [SageMaker] Lifecycle scripts have been downloaded | Indicates scripts have been successfully downloaded from S3 | 
| [SageMaker] The lifecycle scripts succeeded | Indicates successful completion of all lifecycle scripts | 
| [SageMaker] The lifecycle scripts failed | Indicates failed execution of lifecycle scripts | 

Questi marcatori consentono di identificare rapidamente in quale fase del processo di esecuzione degli script del ciclo di vita si è verificato un problema. Durante la risoluzione dei problemi, esaminate le voci di registro per identificare dove il processo si è interrotto o non è riuscito.

**Messaggi di errore dello script del ciclo di vita**

Se lo script del ciclo di vita esiste ma fallisce durante l'esecuzione, riceverai un messaggio di errore che include il nome del gruppo di log e il nome del flusso di CloudWatch log. Nel caso in cui si verifichino errori dello script del ciclo di vita su più istanze, il messaggio di errore indicherà solo un'istanza fallita, ma il gruppo di log deve contenere flussi per tutte le istanze.

È possibile visualizzare il messaggio di errore eseguendo l'[DescribeCluster](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeCluster.html)API o visualizzando la pagina dei dettagli del cluster nella console. SageMaker Nella console, è disponibile il pulsante **Visualizza i registri degli script del ciclo** di vita che accede direttamente al flusso di log. CloudWatch Il messaggio di errore ha il seguente formato:

```
Instance [instance-id] failed to provision with the following error: "Lifecycle scripts did not run successfully. To view lifecycle script logs,
visit log group ‘/aws/sagemaker/Clusters/[cluster-name]/[cluster-id]' and log stream ‘LifecycleConfig/[instance-group-name]/[instance-id]’.
If you cannot find corresponding lifecycle script logs in CloudWatch, please make sure you follow one of the options here:
https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-faq-slurm.html#hyperpod-faqs-q1.” Note that multiple instances may be impacted.
```

## Applicazione di tag alle risorse
<a name="sagemaker-hyperpod-cluster-management-slurm-tagging"></a>

AWS Il sistema di etichettatura aiuta a gestire, identificare, organizzare, cercare e filtrare le risorse. SageMaker HyperPod supporta l'etichettatura, in modo da poter gestire i cluster come risorsa. AWS Durante la creazione o la modifica di un cluster esistente, puoi aggiungere o modificare i tag per il cluster. Per ulteriori informazioni generali sul tagging, consulta [Tagging delle risorse AWS](https://docs.aws.amazon.com/tag-editor/latest/userguide/tagging.html).

### Utilizzo dell'interfaccia utente della console SageMaker HyperPod
<a name="sagemaker-hyperpod-cluster-management-slurm-tagging-in-console"></a>

Quando [crei un nuovo cluster](sagemaker-hyperpod-operate-slurm-console-ui.md#sagemaker-hyperpod-operate-slurm-console-ui-create-cluster) o [modifichi un cluster](sagemaker-hyperpod-operate-slurm-console-ui.md#sagemaker-hyperpod-operate-slurm-console-ui-edit-clusters), puoi aggiungere, modificare o rimuovere tag.

### Usando il SageMaker HyperPod APIs
<a name="sagemaker-hyperpod-cluster-management-slurm-tagging-in-api-request"></a>

Quando scrivi un file di richiesta [CreateCluster](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html)o [UpdateCluster](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateCluster.html)API in formato JSON, modifica la `Tags` sezione.

### Utilizzo dei comandi di AWS CLI tagging per l'IA SageMaker
<a name="sagemaker-hyperpod-cluster-management-slurm-tagging-using-cli"></a>

**Per taggare un cluster**

Utilizza [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/add-tags.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/add-tags.html) come segue.

```
aws sagemaker add-tags --resource-arn cluster_ARN --tags Key=string,Value=string
```

**Per rimuovere un tag da un cluster**

Utilizza [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/delete-tags.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/delete-tags.html) come segue.

```
aws sagemaker delete-tags --resource-arn cluster_ARN --tag-keys "tag_key"
```

**Per elencare i tag per una risorsa**

Utilizza [https://docs.aws.amazon.com/cli/latest/reference/sagemaker/list-tags.html](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/list-tags.html) come segue.

```
aws sagemaker list-tags --resource-arn cluster_ARN
```