

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Esecuzione di un lavoro di formazione su HyperPod Slurm
<a name="cluster-specific-configurations-run-training-job-hyperpod-slurm"></a>

SageMaker HyperPod Recipes supporta l'invio di un lavoro di formazione a un GPU/Trainium cluster slurm. Prima di inviare il job di addestramento, aggiorna la configurazione del cluster. Utilizza uno dei metodi seguenti per aggiornare la configurazione del cluster:
+ Modificare le `slurm.yaml`
+ Sovrascrivila tramite la riga di comando

Dopo aver aggiornato la configurazione del cluster, installa l’ambiente.

## Configurazione del cluster
<a name="cluster-specific-configurations-configure-cluster-slurm-yaml"></a>

Per inviare un lavoro di formazione a un cluster Slurm, specifica la configurazione. Slurm-specific Modifica `slurm.yaml` per configurare il cluster Slurm. Di seguito è riportato un esempio di configurazione del cluster Slurm. Puoi modificare questo file in base alle tue esigenze di addestramento:

```
job_name_prefix: 'sagemaker-'
slurm_create_submission_file_only: False 
stderr_to_stdout: True
srun_args:
  # - "--no-container-mount-home"
slurm_docker_cfg:
  docker_args:
    # - "--runtime=nvidia" 
  post_launch_commands: 
container_mounts: 
  - "/fsx:/fsx"
```

1. `job_name_prefix`: specifica un prefisso per il nome del processo per identificare facilmente i tue invii al cluster Slurm.

1. `slurm_create_submission_file_only`: imposta questa configurazione su True per un’esecuzione di prova che faciliti il debug.

1. `stderr_to_stdout`: specifica se stai reindirizzando l’errore standard (stderr) all’output standard (stdout).

1. `srun_args`: personalizza le configurazioni srun aggiuntive, ad esempio escludendo nodi di calcolo specifici. Per ulteriori informazioni, consulta la documentazione relativa a srun.

1. `slurm_docker_cfg`: Il programma di avvio delle SageMaker HyperPod ricette avvia un contenitore Docker per eseguire il processo di formazione. Puoi specificare argomenti Docker aggiuntivi all’interno di questo parametro.

1. `container_mounts`: specifica i volumi che stai montando nel container nell’utilità di avvio delle ricette per consentire ai job di addestramento di accedere ai file in quei volumi.