

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Executando um trabalho de treinamento no HyperPod Slurm
<a name="cluster-specific-configurations-run-training-job-hyperpod-slurm"></a>

SageMaker HyperPod O Recipes oferece suporte ao envio de um trabalho de treinamento para um cluster de GPU/Trainium slurm. Antes de enviar a tarefa de treinamento, atualize a configuração do cluster. Use um dos seguintes métodos para atualizar a configuração do cluster:
+ Modifique o `slurm.yaml`.
+ Substitua o arquivo por meio da linha de comandos.

Depois de atualizar a configuração do cluster, instale o ambiente.

## Configurar o cluster
<a name="cluster-specific-configurations-configure-cluster-slurm-yaml"></a>

Para enviar uma tarefa de treinamento para um cluster do Slurm, especifique a configuração específica do Slurm. Modifique o `slurm.yaml` para configurar o cluster do Slurm. Veja a seguir um exemplo de configuração de cluster do Slurm. Você pode modificar esse arquivo de acordo com suas próprias necessidades de treinamento:

```
job_name_prefix: 'sagemaker-'
slurm_create_submission_file_only: False 
stderr_to_stdout: True
srun_args:
  # - "--no-container-mount-home"
slurm_docker_cfg:
  docker_args:
    # - "--runtime=nvidia" 
  post_launch_commands: 
container_mounts: 
  - "/fsx:/fsx"
```

1. `job_name_prefix`: especifique um prefixo de nome de tarefa para identificar facilmente seus envios ao cluster do Slurm.

1. `slurm_create_submission_file_only`: defina essa configuração como True para realizar uma simulação e ajudar você a depurar.

1. `stderr_to_stdout`: especifique se você está redirecionando seu erro padrão (stderr) para a saída padrão (stdout).

1. `srun_args`: personalize configurações srun adicionais, como excluir nós de computação específicos. Para ter mais informações, consulte a documentação do srun.

1. `slurm_docker_cfg`: o lançador de SageMaker HyperPod receitas lança um contêiner Docker para executar seu trabalho de treinamento. Você pode especificar argumentos adicionais do Docker dentro desse parâmetro.

1. `container_mounts`: especifique os volumes que você está montando no contêiner para o inicializador de fórmulas. Desse modo, suas tarefas de treinamento poderão acessar os arquivos nesses volumes.