

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# ¿Estás realizando un trabajo de formación en HyperPod Slurm
<a name="cluster-specific-configurations-run-training-job-hyperpod-slurm"></a>

SageMaker HyperPod Recipes permite enviar un trabajo de formación a un clúster de GPU/Trainium Slurm. Antes de enviar el trabajo de entrenamiento, actualice la configuración del clúster. Use uno de los siguientes métodos para actualizar la configuración del clúster:
+ Modificar `slurm.yaml`.
+ Anularlo mediante la línea de comandos.

Después de actualizar la configuración del clúster, instale el entorno.

## Configuración del clúster
<a name="cluster-specific-configurations-configure-cluster-slurm-yaml"></a>

Para enviar un trabajo de entrenamiento a un clúster de Slurm, especifique la configuración específica de Slurm. Modifique `slurm.yaml` para configurar el clúster de Slurm. A continuación, se muestra un ejemplo de configuración de un clúster de Slurm. Puede modificar este archivo según sus propias necesidades de entrenamiento:

```
job_name_prefix: 'sagemaker-'
slurm_create_submission_file_only: False 
stderr_to_stdout: True
srun_args:
  # - "--no-container-mount-home"
slurm_docker_cfg:
  docker_args:
    # - "--runtime=nvidia" 
  post_launch_commands: 
container_mounts: 
  - "/fsx:/fsx"
```

1. `job_name_prefix`: especifique un prefijo de nombre de trabajo para identificar fácilmente sus envíos al clúster de Slurm.

1. `slurm_create_submission_file_only`: defina esta configuración en True para una ejecución en seco que le ayude a depurar.

1. `stderr_to_stdout`: especifique si está redirigiendo el error estándar (stderr) a la salida estándar (stdout).

1. `srun_args`: personalice las configuraciones de srun adicionales, como la exclusión de nodos de computación específicos. Para obtener más información, consulte la documentación de srun.

1. `slurm_docker_cfg`: El lanzador de SageMaker HyperPod recetas lanza un contenedor Docker para ejecutar tu trabajo de formación. Puede especificar argumentos de Docker adicionales dentro de este parámetro.

1. `container_mounts`: especifique los volúmenes que va a montar en el contenedor del lanzador de fórmulas para que sus trabajos de entrenamiento accedan a los archivos de esos volúmenes.