

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在 HyperPod Slurm 上執行訓練任務
<a name="cluster-specific-configurations-run-training-job-hyperpod-slurm"></a>

SageMaker HyperPod 配方支援將訓練任務提交至 GPU/Trainium slurm 叢集。提交訓練任務之前，請更新叢集組態。使用下列其中一種方法來更新叢集組態：
+ 修改 `slurm.yaml`
+ 透過命令列將其覆寫

更新了叢集組態後，請安裝環境。

## 設定叢集
<a name="cluster-specific-configurations-configure-cluster-slurm-yaml"></a>

若要將訓練任務提交至 Slurm 叢集，請指定 Slurm 特定的組態。修改 `slurm.yaml` 以設定 Slurm 叢集。下列是 Slurm 叢集組態的範例。您可以針對自己的訓練需求修改此檔案：

```
job_name_prefix: 'sagemaker-'
slurm_create_submission_file_only: False 
stderr_to_stdout: True
srun_args:
  # - "--no-container-mount-home"
slurm_docker_cfg:
  docker_args:
    # - "--runtime=nvidia" 
  post_launch_commands: 
container_mounts: 
  - "/fsx:/fsx"
```

1. `job_name_prefix`：指定任務名稱字首，以輕鬆識別您提交至 Slurm 叢集的任務。

1. `slurm_create_submission_file_only`：將此組態設定為 True 以進行試轉，以協助您偵錯。

1. `stderr_to_stdout`：指定是否將標準錯誤 (stderr) 重新導向至標準輸出 (stdout)。

1. `srun_args`：自訂其他 Srun 組態，例如排除特定運算節點。如需詳細資訊，請參閱 Srun 文件。

1. `slurm_docker_cfg`：SageMaker HyperPod 配方啟動器會啟動 Docker 容器來執行您的訓練任務。您可以在此參數內指定其他 Docker 引數。

1. `container_mounts`：指定您要掛載至配方啟動器容器的磁碟區，讓您的訓練任務存取這些磁碟區中的檔案。