

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# HyperPod Slurm でのトレーニングジョブの実行
<a name="cluster-specific-configurations-run-training-job-hyperpod-slurm"></a>

SageMaker HyperPod レシピは、GPU/Trainium Slurm クラスターへのトレーニングジョブの送信をサポートしています。トレーニングジョブを送信する前に、クラスター設定を更新します。クラスター設定を更新するには、次のいずれかの方法を使用します。
+ `slurm.yaml` の変更
+ コマンドラインで上書きする

クラスター設定を更新したら、環境をインストールします。

## クラスターを設定する
<a name="cluster-specific-configurations-configure-cluster-slurm-yaml"></a>

Slurm クラスターにトレーニングジョブを送信するには、Slurm 固有の設定を指定します。`slurm.yaml` を変更して Slurm クラスターを設定します。Slurm クラスターの設定の例は、次のとおりです。このファイルは、独自のトレーニングニーズに合わせて変更できます。

```
job_name_prefix: 'sagemaker-'
slurm_create_submission_file_only: False 
stderr_to_stdout: True
srun_args:
  # - "--no-container-mount-home"
slurm_docker_cfg:
  docker_args:
    # - "--runtime=nvidia" 
  post_launch_commands: 
container_mounts: 
  - "/fsx:/fsx"
```

1. `job_name_prefix`: ジョブ名のプレフィックスを指定すると、Slurm クラスターへの送信を簡単に識別できます。

1. `slurm_create_submission_file_only`: デバッグに役立つよう0に、ドライランではこの設定を True に設定します。

1. `stderr_to_stdout`: 標準エラー (stderr) を標準出力 (stdout) にリダイレクトするかどうかを指定します。

1. `srun_args`: 特定のコンピューティングノードの除外など、追加の srun 設定をカスタマイズします。詳細については、srun に関するドキュメントを参照してください。

1. `slurm_docker_cfg`: SageMaker HyperPod レシピランチャーが Docker コンテナを起動してトレーニングジョブを実行します。このパラメータ内で追加の Docker 引数を指定できます。

1. `container_mounts`: レシピランチャーのコンテナにマウントするボリュームを指定し、トレーニングジョブがそれらのボリューム内のファイルにアクセスできるようにします。