

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# HyperPod k8s でのトレーニングジョブの実行
<a name="cluster-specific-configurations-run-training-job-hyperpod-k8s"></a>

SageMaker HyperPod レシピは、GPU/Trainium Kubernetes クラスターへのトレーニングジョブの送信をサポートしています。トレーニングジョブを送信する前に、次のいずれかを実行します。
+ `k8s.yaml` クラスター設定ファイルを変更する
+ コマンドラインを使用してクラスター設定を上書きする

上記のステップのいずれかを実行したら、対応する環境をインストールします。

## `k8s.yaml` を使用してクラスターを設定する
<a name="cluster-specific-configurations-configure-cluster-k8s-yaml"></a>

トレーニングジョブを Kubernetes クラスターに送信するには、Kubernetes 固有の設定を指定します。設定には、クラスター名前空間または永続ボリュームの場所などがあります。

```
pullPolicy: Always
restartPolicy: Never
namespace: default
persistent_volume_claims:
  - null
```

1. `pullPolicy`: トレーニングジョブを送信する際にプルポリシーを指定できます。「常に」を指定すると、Kubernetes クラスターは常にリポジトリからイメージをプルします。詳細については、「[ イメージのプルポリシー](https://kubernetes.io/docs/concepts/containers/images/#image-pull-policy)」を参照してください。

1. `restartPolicy`: 失敗した場合にトレーニングジョブを再起動するかどうかを指定します。

1. `namespace`: トレーニングジョブを送信する Kubernetes 名前空間を指定できます。

1. `persistent_volume_claims`: ボリューム内のファイルにアクセスするためのすべてのトレーニングプロセスのトレーニングジョブの共有ボリュームを指定できます。