

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在 HyperPod k8s 上執行訓練任務
<a name="cluster-specific-configurations-run-training-job-hyperpod-k8s"></a>

SageMaker HyperPod 配方支援將訓練任務提交至 GPU/Trainium Kubernetes 叢集。在您提交訓練任務之前，請執行下列其中一個動作：
+ 修改 `k8s.yaml` 叢集組態檔案
+ 透過命令列覆寫叢集組態

完成上述任一步驟後，請安裝對應環境。

## 使用 `k8s.yaml` 設定叢集
<a name="cluster-specific-configurations-configure-cluster-k8s-yaml"></a>

若要將訓練任務提交至 Kubernetes 叢集，您可以指定 Kubernetes 特定的組態。這些組態包括叢集命名空間或持久性磁碟區的位置。

```
pullPolicy: Always
restartPolicy: Never
namespace: default
persistent_volume_claims:
  - null
```

1. `pullPolicy`：您可以在提交訓練任務時指定提取政策。如果您指定「一律」，Kubernetes 叢集一律會從儲存庫提取您的映像。如需詳細資訊，請參閱[映像提取政策](https://kubernetes.io/docs/concepts/containers/images/#image-pull-policy)。

1. `restartPolicy`：指定是否在訓練任務失敗時將其重新啟動。

1. `namespace`：您可以指定要在其中提交訓練任務的 Kubernetes 命名空間。

1. `persistent_volume_claims`：您可以為訓練任務指定共用磁碟區，讓所有訓練程序存取磁碟區中的檔案。