

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 在 HyperPod k8s 上运行训练作业
<a name="cluster-specific-configurations-run-training-job-hyperpod-k8s"></a>

SageMaker HyperPod Recipes 支持向 GPU/Trainium Kubernetes 集群提交训练作业。在提交训练作业之前，请执行下列操作之一：
+ 修改 `k8s.yaml` 集群配置文件
+ 通过命令行覆盖集群配置

完成上述任一步骤后，安装相应的环境。

## 使用 `k8s.yaml` 配置集群
<a name="cluster-specific-configurations-configure-cluster-k8s-yaml"></a>

要向 Kubernetes 集群提交训练作业，请指定特定于 Kubernetes 的配置。这些配置包括集群命名空间或持久性卷的位置。

```
pullPolicy: Always
restartPolicy: Never
namespace: default
persistent_volume_claims:
  - null
```

1. `pullPolicy`：您可以在提交训练作业时指定提取策略。如果您指定“始终”，则 Kubernetes 集群始终从存储库中提取您的映像。有关更多信息，请参阅[映像提取策略](https://kubernetes.io/docs/concepts/containers/images/#image-pull-policy)。

1. `restartPolicy`：指定在训练作业失败时是否重启该作业。

1. `namespace`：可以指定提交训练作业时所使用的 Kubernetes 命名空间。

1. `persistent_volume_claims`：可以为训练作业指定共享卷，以便所有训练过程都能访问该卷中的文件。