

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 在 HyperPod Slurm 集群上运行生产工作负载之前验证运行时间
<a name="sagemaker-hyperpod-lifecycle-best-practices-slurm-slurm-validate-runtime"></a>

要在 Slurm 集群上运行任何生产工作负载之前检查运行时间 HyperPod，请使用运行时验证脚本。[https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/hyperpod-precheck.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/hyperpod-precheck.py)此脚本检查 Slurm 集群是否安装了用于运行 Docker 的所有软件包，该集群是否正确安装 FSx 了 For Lustre 文件系统和共享文件系统的用户目录，以及 Slurm 守护程序是否在所有计算节点上运行。

要在多个节点上同时运行脚本，请使用 `srun`，如以下在由 8 个节点组成的 Slurm 集群上运行脚本的命令示例所示。

```
# The following command runs on 8 nodes
srun -N 8 python3 hyperpod-precheck.py
```

**注意**  
要了解有关验证脚本的更多信息，例如该脚本提供的运行时验证功能以及解决未通过验证的问题的指南，请参阅在 *Awsome Distributed Tra GitHub * ining 存储库中[运行工作负载之前的运行时验证](https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod#35-runtime-validation-before-running-workloads)。