

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在 HyperPod Slurm 叢集上執行生產工作負載之前驗證執行時期
<a name="sagemaker-hyperpod-lifecycle-best-practices-slurm-slurm-validate-runtime"></a>

若要在 HyperPod 的 Slurm 叢集上執行任何生產工作負載之前檢查執行時期，請使用執行時期驗證指令碼 [https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/hyperpod-precheck.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/hyperpod-precheck.py)。此指令碼會檢查 Slurm 叢集是否已安裝用於執行 Docker 的所有套件、叢集是否具有正確掛載的 FSx for Lustre 檔案系統和共用檔案系統的使用者目錄，以及 Slurm 常駐程式是否正在所有運算節點上執行。

若要一次在多個節點上執行指令碼，請使用 `srun`，如在 8 個節點的 Slurm 叢集上執行指令碼的下列範例命令中所示。

```
# The following command runs on 8 nodes
srun -N 8 python3 hyperpod-precheck.py
```

**注意**  
若要進一步了解驗證指令碼，例如指令碼提供哪些執行時間驗證函數，以及解決未通過驗證問題的指導方針，請參閱 *Awsome 分散式訓練 GitHub 儲存庫*中的[執行工作負載前進行執行時期驗證](https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod#35-runtime-validation-before-running-workloads)。