

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 基本運作狀態檢查
<a name="sagemaker-hyperpod-eks-resiliency-basic-health-check"></a>

SageMaker HyperPod 會在建立和更新 HyperPod 叢集期間，對叢集執行個體執行一組*基本運作狀態檢查*。這些基本運作狀態檢查與協調器無關，因此無論 SageMaker HyperPod (Amazon EKS 或 Slurm) 支援的基礎協同運作平台為何，這些檢查都適用。

基本運作狀態檢查會監控叢集執行個體是否有與加速器 (GPU 和 Trainium 核心) 和網路裝置 (Elastic Fabric Adapter 或 EFA) 等裝置相關的問題。若要尋找基本叢集運作狀態檢查的清單，請參閱[叢集運作狀態檢查](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-resiliency-slurm.html#sagemaker-hyperpod-resiliency-slurm-cluster-health-check)。