

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 基本运行状况检查
<a name="sagemaker-hyperpod-eks-resiliency-basic-health-check"></a>

SageMaker HyperPod 在创建和更新集群期间，对集群实例执行一 HyperPod 组*基本的运行状况检查*。这些基本的运行状况检查与协调器无关，因此无论支持的底层编排平台 SageMaker HyperPod （Amazon EKS 或 Slurm）如何，这些检查都适用。

基本运行状况检查可监控集群实例是否存在与加速器（GPU 和 Trainium 内核）和网络设备（Elastic Fabric Adapter 或 EFA）等设备相关的问题。要查找基本集群运行状况检查列表，请参阅[集群运行状况检查](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-resiliency-slurm.html#sagemaker-hyperpod-resiliency-slurm-cluster-health-check)。