

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Health 监控代理
<a name="sagemaker-hyperpod-resiliency-slurm-cluster-health-check"></a>

本节介绍了一组运行状况检查， SageMaker HyperPod 用于定期监控集群实例的运行状况，以防加速器（GPU 和 Trainium 内核）和网络 (EFA) 等设备出现问题。 SageMaker HyperPod 运行状况监控代理 (HMA) 持续监控每个基于 GPU 或 Trainium 的实例的运行状况。当检测到任何实例或 GPU 故障时，座席会将实例标记为运行状况不佳。

SageMaker HyperPod HMA 对 EKS 和 Slurm 协调器执行相同的运行状况检查。有关 HMA 的更多信息，请参阅[Health 监控系统](sagemaker-hyperpod-eks-resiliency-health-monitoring-agent.md)。