

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 運作狀態監控代理程式
<a name="sagemaker-hyperpod-resiliency-slurm-cluster-health-check"></a>

本節描述 SageMaker HyperPod 用來定期監控叢集執行個體運作狀態的一組運作狀態檢查，以找出加速器 (GPU 和 Trainium 核心) 和聯網 (EFA) 等裝置的問題。SageMaker HyperPod 運作狀態監控代理程式 (HMA) 會持續監控每個 GPU 型或 Trainium 型執行個體的運作狀態。當它偵測到任何執行個體或 GPU 失敗時，代理程式會將執行個體標示為運作狀態不佳。

SageMaker HyperPod HMA 會對 EKS 和 Slurm 協調器執行相同的運作狀態檢查。如需 HMA 的詳細資訊，請參閱 [運作狀態監控系統](sagemaker-hyperpod-eks-resiliency-health-monitoring-agent.md)。