View a markdown version of this page

運作狀態監控代理程式 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

運作狀態監控代理程式

本節描述 SageMaker HyperPod 用來定期監控叢集執行個體運作狀態的一組運作狀態檢查,以找出加速器 (GPU 和 Trainium 核心) 和聯網 (EFA) 等裝置的問題。SageMaker HyperPod 運作狀態監控代理程式 (HMA) 會持續監控每個 GPU 型或 Trainium 型執行個體的運作狀態。當它偵測到任何執行個體或 GPU 失敗時,代理程式會將執行個體標示為運作狀態不佳。

SageMaker HyperPod HMA 會對 EKS 和 Slurm 協調器執行相同的運作狀態檢查。如需 HMA 的詳細資訊,請參閱 運作狀態監控系統