View a markdown version of this page

Health 监控代理 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Health 监控代理

本节介绍了一组运行状况检查, SageMaker HyperPod 用于定期监控集群实例的运行状况,以防加速器(GPU 和 Trainium 内核)和网络 (EFA) 等设备出现问题。 SageMaker HyperPod 运行状况监控代理 (HMA) 持续监控每个基于 GPU 或 Trainium 的实例的运行状况。当检测到任何实例或 GPU 故障时,座席会将实例标记为运行状况不佳。

SageMaker HyperPod HMA 对 EKS 和 Slurm 协调器执行相同的运行状况检查。有关 HMA 的更多信息,请参阅Health 监控系统