View a markdown version of this page

ヘルスモニタリングエージェント - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ヘルスモニタリングエージェント

このセクションでは、アクセラレーター (GPU コアと Trainium コア) やネットワーク (EFA) などのデバイスに関する問題について、SageMaker HyperPod がクラスターインスタンスのヘルスを定期的にモニタリングするために使用するヘルスチェックのセットについて説明します。SageMaker HyperPod ヘルスモニタリングエージェント (HMA) は、各 GPU ベースまたは Trainium ベースのインスタンスのヘルスステータスを継続的にモニタリングします。インスタンスまたは GPU の障害を検出すると、エージェントはインスタンスを異常としてマークします。

SageMaker HyperPod HMA は、EKS オーケストレーターと Slurm オーケストレーターの両方で同じヘルスチェックを実行します。HMA の詳細については、「」を参照してくださいヘルスモニタリングシステム