

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 상태 모니터링 에이전트
<a name="sagemaker-hyperpod-resiliency-slurm-cluster-health-check"></a>

이 섹션에서는 SageMaker HyperPod가 클러스터 인스턴스 상태를 정기적으로 모니터링하여 액셀러레이터(GPU 및 Trainium 코어) 및 네트워킹(EFA)과 같은 디바이스 관련 문제를 모니터링하는 데 사용하는 상태 확인 세트를 설명합니다. SageMaker HyperPod 상태 모니터링 에이전트(HMA)는 각 GPU 기반 또는 Trainium 기반 인스턴스의 상태를 지속적으로 모니터링합니다. 인스턴스 또는 GPU 실패를 감지하면 에이전트는 인스턴스를 비정상으로 표시합니다.

SageMaker HyperPod HMA는 EKS 및 Slurm 오케스트레이터 모두에 대해 동일한 상태 확인을 수행합니다. HMA에 대한 자세한 내용은 섹션을 참조하세요[상태 모니터링 시스템](sagemaker-hyperpod-eks-resiliency-health-monitoring-agent.md).