

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon SageMaker HyperPod Slurm 지표
<a name="smcluster-slurm-metrics"></a>

Amazon SageMaker HyperPod는 HyperPod 클러스터의 상태와 성능을 모니터링하는 데 사용할 수 있는 Amazon CloudWatch 지표 세트를 제공합니다. 이러한 지표는 HyperPod 클러스터에서 실행되는 Slurm 워크로드 관리자에서 수집되며 `/aws/sagemaker/Clusters` CloudWatch 네임스페이스에서 사용할 수 있습니다.

## 클러스터 수준 지표
<a name="smcluster-slurm-metrics-cluster"></a>

HyperPod에 사용할 수 있는 클러스터 수준 지표는 다음과 같습니다. 이러한 지표는 `ClusterId` 차원을 사용하여 특정 HyperPod 클러스터를 식별합니다.


| CloudWatch 지표 명칭 | 참고 | Amazon EKS Container Insights 지표 이름 | 
| --- | --- | --- | 
| cluster\_node\_count | Slurm 클러스터의 총 노드 수 | cluster\_node\_count | 
| cluster\_idle\_node\_count | 클러스터의 유휴 노드 수 | 해당 사항 없음 | 
| cluster\_failed\_node\_count | 클러스터의 실패한 노드 수 | cluster\_failed\_node\_count | 
| cluster\_cpu\_count | 클러스터의 총 CPU 코어 수 | node\_cpu\_limit | 
| cluster\_idle\_cpu\_count | 클러스터의 유휴 CPU 코어 수 | 해당 사항 없음 | 
| cluster\_gpu\_count | 클러스터의 총 GPU 수 | node\_gpu\_limit | 
| cluster\_idle\_gpu\_count | 클러스터의 유휴 GPU 수 | 해당 사항 없음 | 
| cluster\_running\_task\_count | 클러스터의 실행 중인 Slurm 작업 수 | 해당 사항 없음 | 
| cluster\_pending\_task\_count | 클러스터의 보류 중인 Slurm 작업 수 | 해당 사항 없음 | 
| cluster\_preempted\_task\_count | 클러스터의 선점된 Slurm 작업 수 | 해당 사항 없음 | 
| cluster\_avg\_task\_wait\_time | 클러스터의 Slurm 작업에 대한 평균 대기 시간 | 해당 사항 없음 | 
| cluster\_max\_task\_wait\_time | 클러스터의 Slurm 작업에 대한 최대 대기 시간 | 해당 사항 없음 | 

## 인스턴스 수준 지표
<a name="smcluster-slurm-metrics-instance"></a>

HyperPod에 사용할 수 있는 인스턴스 수준 지표는 다음과 같습니다. 또한 이러한 지표는 `ClusterId` 차원을 사용하여 특정 HyperPod 클러스터를 식별합니다.


| CloudWatch 지표 명칭 | 참고 | Amazon EKS Container Insights 지표 이름 | 
| --- | --- | --- | 
| node\_gpu\_utilization | 모든 인스턴스의 평균 GPU 사용률 | node\_gpu\_utilization | 
| node\_gpu\_memory\_utilization | 모든 인스턴스의 평균 GPU 메모리 사용률 | node\_gpu\_memory\_utilization | 
| node\_cpu\_utilization | 모든 인스턴스의 평균 CPU 사용률 | node\_cpu\_utilization | 
| node\_memory\_utilization | 모든 인스턴스의 평균 메모리 사용률 | node\_memory\_utilization | 