

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Métricas de Amazon SageMaker HyperPod Slurm
<a name="smcluster-slurm-metrics"></a>

Amazon SageMaker HyperPod proporciona un conjunto de CloudWatch métricas de Amazon que puedes usar para monitorear el estado y el rendimiento de tus HyperPod clústeres. Estas métricas se recopilan del administrador de cargas de trabajo Slurm que se ejecuta en sus HyperPod clústeres y están disponibles en el `/aws/sagemaker/Clusters` CloudWatch espacio de nombres.

## Métricas de nivel de clúster
<a name="smcluster-slurm-metrics-cluster"></a>

Están disponibles las siguientes métricas a nivel de clúster para. HyperPod Estas métricas utilizan la `ClusterId` dimensión para identificar el clúster específico. HyperPod 


| CloudWatch nombre de la métrica | Notas | Nombre de la métrica de Información de contenedores de Amazon EKS | 
| --- | --- | --- | 
| cluster\$1node\$1count | Número total de nodos en el clúster | cluster\$1node\$1count | 
| cluster\$1idle\$1node\$1count | Número de nodos inactivos en el clúster | N/A | 
| cluster\$1failed\$1node\$1count | Número de nodos fallidos en el clúster | cluster\$1failed\$1node\$1count | 
| cluster\$1cpu\$1count | Número total de núcleos de CPU del clúster | node\$1cpu\$1limit | 
| cluster\$1idle\$1cpu\$1count | Número de nodos de CPU inactivos en el clúster | N/A | 
| cluster\$1gpu\$1count | Total GPUs del clúster | node\$1gpu\$1limit | 
| cluster\$1idle\$1gpu\$1count | Número de inactivos GPUs en el clúster | N/A | 
| cluster\$1running\$1task\$1count | Número de trabajos de Slurm en ejecución en el clúster | N/A | 
| cluster\$1pending\$1task\$1count | Número de trabajos de Slurm pendientes en el clúster | N/A | 
| cluster\$1preempted\$1task\$1count | Número de trabajos de Slurm antepuestos en el clúster | N/A | 
| cluster\$1avg\$1task\$1wait\$1time | Tiempo de espera medio de los trabajos de Slurm en el clúster | N/A | 
| cluster\$1max\$1task\$1wait\$1time | Tiempo de espera máximo de los trabajos de Slurm en el clúster | N/A | 

## Métricas de nivel de instancia
<a name="smcluster-slurm-metrics-instance"></a>

Están disponibles las siguientes métricas a nivel de instancia para. HyperPod Estas métricas también utilizan la `ClusterId` dimensión para identificar el clúster específico. HyperPod 


| CloudWatch nombre de la métrica | Notas | Nombre de la métrica de Información de contenedores de Amazon EKS | 
| --- | --- | --- | 
| node\$1gpu\$1utilization | Utilización media de la GPU en todas las instancias | node\$1gpu\$1utilization | 
| node\$1gpu\$1memory\$1utilization | Utilización media de la memoria de la GPU en todas las instancias | node\$1gpu\$1memory\$1utilization | 
| node\$1cpu\$1utilization | Utilización media de la CPU en todas las instancias | node\$1cpu\$1utilization | 
| node\$1memory\$1utilization | Utilización media de la memoria en todas las instancias | node\$1memory\$1utilization | 