

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Métricas do Amazon SageMaker HyperPod Slurm
<a name="smcluster-slurm-metrics"></a>

 SageMaker HyperPod A Amazon fornece um conjunto de CloudWatch métricas da Amazon que você pode usar para monitorar a integridade e o desempenho dos seus HyperPod clusters. Essas métricas são coletadas do gerenciador de carga de trabalho do Slurm em execução em seus HyperPod clusters e estão disponíveis no namespace. `/aws/sagemaker/Clusters` CloudWatch 

## Métricas em nível de cluster
<a name="smcluster-slurm-metrics-cluster"></a>

As seguintes métricas em nível de cluster estão disponíveis para. HyperPod Essas métricas usam a `ClusterId` dimensão para identificar o HyperPod cluster específico.


| CloudWatch nome da métrica | Observações | Nome de métricas do Amazon EKS Container Insights | 
| --- | --- | --- | 
| cluster\_node\_count | O número total de nós no cluster. | cluster\_node\_count | 
| cluster\_idle\_node\_count | O número de nós ociosos no cluster. | N/A | 
| cluster\_failed\_node\_count | O número de nós com falha no cluster. | cluster\_failed\_node\_count | 
| cluster\_cpu\_count | Total de núcleos de CPU no cluster. | node\_cpu\_limit | 
| cluster\_idle\_cpu\_count | Número de núcleos de CPU ociosos no cluster. | N/A | 
| cluster\_gpu\_count | Total de GPUs no cluster. | node\_gpu\_limit | 
| cluster\_idle\_gpu\_count | Número de GPUs ociosas no cluster. | N/A | 
| cluster\_running\_task\_count | Número total de trabalhos em execução do Slurm no cluster. | N/A | 
| cluster\_pending\_task\_count | Número total de trabalhos pendentes do Slurm no cluster. | N/A | 
| cluster\_preempted\_task\_count | Número total de trabalhos antecipados do Slurm no cluster. | N/A | 
| cluster\_avg\_task\_wait\_time | Tempo médio de espera de trabalhos do Slurm no cluster. | N/A | 
| cluster\_max\_task\_wait\_time | Tempo máximo de espera de trabalhos do Slurm no cluster. | N/A | 

## Métricas em nível de instância
<a name="smcluster-slurm-metrics-instance"></a>

As seguintes métricas em nível de instância estão disponíveis para. HyperPod Essas métricas também usam a `ClusterId` dimensão para identificar o HyperPod cluster específico.


| CloudWatch nome da métrica | Observações | Nome de métricas do Amazon EKS Container Insights | 
| --- | --- | --- | 
| node\_gpu\_utilization | Utilização média de GPU em todas as instâncias. | node\_gpu\_utilization | 
| node\_gpu\_memory\_utilization | Utilização média de memória de GPU em todas as instâncias. | node\_gpu\_memory\_utilization | 
| node\_cpu\_utilization | Utilização média de CPU em todas as instâncias. | node\_cpu\_utilization | 
| node\_memory\_utilization | Utilização média de memória em todas as instâncias. | node\_memory\_utilization | 