

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Metriche di Amazon SageMaker HyperPod Slurm
<a name="smcluster-slurm-metrics"></a>

Amazon SageMaker HyperPod fornisce una serie di CloudWatch parametri Amazon che puoi utilizzare per monitorare lo stato e le prestazioni dei tuoi HyperPod cluster. Queste metriche vengono raccolte dal gestore del carico di lavoro Slurm in esecuzione sui tuoi HyperPod cluster e sono disponibili nel namespace. `/aws/sagemaker/Clusters` CloudWatch 

## Metriche a livello di cluster
<a name="smcluster-slurm-metrics-cluster"></a>

Le seguenti metriche a livello di cluster sono disponibili per. HyperPod Queste metriche utilizzano la `ClusterId` dimensione per identificare il cluster specifico. HyperPod 


| CloudWatch nome della metrica | Note | Nome della metrica di Amazon ECS Container Insights | 
| --- | --- | --- | 
| cluster\$1node\$1count | Numero totale di nodi nel cluster | cluster\$1node\$1count | 
| cluster\$1idle\$1node\$1count | Numero di nodi inattivi nel cluster | N/D | 
| cluster\$1failed\$1node\$1count | Numero di nodi non riusciti nel cluster | cluster\$1failed\$1node\$1count | 
| cluster\$1cpu\$1count | Numero totale di core CPU nel cluster | node\$1cpu\$1limit | 
| cluster\$1idle\$1cpu\$1count | Numero di core CPU inattivi nel cluster | N/D | 
| cluster\$1gpu\$1count | Totale GPUs nel cluster | node\$1gpu\$1limit | 
| cluster\$1idle\$1gpu\$1count | Numero di inattività GPUs nel cluster | N/D | 
| cluster\$1running\$1task\$1count | Numero di processi Slurm in esecuzione nel cluster | N/D | 
| cluster\$1pending\$1task\$1count | Numero di processi Slurm in sospeso nel cluster | N/D | 
| cluster\$1preempted\$1task\$1count | Numero di processi Slurm prerilasciati nel cluster | N/D | 
| cluster\$1avg\$1task\$1wait\$1time | Tempo di attesa medio per i processi Slurm nel cluster | N/D | 
| cluster\$1max\$1task\$1wait\$1time | Tempo di attesa massimo per i processi Slurm nel cluster | N/D | 

## Metriche a livello di istanza
<a name="smcluster-slurm-metrics-instance"></a>

Le seguenti metriche a livello di istanza sono disponibili per. HyperPod Queste metriche utilizzano la `ClusterId` dimensione anche per identificare il cluster specifico. HyperPod 


| CloudWatch nome della metrica | Note | Nome della metrica di Amazon ECS Container Insights | 
| --- | --- | --- | 
| node\$1gpu\$1utilization | Utilizzo medio della GPU in tutte le istanze | node\$1gpu\$1utilization | 
| node\$1gpu\$1memory\$1utilization | Utilizzo medio della memoria GPU in tutte le istanze | node\$1gpu\$1memory\$1utilization | 
| node\$1cpu\$1utilization | Utilizzo medio della CPU in tutte le istanze | node\$1cpu\$1utilization | 
| node\$1memory\$1utilization | Utilizzo medio della memoria in tutte le istanze | node\$1memory\$1utilization | 