Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# SageMaker HyperPod monitoraggio delle risorse del cluster
<a name="sagemaker-hyperpod-cluster-observability-slurm"></a>

[Per ottenere un'osservabilità completa nelle risorse del SageMaker HyperPod cluster e nei componenti software, integra il cluster con [Amazon Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html) e Amazon Managed Grafana.](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html) L'integrazione con Amazon Managed Service for Prometheus consente l'esportazione di metriche relative alle HyperPod risorse del cluster, fornendo informazioni sulle loro prestazioni, utilizzo e integrità. L’integrazione con Grafana gestito da Amazon consente la visualizzazione di queste metriche attraverso varie dashboard Grafana che offrono un’interfaccia intuitiva per il monitoraggio e l’analisi del comportamento del cluster. Sfruttando questi servizi, ottieni una visione centralizzata e unificata del HyperPod cluster, facilitando il monitoraggio proattivo, la risoluzione dei problemi e l'ottimizzazione dei carichi di lavoro di formazione distribuiti.

**Suggerimento**  
[Per trovare esempi e soluzioni pratiche, consulta anche il workshop. SageMaker HyperPod](https://catalog.workshops.aws/sagemaker-hyperpod)

![\[Una panoramica della configurazione SageMaker HyperPod con Amazon Managed Service for Prometheus e Amazon Managed Grafana.\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/hyperpod-observability-architecture.png)


Figura: questo diagramma di architettura mostra una panoramica della configurazione con SageMaker HyperPod Amazon Managed Service for Prometheus e Amazon Managed Grafana.

Passa ai seguenti argomenti per configurare l'osservabilità del cluster. SageMaker HyperPod 

**Topics**
+ [Prerequisiti per SageMaker HyperPod l'osservabilità dei cluster](sagemaker-hyperpod-cluster-observability-slurm-prerequisites.md)
+ [Installazione HyperPod dei pacchetti Metrics Exporter sul tuo cluster](sagemaker-hyperpod-cluster-observability-slurm-install-exporters.md)
+ [Convalida della configurazione di Prometheus sul nodo principale di un cluster HyperPod](sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup.md)
+ [Configurazione di uno spazio di lavoro Grafana gestito da Amazon](sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws.md)
+ [Riferimento delle metriche esportate](sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference.md)
+ [Metriche di Amazon SageMaker HyperPod Slurm](smcluster-slurm-metrics.md)

# Prerequisiti per SageMaker HyperPod l'osservabilità dei cluster
<a name="sagemaker-hyperpod-cluster-observability-slurm-prerequisites"></a>

Prima di procedere con la procedura descritta in [Installazione HyperPod dei pacchetti Metrics Exporter sul tuo cluster](sagemaker-hyperpod-cluster-observability-slurm-install-exporters.md), verifica che siano soddisfatti i seguenti prerequisiti.

## Abilita IAM Identity Center
<a name="sagemaker-hyperpod-cluster-observability-slurm-prerequisites-iam-id-center"></a>

Per abilitare l'osservabilità per il SageMaker HyperPod cluster, devi prima abilitare IAM Identity Center. Questo è un prerequisito per la distribuzione di uno CloudFormation stack che configuri l'area di lavoro Amazon Managed Grafana e Amazon Managed Service for Prometheus. Entrambi i servizi richiedono il Centro identità IAM anche per l’autenticazione e le autorizzazioni, per garantire un accesso sicuro agli utenti e la gestione dell’infrastruttura di monitoraggio.

Per una guida dettagliata sull’abilitazione del Centro identità IAM, consulta la sezione [Enabling IAM Identity Center](https://docs.aws.amazon.com/singlesignon/latest/userguide/get-set-up-for-idc.html) nella guida *AWS IAM Identity Center User Guide*. 

Dopo aver abilitato correttamente il Centro identità IAM, configura un account utente che fungerà da utente amministratore nelle procedure di configurazione seguenti.

## Crea e CloudFormation distribuisci SageMaker HyperPod uno stack per l'osservabilità
<a name="sagemaker-hyperpod-cluster-observability-slurm-prerequisites-cloudformation-stack"></a>

Crea e distribuisci uno CloudFormation stack per l' SageMaker HyperPod osservabilità per monitorare i parametri del HyperPod cluster in tempo reale utilizzando Amazon Managed Service for Prometheus e Amazon Managed Grafana. Per implementare lo stack, tieni presente che devi abilitare prima il [Centro identità IAM](https://console.aws.amazon.com/singlesignon).

Usa lo CloudFormation script di esempio [https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/4.prometheus-grafana/cluster-observability.yaml](https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/4.prometheus-grafana/cluster-observability.yaml)che ti aiuta a configurare le sottoreti Amazon VPC, i file system FSx Amazon for Lustre, i bucket Amazon S3 e i ruoli IAM necessari per creare uno stack di osservabilità del cluster. HyperPod 

# Installazione HyperPod dei pacchetti Metrics Exporter sul tuo cluster
<a name="sagemaker-hyperpod-cluster-observability-slurm-install-exporters"></a>

Nella [configurazione di base, gli script del ciclo](sagemaker-hyperpod-lifecycle-best-practices-slurm-slurm-base-config.md) di vita forniti dal SageMaker HyperPod team includono anche l'installazione di vari pacchetti Metric Exporter. Per attivare la fase di installazione, devi semplicemente impostare il parametro `enable_observability=True` nel file [https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py). Gli script del ciclo di vita sono progettati per il bootstrap del cluster con i seguenti pacchetti di esportazione di metriche open source.


|  |  |  | 
| --- |--- |--- |
| Nome | Nodo di destinazione per l’implementazione degli script | Descrizione dello strumento di esportazione | 
| [Strumento di esportazione Slurm per Prometheus](https://github.com/vpenso/prometheus-slurm-exporter) | Nodo head (controller) |  Esporta le metriche di accounting Slurm.  | 
|  [Esportazione di nodi Elastic Fabric Adapter (EFA)](https://github.com/aws-samples/awsome-distributed-training/tree/main/4.validation_and_observability/3.efa-node-exporter)  |  Nodo di calcolo  |  Esporta le metriche dai nodi del cluster e da EFA. Il pacchetto è un fork dello [strumento di esportazione di nodi Prometheus](https://github.com/prometheus/node_exporter).  | 
|  [Strumento di esportazione di NVIDIA Data Center GPU Management (DCGM)](https://github.com/NVIDIA/dcgm-exporter)  | Nodo di calcolo |  Esporta i parametri NVIDIA DCGM sullo stato e le prestazioni di NVIDIA. GPUs  | 

Con `enable_observability=True` nel file [https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py), nello script viene attivata la fase di installazione seguente [https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/lifecycle_script.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/lifecycle_script.py). 

```
# Install metric exporting software and Prometheus for observability
if Config.enable_observability:
    if node_type == SlurmNodeType.COMPUTE_NODE:
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_dcgm_exporter.sh").run()
        ExecuteBashScript("./utils/install_efa_node_exporter.sh").run()

    if node_type == SlurmNodeType.HEAD_NODE:
        wait_for_scontrol()
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_slurm_exporter.sh").run()
        ExecuteBashScript("./utils/install_prometheus.sh").run()
```

Sui nodi di calcolo, lo script installa lo strumento di esportazione di nodi NVIDIA Data Center GPU Management (DCGM) e lo strumento di esportazione di nodi Elastic Fabric Adapter (EFA). L'esportatore DCGM è un esportatore per Prometheus che raccoglie metriche da GPUs NVIDIA, abilitando il monitoraggio dell'utilizzo, delle prestazioni e dello stato della GPU. Lo strumento di esportazione di nodi EFA, invece, raccoglie metriche relative all’interfaccia di rete EFA, essenziale per comunicazioni a bassa latenza e larghezza di banda elevata nei cluster HPC.

Sul nodo head, lo script installa lo strumento di esportazione Slurm per Prometheus e il [software open source Prometheus](https://prometheus.io/docs/introduction/overview/). Lo strumento di esportazione Slurm fornisce a Prometheus le metriche relative ai processi, alle partizioni e agli stati dei nodi Slurm.

Nota che gli script del ciclo di vita sono progettati per installare tutti i pacchetti di esportazione come container Docker, quindi il pacchetto Docker deve essere installato anche sui nodi head e di calcolo. *Gli script per questi componenti sono comodamente disponibili nella cartella del repository Awsome Distributed Training. [https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/utils](https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/utils) GitHub *

Dopo aver configurato correttamente il HyperPod cluster installato con i pacchetti di esportazione, passa all'argomento successivo per completare la configurazione di Amazon Managed Service for Prometheus e Amazon Managed Grafana.

# Convalida della configurazione di Prometheus sul nodo principale di un cluster HyperPod
<a name="sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup"></a>

Dopo aver configurato correttamente il HyperPod cluster installato con i pacchetti exporter, controlla se Prometheus è configurato correttamente sul nodo principale del cluster. HyperPod 

1. Connettiti al nodo head del cluster. Per istruzioni su come accedere a un nodo, consulta [Accesso ai nodi SageMaker HyperPod del cluster](sagemaker-hyperpod-run-jobs-slurm-access-nodes.md).

1. Utilizza il comando seguente per verificare che il file di configurazione e servizio di Prometheus creato dallo script del ciclo di vita `install_prometheus.sh` sia in esecuzione sul nodo controller. L’output dovrebbe mostrare lo stato Attivo **active (running)**.

   ```
   $ sudo systemctl status prometheus
   • prometheus service - Prometheus Exporter
   Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled)
   Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago
   Main PID: 12345 (prometheus)
   Tasks: 7 (limit: 9281)
   Memory: 35M
   CPU: 234ms
   CGroup: /system.slice/prometheus.service
           -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
   ```

1. Convalida il file di configurazione di Prometheus come segue. L’output deve essere simile al seguente, con tre strumenti di esportazione configurati con gli indirizzi IP dei nodi di calcolo corretti.

   ```
   $ cat /etc/prometheus/prometheus.yml
   global:
     scrape_interval: 15s
     evaluation_interval: 15s
     scrape_timeout: 15s
   
   scrape_configs:
     - job_name: 'slurm_exporter'
       static_configs:
         - targets:
             - 'localhost:8080'
     - job_name: 'dcgm_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9400'
             - '<ComputeNodeIP>:9400'
     - job_name: 'efa_node_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9100'
             - '<ComputeNodeIP>:9100'
   
   remote_write:
     - url: <AMPReoteWriteURL>
       queue_config:
         max_samples_per_send: 1000
         max_shards: 200
         capacity: 2500
       sigv4:
         region: <Region>
   ```

1. Per verificare se Prometheus sta esportando correttamente le metriche Slurm, DCGM ed EFA, esegui questo comando `curl` per Prometheus sulla porta `:9090` sul nodo head.

   ```
   $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
   ```

   Con le metriche esportate nello spazio di lavoro Servizio gestito da Amazon per Prometheus tramite la configurazione della scrittura remota di Prometheus dal nodo controller, puoi passare all’argomento successivo per configurare le dashboard di Grafana gestito da Amazon per visualizzare le metriche.

# Configurazione di uno spazio di lavoro Grafana gestito da Amazon
<a name="sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws"></a>

Crea un nuovo spazio di lavoro Grafana gestito da Amazon o aggiornane uno esistente con Servizio gestito da Amazon per Prometheus come origine dati.

**Topics**
+ [Creazione di uno spazio di lavoro Grafana e impostazione del Servizio gestito da Amazon per Prometheus come origine dati](#sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-create)
+ [Apertura dello spazio di lavoro Grafana e completamento della configurazione dell’origine dati](#sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-connect-data-source)
+ [Importazione di dashboard Grafana open source](#sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-import-dashboards)

## Creazione di uno spazio di lavoro Grafana e impostazione del Servizio gestito da Amazon per Prometheus come origine dati
<a name="sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-create"></a>

Per visualizzare le metriche di Servizio gestito da Amazon per Prometheus, crea uno spazio di lavoro Grafana gestito da Amazon e configuralo per utilizzare il Servizio gestito da Amazon per Prometheus come origine dati.

1. Per creare uno spazio di lavoro Grafana, segui le istruzioni in [Creating a workspace](https://docs.aws.amazon.com/grafana/latest/userguide/AMG-create-workspace.html#creating-workspace) in *Amazon Managed Service for Prometheus User Guide*.

   1. Nella Fase 13, seleziona Servizio gestito da Amazon per Prometheus come origine dati.

   1. Nella Fase 17, puoi aggiungere l’utente amministratore e anche altri utenti nel tuo Centro identità IAM.

Per ulteriori informazioni, consulta le risorse seguenti.
+ [Set up Amazon Managed Grafana for use with Amazon Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/AMP-amg.html) in *Amazon Managed Service for Prometheus User Guide*
+ [Usa la configurazione dell'origine AWS dati per aggiungere Amazon Managed Service for Prometheus come origine dati](https://docs.aws.amazon.com/grafana/latest/userguide/AMP-adding-AWS-config.html) *nella Amazon Managed Grafana User Guide*

## Apertura dello spazio di lavoro Grafana e completamento della configurazione dell’origine dati
<a name="sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-connect-data-source"></a>

Dopo aver creato o aggiornato correttamente uno spazio di lavoro Grafana gestito da Amazon, apri lo spazio di lavoro selezionando il relativo URL. Questo richiede di inserire un nome utente e la password dell’utente che hai configurato nel Centro identità IAM. Devi accedere con l’utente amministratore per completare la configurazione dello spazio di lavoro.

1. Nella **home page** dello spazio di lavoro, scegli **App**, **Origini dati AWS ** e **Origini dati**.

1. Nella pagina **Origini dati**, scegli la scheda **Origini dati**.

1. In **Servizio**, scegli Servizio gestito da Amazon per Prometheus.

1. Nella sezione **Sfoglia e fornisci fonti di dati**, scegli la AWS regione in cui hai effettuato il provisioning di uno spazio di lavoro Amazon Managed Service for Prometheus.

1. Dall’elenco delle origini dati nella Regione selezionata, scegli quella per Servizio gestito da Amazon per Prometheus. Assicurati di controllare l'ID della risorsa e l'alias della risorsa dell'area di lavoro Amazon Managed Service for Prometheus che hai configurato per lo stack di osservabilità. HyperPod 

## Importazione di dashboard Grafana open source
<a name="sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-import-dashboards"></a>

Dopo aver configurato correttamente il tuo spazio di lavoro Grafana gestito da Amazon con Servizio gestito da Amazon per Prometheus come origine dati, inizi a raccogliere metriche per Prometheus, quindi dovresti vedere le varie dashboard che mostrano grafici, informazioni e altro ancora. Il software open source Grafana offre diverse dashboard che puoi importare in Grafana gestito da Amazon.

**Per importare dashboard Grafana open source in Grafana gestito da Amazon**

1. Nella **home** page del tuo spazio di lavoro Grafana gestito da Amazon, scegli **Dashboard**.

1. Scegli il pulsante del menu a discesa con il testo dell’interfaccia utente **Nuovo** e seleziona **Importa**.

1. Incolla l’URL nella [dashboard di Slurm](https://grafana.com/grafana/dashboards/4323-slurm-dashboard/).

   ```
   https://grafana.com/grafana/dashboards/4323-slurm-dashboard/
   ```

1. Seleziona **Carica**.

1. Ripeti le fasi precedenti per importare le dashboard seguenti.

   1. [Dashboard completa per l’esportazione di nodi](https://grafana.com/grafana/dashboards/1860-node-exporter-full/)

      ```
      https://grafana.com/grafana/dashboards/1860-node-exporter-full/
      ```

   1. [Dashboard di esportazione NVIDIA DCGM](https://grafana.com/grafana/dashboards/12239-nvidia-dcgm-exporter-dashboard/)

      ```
      https://grafana.com/grafana/dashboards/12239-nvidia-dcgm-exporter-dashboard/
      ```

   1. [Dashboard delle metriche EFA](https://grafana.com/grafana/dashboards/20579-efa-metrics-dev/)

      ```
      https://grafana.com/grafana/dashboards/20579-efa-metrics-dev/
      ```

   1. [FSx per Lustre Metrics Dashboard](https://grafana.com/grafana/dashboards/20906-fsx-lustre/)

      ```
      https://grafana.com/grafana/dashboards/20906-fsx-lustre/
      ```

# Riferimento delle metriche esportate
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference"></a>

Le seguenti sezioni presentano elenchi completi di metriche esportate da SageMaker HyperPod Amazon Managed Service for Prometheus dopo la corretta configurazione dello stack per l'osservabilità. CloudFormation SageMaker HyperPod Puoi iniziare a monitorare le metriche visualizzate nelle dashboard di Grafana gestito da Amazon.

## Dashboard di esportazione Slurm
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-slurm-exporter"></a>

Fornisce informazioni visualizzate sui cluster Slurm su. SageMaker HyperPod

**Tipi di metriche**
+ **Panoramica del cluster:** visualizzazione del numero totale di nodi, processi e relativi stati.
+ **Metriche dei processi:** visualizzazione del numero e dello stato dei processi nel tempo.
+ **Metriche dei nodi:** visualizzazione degli stati, dell’allocazione e delle risorse disponibili dei nodi.
+ **Metriche delle partizioni:** monitoraggio di metriche specifiche della partizione come l’utilizzo di CPU, memoria e GPU.
+ **Efficienza dei processi:** calcolo dell’efficienza dei processi in base alle risorse utilizzate.

**Elenco delle metriche**


| Nome parametro | Description | 
| --- | --- | 
| slurm\$1job\$1count | Numero totale di processi nel cluster Slurm | 
| slurm\$1job\$1state\$1count | Numero di processi in ogni stato (ad esempio, in esecuzione, in sospeso, completati) | 
| slurm\$1node\$1count  | Numero totale di nodi nel cluster Slurm | 
| slurm\$1node\$1state\$1count  | Numero di nodi in ogni stato (ad esempio, inattivo, allocato, misto) | 
| slurm\$1partition\$1node\$1count  | Numero di nodi in ogni partizione | 
| slurm\$1partition\$1job\$1count  | Numero di processi in ogni partizione | 
| slurm\$1partition\$1alloc\$1cpus  | Numero totale di elementi allocati in ogni partizione CPUs  | 
| slurm\$1partition\$1free\$1cpus  | Numero totale di elementi disponibili CPUs in ogni partizione | 
| slurm\$1partition\$1alloc\$1memory  | Memoria totale allocata in ogni partizione | 
| slurm\$1partition\$1free\$1memory  | Memoria totale disponibile in ogni partizione | 
| slurm\$1partition\$1alloc\$1gpus  | Totale allocato GPUs in ogni partizione | 
| slurm\$1partition\$1free\$1gpus  | Totale disponibile GPUs in ogni partizione | 

## Dashboard di esportazione di nodi
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-node-exporter"></a>

Fornisce informazioni visualizzate sulle metriche di sistema raccolte dall'esportatore di nodi Prometheus dai [nodi del cluster](https://github.com/prometheus/node_exporter). HyperPod 

**Tipi di metriche**
+ **Panoramica del sistema:** visualizzazione delle medie di carico della CPU e dell’utilizzo della memoria.
+ **Metriche della memoria:** visualizzazione dell’utilizzo della memoria, tra cui memoria totale, memoria libera e spazio di swap.
+ **Utilizzo del disco:** monitoraggio dell’utilizzo e della disponibilità dello spazio su disco.
+ **Traffico di rete:** visualizzazione dei byte di rete ricevuti e trasmessi nel tempo.
+ **Metriche del file system:** analisi dell’utilizzo e della disponibilità del file system.
+ ** I/O Metriche del disco:** visualizzazione dell'attività di lettura e scrittura su disco.

**Elenco delle metriche**

[Per un elenco completo delle metriche esportate, consultate i repository [Node](https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default) exporter e procfs.](https://github.com/prometheus/procfs?tab=readme-ov-file) GitHub La tabella seguente mostra un sottoinsieme di metriche che fornisce informazioni approfondite sull’utilizzo delle risorse di sistema, come il carico della CPU, l’utilizzo della memoria, lo spazio su disco e l’attività di rete.


| Nome parametro | Description | 
| --- | --- | 
|  node\$1load1  | Carico medio ogni minuto | 
|  node\$1load5  | Carico medio ogni 5 minuti | 
|  node\$1load15  | Carico medio ogni 15 minuti | 
|  node\$1memory\$1MemTotal  | Memoria totale di sistema | 
|  node\$1memory\$1MemFree  | Memoria di sistema libera | 
|  node\$1memory\$1MemAvailable  | Memoria disponibile per l’allocazione dei processi | 
|  node\$1memory\$1Buffers  | Memoria utilizzata dal kernel per il buffering | 
|  node\$1memory\$1Cached  | Memoria utilizzata dal kernel per il caching dei dati del file system | 
|  node\$1memory\$1SwapTotal  | Spazio di swap totale disponibile | 
|  node\$1memory\$1SwapFree  | Spazio di swap libero | 
|  node\$1memory\$1SwapCached  | Memoria precedentemente sottoposta a swap, che viene reinserita ma resta in modalità swap | 
|  node\$1filesystem\$1avail\$1bytes  | Spazio disponibile su disco in byte | 
|  node\$1filesystem\$1size\$1bytes  | Spazio totale su disco in byte | 
|  node\$1filesystem\$1free\$1bytes  | Spazio libero su disco in byte | 
|  node\$1network\$1receive\$1bytes  | Byte di rete ricevuti | 
|  node\$1network\$1transmit\$1bytes  | Byte di rete trasmessi | 
|  node\$1disk\$1read\$1bytes  | Byte del disco letti | 
|  node\$1disk\$1written\$1bytes  | Byte del disco scritti | 

## Dashboard di esportazione NVIDIA DCGM
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-nvidia-dcgm-exporter"></a>

Fornisce informazioni visive sulle metriche delle GPU NVIDIA raccolte dallo [strumento di esportazione NVIDIA DCGM](https://github.com/NVIDIA/dcgm-exporter).

**Tipi di metriche**
+ **Panoramica della GPU:** visualizzazione dell’utilizzo della GPU, delle temperature, del consumo energetico e della memoria. 
+ **Metriche di temperatura:** visualizzazione delle temperature della GPU nel tempo. 
+ **Consumo energetico:** monitoraggio dell’assorbimento energetico della GPU e delle tendenze del consumo energetico. 
+ **Utilizzo della memoria:** analisi dell’utilizzo della memoria della GPU, che include la memoria utilizzata, quella libera e quella totale. 
+ **Velocità della ventola:** visualizzazione delle velocità e delle variazioni delle ventole della GPU. 
+ **Errori ECC:** tracciamento degli errori ECC della memoria GPU e degli errori in sospeso.

**Elenco delle metriche**

La tabella seguente mostra un elenco di metriche che fornisce informazioni approfondite sull’integrità e sulle prestazioni della GPU NVIDIA, tra cui frequenze di clock, temperature, consumo energetico, utilizzo della memoria, velocità delle ventole e metriche di errore.


| Nome parametro | Description | 
| --- | --- | 
|  DCGM\$1FI\$1DEV\$1SM\$1CLOCK  | Frequenza di clock SM (in) MHz | 
|  DCGM\$1FI\$1DEV\$1MEM\$1CLOCK  | Frequenza di clock della memoria (in MHz) | 
|  DCGM\$1FI\$1DEV\$1MEMORY\$1TEMP  | Temperatura della memoria (in °C) | 
|  DCGM\$1FI\$1DEV\$1GPU\$1TEMP  | Temperatura della GPU (in °C) | 
|  DCGM\$1FI\$1DEV\$1POWER\$1USAGE  | Potenza assorbita (in W) | 
|  DCGM\$1FI\$1DEV\$1TOTAL\$1ENERGY\$1CONSUMPTION  | Consumo energetico totale dall’avvio (in mJ) | 
|  DCGM\$1FI\$1DEV\$1PCIE\$1REPLAY\$1COUNTER  | Numero totale di PCIe tentativi | 
|  DCGM\$1FI\$1DEV\$1MEM\$1COPY\$1UTIL  | Utilizzo della memoria (in %) | 
|  DCGM\$1FI\$1DEV\$1ENC\$1UTIL  | Utilizzo dell’encoder (in %) | 
|  DCGM\$1FI\$1DEV\$1DEC\$1UTIL  | Utilizzo del decoder (in %) | 
|  DCGM\$1FI\$1DEV\$1XID\$1ERRORS  | Valore dell’ultimo errore XID rilevato | 
|  DCGM\$1FI\$1DEV\$1FB\$1FREE  | Memoria libera del frame buffer (in MiB) | 
|  DCGM\$1FI\$1DEV\$1FB\$1USED  | Memoria utilizzata del frame buffer (in MiB) | 
|  DCGM\$1FI\$1DEV\$1NVLINK\$1BANDWIDTH\$1TOTAL  | Numero totale di contatori della NVLink larghezza di banda per tutte le corsie | 
|  DCGM\$1FI\$1DEV\$1VGPU\$1LICENSE\$1STATUS  | Stato della licenza vGPU | 
|  DCGM\$1FI\$1DEV\$1UNCORRECTABLE\$1REMAPPED\$1ROWS  | Numero di righe rimappate per errori non correggibili | 
|  DCGM\$1FI\$1DEV\$1CORRECTABLE\$1REMAPPED\$1ROWS  | Numero di righe rimappate per errori correggibili | 
|  DCGM\$1FI\$1DEV\$1ROW\$1REMAP\$1FAILURE  | Esito negativo della rimappatura delle righe | 

## Dashboard delle metriche EFA
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-efa-exporter"></a>

Fornisce informazioni visive sulle metriche raccolte tramite lo [strumento di esportazione di nodi EFA](https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md) con [Amazon Elastic Fabric Adapter (EFA)](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa.html) installato nelle istanze P.

**Tipi di metriche**
+ **Metriche di errore EFA:** visualizzazione di errori quali quelli di allocazione, dei comandi e della mappa di memoria.
+ **Traffico di rete EFA:** monitoraggio di byte, pacchetti e richieste di processi ricevuti e trasmessi.
+ **Prestazioni RDMA EFA:** analisi delle operazioni di lettura e scrittura RDMA, inclusi i byte trasferiti e i tassi di errore.
+ **Durata delle porte EFA:** visualizzazione della durata delle porte EFA nel tempo.
+ **Pacchetti keep-alive EFA:** tracciamento del numero di pacchetti keep-alive ricevuti.

**Elenco delle metriche**

La tabella seguente mostra un elenco di metriche che fornisce informazioni approfondite su vari aspetti del funzionamento di EFA, tra cui errori, comandi completati, traffico di rete e utilizzo delle risorse.


| Nome parametro | Description | 
| --- | --- | 
|  node\$1amazonefa\$1info  | Dati non numerici provenienti da/sys/class/infiniband/, il valore è sempre 1. | 
|  node\$1amazonefa\$1lifespan  | Durata della porta | 
|  node\$1amazonefa\$1rdma\$1read\$1bytes  | Numero di byte letti con RDMA | 
|  node\$1amazonefa\$1rdma\$1read\$1resp\$1bytes  | Numero di byte di risposta letti con RDMA | 
|  node\$1amazonefa\$1rdma\$1read\$1wr\$1err  | Numero di errori di scrittura letti con RDMA | 
|  node\$1amazonefa\$1rdma\$1read\$1wrs  | Numero di scritture lette con RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1bytes  | Numero di byte scritti con RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1recv\$1bytes  | Numero di byte scritti e ricevuti con RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1wr\$1err  | Numero di byte scritti con errore RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1wrs  | Numero di byte di scritture scritti con RDMA | 
|  node\$1amazonefa\$1recv\$1bytes  | Numero di byte ricevuti | 
|  node\$1amazonefa\$1recv\$1wrs  | Numero di byte di scritture ricevuti | 
|  node\$1amazonefa\$1rx\$1bytes  | Numero di byte ricevuti | 
|  node\$1amazonefa\$1rx\$1drops  | Numero di pacchetti annullati | 
|  node\$1amazonefa\$1rx\$1pkts  | Numero di pacchetti ricevuti | 
|  node\$1amazonefa\$1send\$1bytes  | Numero di byte inviati | 
|  node\$1amazonefa\$1send\$1wrs  | Numero di scritture inviate | 
|  node\$1amazonefa\$1tx\$1bytes  | Numero di byte trasmessi | 
|  node\$1amazonefa\$1tx\$1pkts  | Numero di pacchetti trasmessi | 

## FSx per la dashboard delle metriche di Lustre
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-fsx-exporter"></a>

[Fornisce informazioni visualizzate sulle [metriche del file system Amazon FSx for Lustre](https://docs.aws.amazon.com/fsx/latest/LustreGuide/monitoring-cloudwatch.html) raccolte da Amazon. CloudWatch](https://docs.aws.amazon.com/fsx/latest/LustreGuide/monitoring-cloudwatch.html)

**Nota**  
La dashboard Grafana FSx for Lustre utilizza Amazon CloudWatch come fonte di dati, che si differenzia dalle altre dashboard configurate per utilizzare Amazon Managed Service for Prometheus. Per garantire un monitoraggio e una visualizzazione accurati delle metriche relative al file system FSx for Lustre, configura la dashboard FSx for Lustre per utilizzare Amazon CloudWatch come fonte di dati, specificando lo stesso Regione AWS luogo in cui viene distribuito il file system FSx for Lustre.

**Tipi di metriche**
+ **DataReadBytes:** Il numero di byte per le operazioni di lettura del file system.
+ **DataWriteBytes:** il numero di byte per le operazioni di scrittura del file system.
+ **DataReadOperations:** Il numero di operazioni di lettura.
+ **DataWriteOperations:** Il numero di operazioni di scrittura.
+ **MetadataOperations:** Il numero di operazioni sui metadati.
+ **FreeDataStorageCapacity:** La quantità di capacità di archiviazione disponibile.

# Metriche di Amazon SageMaker HyperPod Slurm
<a name="smcluster-slurm-metrics"></a>

Amazon SageMaker HyperPod fornisce una serie di CloudWatch parametri Amazon che puoi utilizzare per monitorare lo stato e le prestazioni dei tuoi HyperPod cluster. Queste metriche vengono raccolte dal gestore del carico di lavoro Slurm in esecuzione sui tuoi HyperPod cluster e sono disponibili nel namespace. `/aws/sagemaker/Clusters` CloudWatch 

## Metriche a livello di cluster
<a name="smcluster-slurm-metrics-cluster"></a>

Le seguenti metriche a livello di cluster sono disponibili per. HyperPod Queste metriche utilizzano la `ClusterId` dimensione per identificare il cluster specifico. HyperPod 


| CloudWatch nome della metrica | Note | Nome della metrica di Amazon ECS Container Insights | 
| --- | --- | --- | 
| cluster\$1node\$1count | Numero totale di nodi nel cluster | cluster\$1node\$1count | 
| cluster\$1idle\$1node\$1count | Numero di nodi inattivi nel cluster | N/D | 
| cluster\$1failed\$1node\$1count | Numero di nodi non riusciti nel cluster | cluster\$1failed\$1node\$1count | 
| cluster\$1cpu\$1count | Numero totale di core CPU nel cluster | node\$1cpu\$1limit | 
| cluster\$1idle\$1cpu\$1count | Numero di core CPU inattivi nel cluster | N/D | 
| cluster\$1gpu\$1count | Totale GPUs nel cluster | node\$1gpu\$1limit | 
| cluster\$1idle\$1gpu\$1count | Numero di inattività GPUs nel cluster | N/D | 
| cluster\$1running\$1task\$1count | Numero di processi Slurm in esecuzione nel cluster | N/D | 
| cluster\$1pending\$1task\$1count | Numero di processi Slurm in sospeso nel cluster | N/D | 
| cluster\$1preempted\$1task\$1count | Numero di processi Slurm prerilasciati nel cluster | N/D | 
| cluster\$1avg\$1task\$1wait\$1time | Tempo di attesa medio per i processi Slurm nel cluster | N/D | 
| cluster\$1max\$1task\$1wait\$1time | Tempo di attesa massimo per i processi Slurm nel cluster | N/D | 

## Metriche a livello di istanza
<a name="smcluster-slurm-metrics-instance"></a>

Le seguenti metriche a livello di istanza sono disponibili per. HyperPod Queste metriche utilizzano la `ClusterId` dimensione anche per identificare il cluster specifico. HyperPod 


| CloudWatch nome della metrica | Note | Nome della metrica di Amazon ECS Container Insights | 
| --- | --- | --- | 
| node\$1gpu\$1utilization | Utilizzo medio della GPU in tutte le istanze | node\$1gpu\$1utilization | 
| node\$1gpu\$1memory\$1utilization | Utilizzo medio della memoria GPU in tutte le istanze | node\$1gpu\$1memory\$1utilization | 
| node\$1cpu\$1utilization | Utilizzo medio della CPU in tutte le istanze | node\$1cpu\$1utilization | 
| node\$1memory\$1utilization | Utilizzo medio della memoria in tutte le istanze | node\$1memory\$1utilization |