

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Installazione HyperPod dei pacchetti Metrics Exporter sul tuo cluster
<a name="sagemaker-hyperpod-cluster-observability-slurm-install-exporters"></a>

Nella [configurazione di base, gli script del ciclo](sagemaker-hyperpod-lifecycle-best-practices-slurm-slurm-base-config.md) di vita forniti dal SageMaker HyperPod team includono anche l'installazione di vari pacchetti Metric Exporter. Per attivare la fase di installazione, devi semplicemente impostare il parametro `enable_observability=True` nel file [https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py). Gli script del ciclo di vita sono progettati per il bootstrap del cluster con i seguenti pacchetti di esportazione di metriche open source.


|  |  |  | 
| --- |--- |--- |
| Nome | Nodo di destinazione per l’implementazione degli script | Descrizione dello strumento di esportazione | 
| [Strumento di esportazione Slurm per Prometheus](https://github.com/vpenso/prometheus-slurm-exporter) | Nodo head (controller) |  Esporta le metriche di accounting Slurm.  | 
|  [Esportazione di nodi Elastic Fabric Adapter (EFA)](https://github.com/aws-samples/awsome-distributed-training/tree/main/4.validation_and_observability/3.efa-node-exporter)  |  Nodo di calcolo  |  Esporta le metriche dai nodi del cluster e da EFA. Il pacchetto è un fork dello [strumento di esportazione di nodi Prometheus](https://github.com/prometheus/node_exporter).  | 
|  [Strumento di esportazione di NVIDIA Data Center GPU Management (DCGM)](https://github.com/NVIDIA/dcgm-exporter)  | Nodo di calcolo |  Esporta i parametri NVIDIA DCGM sullo stato e le prestazioni di NVIDIA. GPUs  | 

Con `enable_observability=True` nel file [https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py), nello script viene attivata la fase di installazione seguente [https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/lifecycle_script.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/lifecycle_script.py). 

```
# Install metric exporting software and Prometheus for observability
if Config.enable_observability:
    if node_type == SlurmNodeType.COMPUTE_NODE:
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_dcgm_exporter.sh").run()
        ExecuteBashScript("./utils/install_efa_node_exporter.sh").run()

    if node_type == SlurmNodeType.HEAD_NODE:
        wait_for_scontrol()
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_slurm_exporter.sh").run()
        ExecuteBashScript("./utils/install_prometheus.sh").run()
```

Sui nodi di calcolo, lo script installa lo strumento di esportazione di nodi NVIDIA Data Center GPU Management (DCGM) e lo strumento di esportazione di nodi Elastic Fabric Adapter (EFA). L'esportatore DCGM è un esportatore per Prometheus che raccoglie metriche da GPUs NVIDIA, abilitando il monitoraggio dell'utilizzo, delle prestazioni e dello stato della GPU. Lo strumento di esportazione di nodi EFA, invece, raccoglie metriche relative all’interfaccia di rete EFA, essenziale per comunicazioni a bassa latenza e larghezza di banda elevata nei cluster HPC.

Sul nodo head, lo script installa lo strumento di esportazione Slurm per Prometheus e il [software open source Prometheus](https://prometheus.io/docs/introduction/overview/). Lo strumento di esportazione Slurm fornisce a Prometheus le metriche relative ai processi, alle partizioni e agli stati dei nodi Slurm.

Nota che gli script del ciclo di vita sono progettati per installare tutti i pacchetti di esportazione come container Docker, quindi il pacchetto Docker deve essere installato anche sui nodi head e di calcolo. *Gli script per questi componenti sono comodamente disponibili nella cartella del repository Awsome Distributed Training. [https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/utils](https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/utils) GitHub *

Dopo aver configurato correttamente il HyperPod cluster installato con i pacchetti di esportazione, passa all'argomento successivo per completare la configurazione di Amazon Managed Service for Prometheus e Amazon Managed Grafana.