

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Instalando pacotes de exportação de métricas em seu cluster HyperPod
<a name="sagemaker-hyperpod-cluster-observability-slurm-install-exporters"></a>

Na [configuração básica, os scripts de ciclo](sagemaker-hyperpod-lifecycle-best-practices-slurm-slurm-base-config.md) de vida fornecidos pela SageMaker HyperPod equipe também incluem a instalação de vários pacotes de exportadores de métricas. Para ativar a etapa de instalação, a única coisa que você precisa fazer é definir o parâmetro `enable_observability=True` no arquivo [https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py). Os scripts de ciclo de vida foram projetados para inicializar seu cluster com os seguintes pacotes de exportação de métricas de código aberto:


|  |  |  | 
| --- |--- |--- |
| Nome | Nó de destino da implantação do script | Descrição do exportador | 
| [Exportador de slurm para Prometheus](https://github.com/vpenso/prometheus-slurm-exporter) | Nó principal (controlador) |  Exporta métricas do Slurm Accounting.  | 
|  [exportador de nó Elastic Fabric Adapter (EFA)](https://github.com/aws-samples/awsome-distributed-training/tree/main/4.validation_and_observability/3.efa-node-exporter)  |  Nó de computação  |  Exporta métricas dos nós do cluster e do EFA. O pacote é uma bifurcação do [exportador de nós Prometheus](https://github.com/prometheus/node_exporter).  | 
|  [Exportador de gerenciamento de GPU de data center NVIDIA (DCGM)](https://github.com/NVIDIA/dcgm-exporter)  | Nó de computação |  Exporta métricas NVIDIA DCGM sobre integridade e desempenho da NVIDIA. GPUs  | 

Com o `enable_observability=True` do arquivo [https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py), a etapa de instalação a seguir é ativada no script [https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/lifecycle_script.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/lifecycle_script.py). 

```
# Install metric exporting software and Prometheus for observability
if Config.enable_observability:
    if node_type == SlurmNodeType.COMPUTE_NODE:
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_dcgm_exporter.sh").run()
        ExecuteBashScript("./utils/install_efa_node_exporter.sh").run()

    if node_type == SlurmNodeType.HEAD_NODE:
        wait_for_scontrol()
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_slurm_exporter.sh").run()
        ExecuteBashScript("./utils/install_prometheus.sh").run()
```

Nos nós de computação, o script instala o exportador NVIDIA Data Center GPU Management (DCGM) e o exportador de nós Elastic Fabric Adapter (EFA). O exportador DCGM é um exportador da Prometheus que coleta métricas da NVIDIA, permitindo o monitoramento do uso, desempenho e integridade da GPUs GPU. O exportador de nós EFA, por outro lado, reúne métricas relacionadas à interface de rede EFA, que é essencial para comunicação de baixa latência e alta largura de banda em clusters de HPC.

[No nó principal, o script instala o exportador Slurm para o Prometheus e o software de código aberto Prometheus.](https://prometheus.io/docs/introduction/overview/) O exportador Slurm fornece ao Prometheus métricas relacionadas a trabalhos, partições e estados de nó do Slurm.

Observe que os scripts de ciclo de vida são projetados para instalar todos os pacotes do exportador como contêineres do Docker, portanto, o pacote Docker também deve ser instalado nos nós principal e de computação. Os scripts desses componentes são fornecidos convenientemente na [https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/utils](https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/utils)pasta do repositório do *Awsome Distributed Training GitHub *.

Depois de configurar com sucesso seu HyperPod cluster instalado com os pacotes do exportador, vá para o próximo tópico para concluir a configuração do Amazon Managed Service para Prometheus e Amazon Managed Grafana.