

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Validando a configuração do Prometheus no nó principal de um cluster HyperPod
<a name="sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup"></a>

Depois de configurar com sucesso o HyperPod cluster instalado com os pacotes do exportador, verifique se o Prometheus está configurado corretamente no nó principal do seu cluster. HyperPod 

1. Conecte-se ao nó principal do seu cluster. Para instruções sobre como acessar um nó, consulte [Acessando seus nós SageMaker HyperPod de cluster](sagemaker-hyperpod-run-jobs-slurm-access-nodes.md).

1. Execute o comando a seguir para verificar se o arquivo de configuração e serviço do Prometheus criado pelo `install_prometheus.sh` script do ciclo de vida está sendo executado no nó do controlador. A saída deve mostrar o status Ativo como **active (running)**.

   ```
   $ sudo systemctl status prometheus
   • prometheus service - Prometheus Exporter
   Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled)
   Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago
   Main PID: 12345 (prometheus)
   Tasks: 7 (limit: 9281)
   Memory: 35M
   CPU: 234ms
   CGroup: /system.slice/prometheus.service
           -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
   ```

1. Valide o arquivo de configuração do Prometheus da seguinte forma: A saída deve ser semelhante à seguinte, com três exportadores configurados com os endereços IP corretos do nó de computação:

   ```
   $ cat /etc/prometheus/prometheus.yml
   global:
     scrape_interval: 15s
     evaluation_interval: 15s
     scrape_timeout: 15s
   
   scrape_configs:
     - job_name: 'slurm_exporter'
       static_configs:
         - targets:
             - 'localhost:8080'
     - job_name: 'dcgm_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9400'
             - '<ComputeNodeIP>:9400'
     - job_name: 'efa_node_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9100'
             - '<ComputeNodeIP>:9100'
   
   remote_write:
     - url: <AMPReoteWriteURL>
       queue_config:
         max_samples_per_send: 1000
         max_shards: 200
         capacity: 2500
       sigv4:
         region: <Region>
   ```

1. Para testar se o Prometheus está exportando as métricas Slurm, DCGM e EFA corretamente, execute o comando `curl` a seguir para o Prometheus na porta do nó principal `:9090`.

   ```
   $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
   ```

   Com as métricas exportadas para o Amazon Managed Service for Prometheus Workspace por meio da configuração de gravação remota do Prometheus a partir do nó controlador, você pode prosseguir para o próximo tópico para configurar os painéis do Amazon Managed Grafana para exibir as métricas.