

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Validation de la configuration de Prometheus sur le nœud principal d'un cluster HyperPod
<a name="sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup"></a>

Après avoir correctement configuré votre HyperPod cluster installé avec les packages d'exportation, vérifiez si Prometheus est correctement configuré sur le nœud principal de votre cluster. HyperPod 

1. Connectez-vous au nœud principal de votre cluster. Pour obtenir des instructions sur la façon d’accéder à un nœud, consultez [Accès aux nœuds SageMaker HyperPod de votre cluster](sagemaker-hyperpod-run-jobs-slurm-access-nodes.md).

1. Exécutez la commande suivante pour vérifier que le fichier de configuration et de service de Prometheus, créé par le script de cycle de vie `install_prometheus.sh`, est exécuté sur le nœud de contrôleur. La sortie doit afficher le statut Actif sous la forme **active (running)**.

   ```
   $ sudo systemctl status prometheus
   • prometheus service - Prometheus Exporter
   Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled)
   Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago
   Main PID: 12345 (prometheus)
   Tasks: 7 (limit: 9281)
   Memory: 35M
   CPU: 234ms
   CGroup: /system.slice/prometheus.service
           -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
   ```

1. Validez le fichier de configuration de Prometheus comme suit. La sortie doit être similaire à la suivante, avec trois exportateurs configurés avec les bonnes adresses IP des nœuds de calcul.

   ```
   $ cat /etc/prometheus/prometheus.yml
   global:
     scrape_interval: 15s
     evaluation_interval: 15s
     scrape_timeout: 15s
   
   scrape_configs:
     - job_name: 'slurm_exporter'
       static_configs:
         - targets:
             - 'localhost:8080'
     - job_name: 'dcgm_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9400'
             - '<ComputeNodeIP>:9400'
     - job_name: 'efa_node_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9100'
             - '<ComputeNodeIP>:9100'
   
   remote_write:
     - url: <AMPReoteWriteURL>
       queue_config:
         max_samples_per_send: 1000
         max_shards: 200
         capacity: 2500
       sigv4:
         region: <Region>
   ```

1. Pour vérifier si Prometheus exporte correctement les métriques Slurm, DCGM et EFA, exécutez la commande `curl` suivante pour Prometheus sur le port `:9090` du nœud principal.

   ```
   $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
   ```

   Les métriques étant exportées vers l’espace de travail Service géré Amazon pour Prometheus via la configuration d’écriture à distance de Prometheus depuis le nœud de contrôleur, vous pouvez passer à la rubrique suivante pour configurer les tableaux de bord Amazon Managed Grafana afin d’afficher ces métriques.