

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 验证集群头节点上的 Prometheus 设置 HyperPod
<a name="sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup"></a>

成功设置安装了导出器包的 HyperPod 集群后，请检查集群的主节点上是否正确设置了 Prometheus。 HyperPod 

1. 连接到集群的主节点。有关访问节点的说明，请参见 [访问您的 SageMaker HyperPod 集群节点](sagemaker-hyperpod-run-jobs-slurm-access-nodes.md)。

1. 运行以下命令验证生命周期脚本 `install_prometheus.sh` 创建的 Prometheus 配置和服务文件是否在控制器节点上运行。输出结果应显示活动状态为 **active (running)**。

   ```
   $ sudo systemctl status prometheus
   • prometheus service - Prometheus Exporter
   Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled)
   Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago
   Main PID: 12345 (prometheus)
   Tasks: 7 (limit: 9281)
   Memory: 35M
   CPU: 234ms
   CGroup: /system.slice/prometheus.service
           -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
   ```

1. 按如下步骤验证 Prometheus 配置文件。输出结果必须与下面类似，三个出口程序配置了正确的计算节点 IP 地址。

   ```
   $ cat /etc/prometheus/prometheus.yml
   global:
     scrape_interval: 15s
     evaluation_interval: 15s
     scrape_timeout: 15s
   
   scrape_configs:
     - job_name: 'slurm_exporter'
       static_configs:
         - targets:
             - 'localhost:8080'
     - job_name: 'dcgm_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9400'
             - '<ComputeNodeIP>:9400'
     - job_name: 'efa_node_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9100'
             - '<ComputeNodeIP>:9100'
   
   remote_write:
     - url: <AMPReoteWriteURL>
       queue_config:
         max_samples_per_send: 1000
         max_shards: 200
         capacity: 2500
       sigv4:
         region: <Region>
   ```

1. 要测试 Prometheus 是否正确导出 Slurm、DCGM 和 EFA 指标，请在主节点的 `:9090` 端口为 Prometheus 运行以下 `curl` 命令。

   ```
   $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
   ```

   通过控制器节点的 Prometheus 远程写入配置将指标导出到 Amazon Managed Service for Prometheus Workspace 后，您就可以进入下一个主题，设置 Amazon Managed Grafana 面板来显示指标。