

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在 HyperPod 叢集主節點上驗證 Prometheus 設定
<a name="sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup"></a>

在您成功設定了與匯出工具套件一起安裝的 HyperPod 叢集之後，請檢查是否已在 HyperPod 叢集主節點上正確設定 Prometheus。

1. 連接至您的叢集主節點。如需存取節點的指示，請參閱[存取您的 SageMaker HyperPod 叢集節點](sagemaker-hyperpod-run-jobs-slurm-access-nodes.md)。

1. 執行下列命令，以驗證生命週期指令碼 `install_prometheus.sh` 建立的 Prometheus 組態和服務檔案是否正在控制器節點上執行。輸出應將作用中狀態顯示為 **active (running)**。

   ```
   $ sudo systemctl status prometheus
   • prometheus service - Prometheus Exporter
   Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled)
   Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago
   Main PID: 12345 (prometheus)
   Tasks: 7 (limit: 9281)
   Memory: 35M
   CPU: 234ms
   CGroup: /system.slice/prometheus.service
           -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
   ```

1. 驗證 Prometheus 組態檔案，如下所示。輸出必須類似於以下內容，其中三個匯出工具已設定有正確的運算節點 IP 位址。

   ```
   $ cat /etc/prometheus/prometheus.yml
   global:
     scrape_interval: 15s
     evaluation_interval: 15s
     scrape_timeout: 15s
   
   scrape_configs:
     - job_name: 'slurm_exporter'
       static_configs:
         - targets:
             - 'localhost:8080'
     - job_name: 'dcgm_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9400'
             - '<ComputeNodeIP>:9400'
     - job_name: 'efa_node_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9100'
             - '<ComputeNodeIP>:9100'
   
   remote_write:
     - url: <AMPReoteWriteURL>
       queue_config:
         max_samples_per_send: 1000
         max_shards: 200
         capacity: 2500
       sigv4:
         region: <Region>
   ```

1. 若要測試 Prometheus 是否正確匯出 Slurm、DCGM 和 EFA 指標，請在主節點的連接埠 `:9090` 上針對 Prometheus 執行下列 `curl` 命令。

   ```
   $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
   ```

   使用透過 Prometheus 遠端寫入組態從控制器節點匯出至 Amazon Managed Service for Prometheus 工作區的指標，您可以繼續進行下一個主題，設定 Amazon Managed Grafana 儀表板以顯示指標。