

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# HyperPod クラスターのヘッドノードで Prometheus セットアップを検証する
<a name="sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup"></a>

エクスポーターパッケージでインストールされた HyperPod クラスターを正常に設定したら、HyperPod クラスターのヘッドノードで Prometheus が適切に設定されているかどうかを確認します。

1. クラスターのマスターノードに接続します。ノードへのアクセス手順については、「[SageMaker HyperPod クラスターノードへのアクセス](sagemaker-hyperpod-run-jobs-slurm-access-nodes.md)」を参照してください。

1. 次のコマンドを実行して、ライフサイクルスクリプト `install_prometheus.sh` によって作成された Prometheus 設定およびサービスファイルがコントローラーノードで実行されていることを確認します。出力にはアクティブステータスが **active (running)** と表示されます。

   ```
   $ sudo systemctl status prometheus
   • prometheus service - Prometheus Exporter
   Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled)
   Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago
   Main PID: 12345 (prometheus)
   Tasks: 7 (limit: 9281)
   Memory: 35M
   CPU: 234ms
   CGroup: /system.slice/prometheus.service
           -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
   ```

1. 次のように Prometheus 設定ファイルを検証します。出力は、次のようになります。3 つのエクスポーターが適切なコンピューティングノード IP アドレスで設定されています。

   ```
   $ cat /etc/prometheus/prometheus.yml
   global:
     scrape_interval: 15s
     evaluation_interval: 15s
     scrape_timeout: 15s
   
   scrape_configs:
     - job_name: 'slurm_exporter'
       static_configs:
         - targets:
             - 'localhost:8080'
     - job_name: 'dcgm_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9400'
             - '<ComputeNodeIP>:9400'
     - job_name: 'efa_node_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9100'
             - '<ComputeNodeIP>:9100'
   
   remote_write:
     - url: <AMPReoteWriteURL>
       queue_config:
         max_samples_per_send: 1000
         max_shards: 200
         capacity: 2500
       sigv4:
         region: <Region>
   ```

1. Prometheus により Slurm、DCGM、EFA メトリクスが適切にエクスポートされるかどうかをテストするには、ヘッドノードのポート `:9090` で Prometheus に対して次の `curl` コマンドを実行します。

   ```
   $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
   ```

   コントローラーノードから Prometheus リモート書き込み設定を使用してメトリクスを Amazon Managed Service for Prometheus Workspace にエクスポートしたら、次のトピックに進み、メトリクスが表示されるよう Amazon Managed Grafana ダッシュボードを設定できます。