

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Memvalidasi pengaturan Prometheus pada node kepala cluster HyperPod
<a name="sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup"></a>

Setelah Anda berhasil mengatur HyperPod cluster Anda diinstal dengan paket eksportir, periksa apakah Prometheus diatur dengan benar di node kepala cluster Anda. HyperPod 

1. Connect ke node kepala cluster Anda. Untuk petunjuk tentang mengakses node, lihat[Mengakses node SageMaker HyperPod cluster Anda](sagemaker-hyperpod-run-jobs-slurm-access-nodes.md).

1. Jalankan perintah berikut untuk memverifikasi konfigurasi Prometheus dan file layanan yang dibuat oleh skrip siklus hidup `install_prometheus.sh` berjalan pada node pengontrol. Output harus menunjukkan status Aktif sebagai**active (running)**.

   ```
   $ sudo systemctl status prometheus
   • prometheus service - Prometheus Exporter
   Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled)
   Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago
   Main PID: 12345 (prometheus)
   Tasks: 7 (limit: 9281)
   Memory: 35M
   CPU: 234ms
   CGroup: /system.slice/prometheus.service
           -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
   ```

1. Validasi file konfigurasi Prometheus sebagai berikut. Outputnya harus mirip dengan berikut ini, dengan tiga eksportir dikonfigurasi dengan alamat IP node komputasi yang tepat.

   ```
   $ cat /etc/prometheus/prometheus.yml
   global:
     scrape_interval: 15s
     evaluation_interval: 15s
     scrape_timeout: 15s
   
   scrape_configs:
     - job_name: 'slurm_exporter'
       static_configs:
         - targets:
             - 'localhost:8080'
     - job_name: 'dcgm_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9400'
             - '<ComputeNodeIP>:9400'
     - job_name: 'efa_node_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9100'
             - '<ComputeNodeIP>:9100'
   
   remote_write:
     - url: <AMPReoteWriteURL>
       queue_config:
         max_samples_per_send: 1000
         max_shards: 200
         capacity: 2500
       sigv4:
         region: <Region>
   ```

1. Untuk menguji apakah Prometheus mengekspor metrik Slurm, DCGM, dan EFA dengan benar, jalankan perintah berikut untuk Prometheus pada port pada node kepala. `curl` `:9090`

   ```
   $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
   ```

   Dengan metrik yang diekspor ke Amazon Managed Service untuk Prometheus Workspace melalui konfigurasi penulisan jarak jauh Prometheus dari node pengontrol, Anda dapat melanjutkan ke topik berikutnya untuk menyiapkan dasbor Grafana Terkelola Amazon untuk menampilkan metrik.