Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# SageMaker HyperPod pemantauan sumber daya cluster
<a name="sagemaker-hyperpod-cluster-observability-slurm"></a>

[Untuk mencapai observabilitas komprehensif ke dalam sumber daya SageMaker HyperPod klaster dan komponen perangkat lunak Anda, integrasikan klaster dengan [Amazon Managed Service untuk Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html) dan Amazon Managed Grafana.](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html) Integrasi dengan Amazon Managed Service untuk Prometheus memungkinkan ekspor metrik yang terkait dengan sumber daya klaster HyperPod Anda, memberikan wawasan tentang kinerja, pemanfaatan, dan kesehatannya. Integrasi dengan Grafana Terkelola Amazon memungkinkan visualisasi metrik ini melalui berbagai dasbor Grafana yang menawarkan antarmuka intuitif untuk memantau dan menganalisis perilaku cluster. Dengan memanfaatkan layanan ini, Anda mendapatkan tampilan HyperPod kluster yang terpusat dan terpadu, memfasilitasi pemantauan proaktif, pemecahan masalah, dan optimalisasi beban kerja pelatihan terdistribusi Anda.

**Tip**  
Untuk menemukan contoh dan solusi praktis, lihat juga [SageMaker HyperPodlokakarya](https://catalog.workshops.aws/sagemaker-hyperpod).

![\[Ikhtisar konfigurasi SageMaker HyperPod dengan Amazon Managed Service untuk Prometheus dan Amazon Managed Grafana.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/hyperpod-observability-architecture.png)


Gambar: Diagram arsitektur ini menunjukkan ikhtisar konfigurasi SageMaker HyperPod dengan Amazon Managed Service untuk Prometheus dan Amazon Managed Grafana.

Lanjutkan ke topik berikut untuk menyiapkan observabilitas SageMaker HyperPod cluster.

**Topics**
+ [Prasyarat untuk observabilitas cluster SageMaker HyperPod](sagemaker-hyperpod-cluster-observability-slurm-prerequisites.md)
+ [Menginstal paket eksportir metrik di klaster Anda HyperPod](sagemaker-hyperpod-cluster-observability-slurm-install-exporters.md)
+ [Memvalidasi pengaturan Prometheus pada node kepala cluster HyperPod](sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup.md)
+ [Menyiapkan ruang kerja Grafana yang Dikelola Amazon](sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws.md)
+ [Referensi metrik yang diekspor](sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference.md)
+ [Metrik Amazon SageMaker HyperPod Slurm](smcluster-slurm-metrics.md)

# Prasyarat untuk observabilitas cluster SageMaker HyperPod
<a name="sagemaker-hyperpod-cluster-observability-slurm-prerequisites"></a>

Sebelum melanjutkan dengan langkah-langkah untuk[Menginstal paket eksportir metrik di klaster Anda HyperPod](sagemaker-hyperpod-cluster-observability-slurm-install-exporters.md), pastikan bahwa prasyarat berikut terpenuhi.

## Aktifkan Pusat Identitas IAM
<a name="sagemaker-hyperpod-cluster-observability-slurm-prerequisites-iam-id-center"></a>

Untuk mengaktifkan observabilitas untuk SageMaker HyperPod cluster Anda, Anda harus terlebih dahulu mengaktifkan IAM Identity Center. Ini adalah prasyarat untuk menerapkan CloudFormation tumpukan yang menyiapkan ruang kerja Grafana Terkelola Amazon dan Layanan Terkelola Amazon untuk Prometheus. Kedua layanan ini juga memerlukan Pusat Identitas IAM untuk otentikasi dan otorisasi, memastikan akses pengguna yang aman dan pengelolaan infrastruktur pemantauan.

Untuk panduan terperinci tentang mengaktifkan Pusat Identitas IAM, lihat bagian [Mengaktifkan Pusat Identitas IAM di Panduan Pengguna Pusat Identitas AWS](https://docs.aws.amazon.com/singlesignon/latest/userguide/get-set-up-for-idc.html) *IAM*. 

Setelah berhasil mengaktifkan IAM Identity Center, siapkan akun pengguna yang akan berfungsi sebagai pengguna administratif di seluruh konfigurasi berikut sebelumnya.

## Buat dan terapkan CloudFormation tumpukan untuk observabilitas SageMaker HyperPod
<a name="sagemaker-hyperpod-cluster-observability-slurm-prerequisites-cloudformation-stack"></a>

Buat dan terapkan CloudFormation tumpukan untuk SageMaker HyperPod observabilitas guna memantau metrik HyperPod klaster secara real time menggunakan Amazon Managed Service untuk Prometheus dan Amazon Managed Grafana. Untuk menyebarkan tumpukan, perhatikan bahwa Anda juga harus mengaktifkan [Pusat Identitas IAM](https://console.aws.amazon.com/singlesignon) Anda sebelumnya.

Gunakan CloudFormation skrip contoh [https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/4.prometheus-grafana/cluster-observability.yaml](https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/4.prometheus-grafana/cluster-observability.yaml)yang membantu Anda mengatur subnet Amazon VPC, sistem file Amazon FSx untuk Lustre, bucket Amazon S3, dan peran IAM yang diperlukan untuk membuat tumpukan observabilitas cluster. HyperPod 

# Menginstal paket eksportir metrik di klaster Anda HyperPod
<a name="sagemaker-hyperpod-cluster-observability-slurm-install-exporters"></a>

Dalam [skrip siklus hidup konfigurasi dasar](sagemaker-hyperpod-lifecycle-best-practices-slurm-slurm-base-config.md) yang disediakan SageMaker HyperPod tim juga mencakup instalasi berbagai paket eksportir metrik. Untuk mengaktifkan langkah instalasi, satu-satunya hal yang perlu Anda lakukan adalah mengatur parameter `enable_observability=True` dalam [https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py)file. Skrip siklus hidup dirancang untuk mem-bootstrap klaster Anda dengan paket eksportir metrik sumber terbuka berikut.


|  |  |  | 
| --- |--- |--- |
| Nama | Node target penyebaran skrip | Deskripsi eksportir | 
| [Eksportir slurm untuk Prometheus](https://github.com/vpenso/prometheus-slurm-exporter) | Kepala (pengontrol) simpul |  Mengekspor metrik Akuntansi Slurm.  | 
|  [Eksportir simpul Elastic Fabric Adapter (EFA)](https://github.com/aws-samples/awsome-distributed-training/tree/main/4.validation_and_observability/3.efa-node-exporter)  |  Hitung simpul  |  Mengekspor metrik dari node cluster dan EFA. Paket ini adalah garpu dari eksportir [simpul Prometheus](https://github.com/prometheus/node_exporter).  | 
|  [Eksportir Manajemen GPU Pusat Data NVIDIA (DCGM)](https://github.com/NVIDIA/dcgm-exporter)  | Hitung simpul |  Mengekspor metrik NVIDIA DCGM tentang kesehatan dan kinerja NVIDIA. GPUs  | 

Dengan `enable_observability=True` dalam [https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py)file, langkah instalasi berikut diaktifkan dalam [https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/lifecycle_script.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/lifecycle_script.py)skrip. 

```
# Install metric exporting software and Prometheus for observability
if Config.enable_observability:
    if node_type == SlurmNodeType.COMPUTE_NODE:
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_dcgm_exporter.sh").run()
        ExecuteBashScript("./utils/install_efa_node_exporter.sh").run()

    if node_type == SlurmNodeType.HEAD_NODE:
        wait_for_scontrol()
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_slurm_exporter.sh").run()
        ExecuteBashScript("./utils/install_prometheus.sh").run()
```

Pada node komputasi, skrip menginstal eksportir NVIDIA Data Center GPU Management (DCGM) dan eksportir node Elastic Fabric Adapter (EFA). Eksportir DCGM adalah eksportir untuk Prometheus yang mengumpulkan metrik dari GPUs NVIDIA, memungkinkan pemantauan penggunaan, kinerja, dan kesehatan GPU. Eksportir node EFA, di sisi lain, mengumpulkan metrik yang terkait dengan antarmuka jaringan EFA, yang penting untuk komunikasi latensi rendah dan bandwidth tinggi di cluster HPC.

[Pada node kepala, skrip menginstal eksportir Slurm untuk Prometheus dan perangkat lunak open-source Prometheus.](https://prometheus.io/docs/introduction/overview/) Eksportir Slurm menyediakan Prometheus dengan metrik yang terkait dengan pekerjaan Slurm, partisi, dan status node.

Perhatikan bahwa skrip siklus hidup dirancang untuk menginstal semua paket eksportir sebagai wadah docker, jadi paket Docker juga harus diinstal pada node head dan compute. Skrip untuk komponen ini disediakan dengan mudah di [https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/utils](https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/utils)folder repositori *Pelatihan GitHub Terdistribusi Awsome*.

Setelah berhasil menyiapkan HyperPod klaster yang diinstal dengan paket eksportir, lanjutkan ke topik berikutnya untuk menyelesaikan penyiapan Amazon Managed Service untuk Prometheus dan Amazon Managed Grafana.

# Memvalidasi pengaturan Prometheus pada node kepala cluster HyperPod
<a name="sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup"></a>

Setelah Anda berhasil mengatur HyperPod cluster Anda diinstal dengan paket eksportir, periksa apakah Prometheus diatur dengan benar di node kepala cluster Anda. HyperPod 

1. Connect ke node kepala cluster Anda. Untuk petunjuk tentang mengakses node, lihat[Mengakses node SageMaker HyperPod cluster Anda](sagemaker-hyperpod-run-jobs-slurm-access-nodes.md).

1. Jalankan perintah berikut untuk memverifikasi konfigurasi Prometheus dan file layanan yang dibuat oleh skrip siklus hidup `install_prometheus.sh` berjalan pada node pengontrol. Output harus menunjukkan status Aktif sebagai**active (running)**.

   ```
   $ sudo systemctl status prometheus
   • prometheus service - Prometheus Exporter
   Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled)
   Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago
   Main PID: 12345 (prometheus)
   Tasks: 7 (limit: 9281)
   Memory: 35M
   CPU: 234ms
   CGroup: /system.slice/prometheus.service
           -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
   ```

1. Validasi file konfigurasi Prometheus sebagai berikut. Outputnya harus mirip dengan berikut ini, dengan tiga eksportir dikonfigurasi dengan alamat IP node komputasi yang tepat.

   ```
   $ cat /etc/prometheus/prometheus.yml
   global:
     scrape_interval: 15s
     evaluation_interval: 15s
     scrape_timeout: 15s
   
   scrape_configs:
     - job_name: 'slurm_exporter'
       static_configs:
         - targets:
             - 'localhost:8080'
     - job_name: 'dcgm_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9400'
             - '<ComputeNodeIP>:9400'
     - job_name: 'efa_node_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9100'
             - '<ComputeNodeIP>:9100'
   
   remote_write:
     - url: <AMPReoteWriteURL>
       queue_config:
         max_samples_per_send: 1000
         max_shards: 200
         capacity: 2500
       sigv4:
         region: <Region>
   ```

1. Untuk menguji apakah Prometheus mengekspor metrik Slurm, DCGM, dan EFA dengan benar, jalankan perintah berikut untuk Prometheus pada port pada node kepala. `curl` `:9090`

   ```
   $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
   ```

   Dengan metrik yang diekspor ke Amazon Managed Service untuk Prometheus Workspace melalui konfigurasi penulisan jarak jauh Prometheus dari node pengontrol, Anda dapat melanjutkan ke topik berikutnya untuk menyiapkan dasbor Grafana Terkelola Amazon untuk menampilkan metrik.

# Menyiapkan ruang kerja Grafana yang Dikelola Amazon
<a name="sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws"></a>

Buat ruang kerja Grafana Terkelola Amazon baru atau perbarui ruang kerja Grafana Terkelola Amazon yang sudah ada dengan Amazon Managed Service untuk Prometheus sebagai sumber data.

**Topics**
+ [Buat ruang kerja Grafana dan atur Amazon Managed Service untuk Prometheus sebagai sumber data](#sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-create)
+ [Buka ruang kerja Grafana dan selesaikan pengaturan sumber data](#sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-connect-data-source)
+ [Impor dasbor Grafana sumber terbuka](#sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-import-dashboards)

## Buat ruang kerja Grafana dan atur Amazon Managed Service untuk Prometheus sebagai sumber data
<a name="sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-create"></a>

Untuk memvisualisasikan metrik dari Layanan Terkelola Amazon untuk Prometheus, buat ruang kerja Grafana Terkelola Amazon dan atur agar menggunakan Layanan Terkelola Amazon untuk Prometheus sebagai sumber data.

1. Untuk membuat ruang kerja Grafana, ikuti petunjuk di [Membuat ruang kerja di Amazon Managed](https://docs.aws.amazon.com/grafana/latest/userguide/AMG-create-workspace.html#creating-workspace) *Service for Prometheus* User Guide.

   1. Pada Langkah 13, pilih Amazon Managed Service for Prometheus sebagai sumber data.

   1. Pada Langkah 17, Anda dapat menambahkan pengguna admin dan juga pengguna lain di Pusat Identitas IAM Anda.

Untuk informasi selengkapnya, lihat juga sumber daya berikut.
+ [https://docs.aws.amazon.com/prometheus/latest/userguide/AMP-amg.html](https://docs.aws.amazon.com/prometheus/latest/userguide/AMP-amg.html)
+ [Gunakan konfigurasi sumber AWS data untuk menambahkan Layanan Terkelola Amazon untuk Prometheus sebagai sumber data](https://docs.aws.amazon.com/grafana/latest/userguide/AMP-adding-AWS-config.html) *di Panduan Pengguna Grafana Terkelola Amazon*

## Buka ruang kerja Grafana dan selesaikan pengaturan sumber data
<a name="sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-connect-data-source"></a>

Setelah Anda berhasil membuat atau memperbarui ruang kerja Grafana Terkelola Amazon, pilih URL ruang kerja untuk membuka ruang kerja. Ini meminta Anda untuk memasukkan nama pengguna dan kata sandi pengguna yang telah Anda atur di Pusat Identitas IAM. Anda harus masuk menggunakan pengguna admin untuk menyelesaikan pengaturan ruang kerja.

1. Di halaman **Beranda** ruang kerja, pilih **Aplikasi**, **Sumber AWS Data**, dan **Sumber data**.

1. Di halaman **Sumber data**, dan pilih tab **Sumber data**.

1. Untuk **Layanan**, pilih Amazon Managed Service untuk Prometheus.

1. Di bagian **Menelusuri dan menyediakan sumber data**, pilih AWS wilayah tempat Anda menyediakan Layanan Terkelola Amazon untuk ruang kerja Prometheus.

1. Dari daftar sumber data di Wilayah yang dipilih, pilih salah satu untuk Amazon Managed Service for Prometheus. Pastikan Anda memeriksa ID sumber daya dan alias sumber daya dari Amazon Managed Service untuk ruang kerja Prometheus yang telah Anda siapkan untuk tumpukan observabilitas. HyperPod 

## Impor dasbor Grafana sumber terbuka
<a name="sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-import-dashboards"></a>

Setelah berhasil menyiapkan ruang kerja Grafana Terkelola Amazon dengan Amazon Managed Service for Prometheus sebagai sumber data, Anda akan mulai mengumpulkan metrik ke Prometheus, dan kemudian akan mulai melihat berbagai dasbor yang menampilkan bagan, informasi, dan lainnya. Perangkat lunak open source Grafana menyediakan berbagai dasbor, dan Anda dapat mengimpornya ke Amazon Managed Grafana.

**Untuk mengimpor dasbor Grafana sumber terbuka ke Grafana Terkelola Amazon**

1. **Di halaman **Beranda** ruang kerja Grafana Terkelola Amazon Anda, pilih Dasbor.**

1. Pilih tombol menu tarik-turun dengan teks UI **Baru**, dan pilih **Impor**.

1. Tempel URL ke Dasbor [Slurm](https://grafana.com/grafana/dashboards/4323-slurm-dashboard/).

   ```
   https://grafana.com/grafana/dashboards/4323-slurm-dashboard/
   ```

1. Pilih **Beban**.

1. Ulangi langkah sebelumnya untuk mengimpor dasbor berikut.

   1. [Dasbor Penuh Node Exporter](https://grafana.com/grafana/dashboards/1860-node-exporter-full/)

      ```
      https://grafana.com/grafana/dashboards/1860-node-exporter-full/
      ```

   1. [Dasbor Eksportir NVIDIA DCGM](https://grafana.com/grafana/dashboards/12239-nvidia-dcgm-exporter-dashboard/)

      ```
      https://grafana.com/grafana/dashboards/12239-nvidia-dcgm-exporter-dashboard/
      ```

   1. [Dasbor Metrik EFA](https://grafana.com/grafana/dashboards/20579-efa-metrics-dev/)

      ```
      https://grafana.com/grafana/dashboards/20579-efa-metrics-dev/
      ```

   1. [FSx untuk Dasbor Metrik Lustre](https://grafana.com/grafana/dashboards/20906-fsx-lustre/)

      ```
      https://grafana.com/grafana/dashboards/20906-fsx-lustre/
      ```

# Referensi metrik yang diekspor
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference"></a>

Bagian berikut menyajikan daftar lengkap metrik yang diekspor dari ke SageMaker HyperPod Amazon Managed Service untuk Prometheus setelah konfigurasi stack yang berhasil untuk observabilitas. CloudFormation SageMaker HyperPod Anda dapat mulai memantau metrik ini yang divisualisasikan di dasbor Grafana Terkelola Amazon.

## Dasbor eksportir slurm
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-slurm-exporter"></a>

Memberikan informasi yang divisualisasikan dari cluster Slurm pada. SageMaker HyperPod

**Jenis metrik**
+ **Ikhtisar Cluster:** Menampilkan jumlah total node, pekerjaan, dan statusnya.
+ **Job Metrics:** Memvisualisasikan jumlah dan status pekerjaan dari waktu ke waktu.
+ **Metrik Node:** Menampilkan status node, alokasi, dan sumber daya yang tersedia.
+ **Metrik Partisi:** Memantau metrik khusus partisi seperti CPU, memori, dan pemanfaatan GPU.
+ **Job Efficiency:** Menghitung efisiensi pekerjaan berdasarkan sumber daya yang digunakan.

**Daftar metrik**


| Nama metrik | Deskripsi | 
| --- | --- | 
| slurm\$1job\$1count | Jumlah total pekerjaan di cluster Slurm | 
| slurm\$1job\$1state\$1count | Hitungan pekerjaan di setiap negara bagian (misalnya, berjalan, tertunda, selesai) | 
| slurm\$1node\$1count  | Jumlah total node di cluster Slurm | 
| slurm\$1node\$1state\$1count  | Hitungan node di setiap negara bagian (misalnya, idle, alloc, mix) | 
| slurm\$1partition\$1node\$1count  | Hitungan node di setiap partisi | 
| slurm\$1partition\$1job\$1count  | Hitungan pekerjaan di setiap partisi | 
| slurm\$1partition\$1alloc\$1cpus  | Jumlah total yang dialokasikan CPUs di setiap partisi | 
| slurm\$1partition\$1free\$1cpus  | Jumlah total yang tersedia CPUs di setiap partisi | 
| slurm\$1partition\$1alloc\$1memory  | Total memori yang dialokasikan di setiap partisi | 
| slurm\$1partition\$1free\$1memory  | Total memori yang tersedia di setiap partisi | 
| slurm\$1partition\$1alloc\$1gpus  | Total dialokasikan GPUs di setiap partisi | 
| slurm\$1partition\$1free\$1gpus  | Total tersedia GPUs di setiap partisi | 

## Dasbor eksportir simpul
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-node-exporter"></a>

Memberikan informasi visualisasi metrik sistem yang dikumpulkan oleh eksportir node Prometheus dari [node](https://github.com/prometheus/node_exporter) cluster. HyperPod 

**Jenis metrik**
+ **Ikhtisar sistem:** Menampilkan rata-rata beban CPU dan penggunaan memori.
+ **Metrik memori:** Memvisualisasikan pemanfaatan memori termasuk memori total, memori bebas, dan ruang swap.
+ **Penggunaan disk:** Memantau pemanfaatan dan ketersediaan ruang disk.
+ **Lalu lintas jaringan:** Menampilkan byte jaringan yang diterima dan ditransmisikan dari waktu ke waktu.
+ **Metrik sistem file:** Menganalisis penggunaan dan ketersediaan sistem file.
+ ** I/O Metrik disk:** Memvisualisasikan aktivitas membaca dan menulis disk.

**Daftar metrik**

[Untuk daftar lengkap metrik yang diekspor, lihat [Eksportir Node](https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default) dan repositori procfs.](https://github.com/prometheus/procfs?tab=readme-ov-file) GitHub Tabel berikut menunjukkan subset metrik yang memberikan wawasan tentang pemanfaatan sumber daya sistem seperti beban CPU, penggunaan memori, ruang disk, dan aktivitas jaringan.


| Nama metrik | Deskripsi | 
| --- | --- | 
|  node\$1load1  | Rata-rata beban 1 menit | 
|  node\$1load5  | Rata-rata beban 5 menit | 
|  node\$1load15  | Rata-rata beban 15 menit | 
|  node\$1memory\$1MemTotal  | Total memori sistem | 
|  node\$1memory\$1MemFree  | Memori sistem gratis | 
|  node\$1memory\$1MemAvailable  | Memori yang tersedia untuk alokasi ke proses | 
|  node\$1memory\$1Buffers  | Memori yang digunakan oleh kernel untuk buffering | 
|  node\$1memory\$1Cached  | Memori yang digunakan oleh kernel untuk caching data sistem file | 
|  node\$1memory\$1SwapTotal  | Total ruang swap yang tersedia | 
|  node\$1memory\$1SwapFree  | Ruang swap gratis | 
|  node\$1memory\$1SwapCached  | Memori yang pernah ditukar, ditukar kembali tetapi masih dalam swap | 
|  node\$1filesystem\$1avail\$1bytes  | Ruang disk yang tersedia dalam byte | 
|  node\$1filesystem\$1size\$1bytes  | Total ruang disk dalam byte | 
|  node\$1filesystem\$1free\$1bytes  | Ruang disk kosong dalam byte | 
|  node\$1network\$1receive\$1bytes  | Byte jaringan diterima | 
|  node\$1network\$1transmit\$1bytes  | Byte jaringan ditransmisikan | 
|  node\$1disk\$1read\$1bytes  | Byte disk dibaca | 
|  node\$1disk\$1written\$1bytes  | Byte disk ditulis | 

## Dasbor eksportir NVIDIA DCGM
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-nvidia-dcgm-exporter"></a>

Memberikan informasi visualisasi metrik GPU NVIDIA yang dikumpulkan oleh eksportir [NVIDIA](https://github.com/NVIDIA/dcgm-exporter) DCGM.

**Jenis metrik**
+ **Ikhtisar GPU:** Menampilkan pemanfaatan GPU, suhu, penggunaan daya, dan penggunaan memori. 
+ **Metrik Suhu:** Memvisualisasikan suhu GPU dari waktu ke waktu. 
+ **Penggunaan Daya:** Memantau penarikan daya GPU dan tren penggunaan daya. 
+ **Pemanfaatan Memori:** Menganalisis penggunaan memori GPU termasuk memori bekas, gratis, dan total. 
+ **Kecepatan Kipas:** Menampilkan kecepatan dan variasi kipas GPU. 
+ Kesalahan **ECC: Melacak kesalahan** ECC memori GPU dan kesalahan yang tertunda.

**Daftar metrik**

Tabel berikut menunjukkan daftar metrik yang memberikan wawasan tentang kesehatan dan kinerja GPU NVIDIA, termasuk frekuensi clock, suhu, penggunaan daya, pemanfaatan memori, kecepatan kipas, dan metrik kesalahan.


| Nama metrik | Deskripsi | 
| --- | --- | 
|  DCGM\$1FI\$1DEV\$1SM\$1CLOCK  | Frekuensi jam SM (in MHz) | 
|  DCGM\$1FI\$1DEV\$1MEM\$1CLOCK  | Frekuensi jam memori (in MHz) | 
|  DCGM\$1FI\$1DEV\$1MEMORY\$1TEMP  | Suhu memori (dalam C) | 
|  DCGM\$1FI\$1DEV\$1GPU\$1TEMP  | Suhu GPU (dalam C) | 
|  DCGM\$1FI\$1DEV\$1POWER\$1USAGE  | Daya tarik (dalam W) | 
|  DCGM\$1FI\$1DEV\$1TOTAL\$1ENERGY\$1CONSUMPTION  | Konsumsi energi total sejak boot (dalam mJ) | 
|  DCGM\$1FI\$1DEV\$1PCIE\$1REPLAY\$1COUNTER  | Jumlah total percobaan PCIe ulang | 
|  DCGM\$1FI\$1DEV\$1MEM\$1COPY\$1UTIL  | Pemanfaatan memori (dalam%) | 
|  DCGM\$1FI\$1DEV\$1ENC\$1UTIL  | Pemanfaatan encoder (dalam%) | 
|  DCGM\$1FI\$1DEV\$1DEC\$1UTIL  | Pemanfaatan decoder (dalam%) | 
|  DCGM\$1FI\$1DEV\$1XID\$1ERRORS  | Nilai kesalahan XID terakhir yang ditemui | 
|  DCGM\$1FI\$1DEV\$1FB\$1FREE  | Frame buffer memori bebas (dalam MiB) | 
|  DCGM\$1FI\$1DEV\$1FB\$1USED  | Memori buffer bingkai yang digunakan (dalam MiB) | 
|  DCGM\$1FI\$1DEV\$1NVLINK\$1BANDWIDTH\$1TOTAL  | Jumlah total penghitung NVLink bandwidth untuk semua jalur | 
|  DCGM\$1FI\$1DEV\$1VGPU\$1LICENSE\$1STATUS  | Status Lisensi vGPU | 
|  DCGM\$1FI\$1DEV\$1UNCORRECTABLE\$1REMAPPED\$1ROWS  | Jumlah baris yang dipetakan ulang untuk kesalahan yang tidak dapat diperbaiki | 
|  DCGM\$1FI\$1DEV\$1CORRECTABLE\$1REMAPPED\$1ROWS  | Jumlah baris yang dipetakan ulang untuk kesalahan yang dapat diperbaiki | 
|  DCGM\$1FI\$1DEV\$1ROW\$1REMAP\$1FAILURE  | Apakah pemetaan ulang baris gagal | 

## Dasbor metrik EFA
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-efa-exporter"></a>

[Memberikan informasi visualisasi metrik dari [Amazon Elastic Fabric Adapter (](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa.html)EFA) yang dilengkapi pada instans P yang dikumpulkan oleh eksportir node EFA.](https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md)

**Jenis metrik**
+ **Metrik kesalahan EFA:** Memvisualisasikan kesalahan seperti kesalahan alokasi, kesalahan perintah, dan kesalahan peta memori.
+ **Lalu lintas jaringan EFA:** Memantau byte, paket, dan permintaan kerja yang diterima dan ditransmisikan.
+ **Kinerja EFA RDMA:** Menganalisis operasi baca dan tulis RDMA, termasuk byte yang ditransfer dan tingkat kesalahan.
+ **Umur port EFA: Menampilkan umur port EFA dari waktu** ke waktu.
+ Paket **keep-alive EFA: Melacak jumlah paket** keep-alive yang diterima.

**Daftar metrik**

Tabel berikut menunjukkan daftar metrik yang memberikan wawasan tentang berbagai aspek operasi EFA, termasuk kesalahan, perintah yang diselesaikan, lalu lintas jaringan, dan pemanfaatan sumber daya.


| Nama metrik | Deskripsi | 
| --- | --- | 
|  node\$1amazonefa\$1info  | Data non-numerik dari/sys/class/infiniband/, nilai selalu 1. | 
|  node\$1amazonefa\$1lifespan  | Umur pelabuhan | 
|  node\$1amazonefa\$1rdma\$1read\$1bytes  | Jumlah byte yang dibaca dengan RDMA | 
|  node\$1amazonefa\$1rdma\$1read\$1resp\$1bytes  | Jumlah byte respons baca dengan RDMA | 
|  node\$1amazonefa\$1rdma\$1read\$1wr\$1err  | Jumlah kesalahan baca tulis dengan RDMA | 
|  node\$1amazonefa\$1rdma\$1read\$1wrs  | Jumlah rs baca dengan RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1bytes  | Jumlah byte yang ditulis dengan RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1recv\$1bytes  | Jumlah byte yang ditulis dan diterima dengan RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1wr\$1err  | Jumlah byte yang ditulis dengan kesalahan RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1wrs  | Jumlah byte ditulis wrs RDMA | 
|  node\$1amazonefa\$1recv\$1bytes  | Jumlah byte yang diterima | 
|  node\$1amazonefa\$1recv\$1wrs  | Jumlah byte yang diterima wrs | 
|  node\$1amazonefa\$1rx\$1bytes  | Jumlah byte yang diterima | 
|  node\$1amazonefa\$1rx\$1drops  | Jumlah paket yang dijatuhkan | 
|  node\$1amazonefa\$1rx\$1pkts  | Jumlah paket yang diterima | 
|  node\$1amazonefa\$1send\$1bytes  | Jumlah byte yang dikirim | 
|  node\$1amazonefa\$1send\$1wrs  | Jumlah wrs yang dikirim | 
|  node\$1amazonefa\$1tx\$1bytes  | Jumlah byte yang ditransmisikan | 
|  node\$1amazonefa\$1tx\$1pkts  | Jumlah paket yang ditransmisikan | 

## FSx untuk dasbor metrik Lustre
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-fsx-exporter"></a>

[Memberikan informasi visualisasi [metrik dari Amazon FSx untuk sistem file Lustre](https://docs.aws.amazon.com/fsx/latest/LustreGuide/monitoring-cloudwatch.html) yang dikumpulkan oleh Amazon. CloudWatch](https://docs.aws.amazon.com/fsx/latest/LustreGuide/monitoring-cloudwatch.html)

**catatan**  
Dasbor Grafana FSx for Lustre menggunakan Amazon CloudWatch sebagai sumber datanya, yang berbeda dari dasbor lain yang telah Anda konfigurasikan untuk menggunakan Amazon Managed Service untuk Prometheus. Untuk memastikan pemantauan dan visualisasi metrik yang akurat terkait dengan sistem file FSx for Lustre Anda, konfigurasikan dasbor FSx for Lustre untuk menggunakan CloudWatch Amazon sebagai sumber data, dengan menentukan hal yang Wilayah AWS sama di mana sistem file for Lustre FSx Anda digunakan.

**Jenis metrik**
+ **DataReadBytes:** Jumlah byte untuk operasi membaca sistem file.
+ **DataWriteBytes:** Jumlah byte untuk operasi penulisan sistem file.
+ **DataReadOperations:** Jumlah operasi baca.
+ **DataWriteOperations:** Jumlah operasi tulis.
+ **MetadataOperations:** Jumlah operasi meta data.
+ **FreeDataStorageCapacity:** Jumlah kapasitas penyimpanan yang tersedia.

# Metrik Amazon SageMaker HyperPod Slurm
<a name="smcluster-slurm-metrics"></a>

Amazon SageMaker HyperPod menyediakan satu set CloudWatch metrik Amazon yang dapat Anda gunakan untuk memantau kesehatan dan kinerja HyperPod cluster Anda. Metrik ini dikumpulkan dari manajer beban kerja Slurm yang berjalan di HyperPod cluster Anda dan tersedia di namespace. `/aws/sagemaker/Clusters` CloudWatch 

## Metrik tingkat cluster
<a name="smcluster-slurm-metrics-cluster"></a>

Metrik tingkat cluster berikut tersedia untuk. HyperPod Metrik ini menggunakan `ClusterId` dimensi untuk mengidentifikasi HyperPod cluster tertentu.


| CloudWatch nama metrik | Catatan | Nama metrik Amazon EKS Container Insights | 
| --- | --- | --- | 
| cluster\$1node\$1count | Jumlah total node dalam cluster | cluster\$1node\$1count | 
| cluster\$1idle\$1node\$1count | Jumlah node idle di cluster | N/A | 
| cluster\$1failed\$1node\$1count | Jumlah node yang gagal di cluster | cluster\$1failed\$1node\$1count | 
| cluster\$1cpu\$1count | Total core CPU di cluster | node\$1cpu\$1limit | 
| cluster\$1idle\$1cpu\$1count | Jumlah core CPU idle di cluster | N/A | 
| cluster\$1gpu\$1count | Total GPUs dalam cluster | node\$1gpu\$1limit | 
| cluster\$1idle\$1gpu\$1count | Jumlah idle GPUs di cluster | N/A | 
| cluster\$1running\$1task\$1count | Jumlah pekerjaan Slurm yang berjalan di cluster | N/A | 
| cluster\$1pending\$1task\$1count | Jumlah pekerjaan Slurm yang tertunda di cluster | N/A | 
| cluster\$1preempted\$1task\$1count | Jumlah pekerjaan Slurm yang dipreempted di cluster | N/A | 
| cluster\$1avg\$1task\$1wait\$1time | Waktu tunggu rata-rata untuk pekerjaan Slurm di cluster | N/A | 
| cluster\$1max\$1task\$1wait\$1time | Waktu tunggu maksimum untuk pekerjaan Slurm di cluster | N/A | 

## Metrik tingkat instans
<a name="smcluster-slurm-metrics-instance"></a>

Metrik tingkat instans berikut tersedia untuk. HyperPod Metrik ini juga menggunakan `ClusterId` dimensi untuk mengidentifikasi HyperPod cluster tertentu.


| CloudWatch nama metrik | Catatan | Nama metrik Amazon EKS Container Insights | 
| --- | --- | --- | 
| node\$1gpu\$1utilisasi | Pemanfaatan GPU rata-rata di semua instans | node\$1gpu\$1utilisasi | 
| node\$1gpu\$1memory\$1utilization | Pemanfaatan memori GPU rata-rata di semua instance | node\$1gpu\$1memory\$1utilization | 
| node\$1cpu\$1utilization | Pemanfaatan CPU rata-rata di semua instance | node\$1cpu\$1utilization | 
| node\$1memory\$1utilization | Pemanfaatan memori rata-rata di semua instance | node\$1memory\$1utilization |