本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
匯出的指標參考
下列各節針對 SageMaker HyperPod 可觀測性成功設定 CloudFormation 堆疊後,提供從 SageMaker HyperPod 匯出至 Amazon Managed Service for Prometheus 的指標完整清單。您可以開始監控 Amazon Managed Grafana 儀表板中視覺化的這些指標。
Slurm 匯出工具儀表板
提供 SageMaker HyperPod 上 Slurm 叢集的視覺化資訊。
指標類型
-
叢集概觀:顯示節點任務總數及其狀態。
-
任務指標:隨時間視覺化任務計數和狀態。
-
節點指標:顯示節點狀態、配置和可用資源。
-
分割區指標:監控分割區特定的指標,例如 CPU、記憶體和 GPU 使用率。
-
任務效率:根據使用的資源計算任務效率。
指標清單
| 指標名稱 | Description |
|---|---|
slurm_job_count |
Slurm 叢集中的任務總數 |
slurm_job_state_count |
每個狀態的任務計數 (例如,執行中、待定、已完成) |
slurm_node_count
|
Slurm 叢集中的節點總數 |
slurm_node_state_count
|
每個狀態的節點計數 (例如閒置、配置、混合) |
slurm_partition_node_count
|
每個分割區中的節點計數 |
slurm_partition_job_count
|
每個分割區中的任務計數 |
slurm_partition_alloc_cpus
|
每個分割區中配置的 CPU 總數 |
slurm_partition_free_cpus
|
每個分割區中可用的 CPU 總數 |
slurm_partition_alloc_memory
|
每個分割區中配置的記憶體總數 |
slurm_partition_free_memory
|
每個分割區中可用的記憶體總數 |
slurm_partition_alloc_gpus
|
每個分割區中配置的 GPU 總數 |
slurm_partition_free_gpus
|
每個分割區中可用的 GPU 總數 |
節點匯出工具儀表板
提供 Prometheus 節點匯出工具
指標類型
-
系統概觀:顯示 CPU 負載平均值和記憶體用量。
-
記憶體指標:視覺化記憶體使用率,包括總記憶體、可用記憶體和交換空間。
-
磁碟用量:監控磁碟空間使用率和可用性。
-
網路流量:顯示隨時間接收和傳輸的網路位元組。
-
檔案系統指標:分析檔案系統的使用情況和可用性。
-
磁碟 I/O 指標:視覺化磁碟讀取和寫入活動。
指標清單
如需匯出的指標完整清單,請參閱節點匯出工具
| 指標名稱 | Description |
|---|---|
node_load1
|
1 分鐘負載平均值 |
node_load5
|
5 分鐘負載平均值 |
node_load15
|
15 分鐘負載平均值 |
node_memory_MemTotal
|
總系統記憶體 |
node_memory_MemFree
|
可用系統記憶體 |
node_memory_MemAvailable
|
配置至程序的可用記憶體 |
node_memory_Buffers
|
核心用於緩衝的記憶體 |
node_memory_Cached
|
核心用於快取檔案系統資料的記憶體 |
node_memory_SwapTotal
|
可用的交換空間總數 |
node_memory_SwapFree
|
可用交換空間 |
node_memory_SwapCached
|
曾經換出的記憶體會被換回,但仍在交換中 |
node_filesystem_avail_bytes
|
可用磁碟空間,以位元組為單位 |
node_filesystem_size_bytes
|
總磁碟空間,以位元組為單位 |
node_filesystem_free_bytes
|
可用磁碟空間,以位元組為單位 |
node_network_receive_bytes
|
收到的網路位元組 |
node_network_transmit_bytes
|
傳輸的網路位元組 |
node_disk_read_bytes
|
讀取的磁碟位元組 |
node_disk_written_bytes
|
寫入的磁碟位元組 |
NVIDIA DCGM 匯出工具儀表板
提供 NVIDIA DCGM 匯出工具
指標類型
-
GPU 概觀:顯示 GPU 使用率、溫度、用電量和記憶體用量。
-
溫度指標:隨時間視覺化 GPU 溫度。
-
用電量:監控 GPU 功耗和用電量趨勢。
-
記憶體使用率:分析 GPU 記憶體使用率,包括已用記憶體、可用記憶體和總記憶體。
-
風扇速度:顯示 GPU 風扇速度和變化。
-
ECC 錯誤:追蹤 GPU 記憶體 ECC 錯誤和待定錯誤。
指標清單
下表顯示一個清單,列出提供 NVIDIA GPU 運作狀態和效能洞見的指標,包括時鐘頻率、溫度、用電量、記憶體使用率、風扇速度和錯誤指標。
| 指標名稱 | Description |
|---|---|
DCGM_FI_DEV_SM_CLOCK
|
SM 時鐘頻率 (以 MHz 為單位) |
DCGM_FI_DEV_MEM_CLOCK
|
記憶體時鐘頻率 (以 MHz 為單位) |
DCGM_FI_DEV_MEMORY_TEMP
|
記憶體溫度 (以 C 為單位) |
DCGM_FI_DEV_GPU_TEMP
|
GPU 溫度 (以 C 為單位) |
DCGM_FI_DEV_POWER_USAGE
|
功耗 (以瓦為單位) |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION
|
開機後的總能源消耗量 (以 mJ 為單位) |
DCGM_FI_DEV_PCIE_REPLAY_COUNTER
|
PCIe 重試總次數 |
DCGM_FI_DEV_MEM_COPY_UTIL
|
記憶體使用率 (以 % 為單位) |
DCGM_FI_DEV_ENC_UTIL
|
編碼器使用率 (以 % 為單位) |
DCGM_FI_DEV_DEC_UTIL
|
解碼器使用率 (以 % 為單位) |
DCGM_FI_DEV_XID_ERRORS
|
遇到的最後一個 XID 錯誤的值 |
DCGM_FI_DEV_FB_FREE
|
可用的影格緩衝區記憶體 (以 MiB 為單位) |
DCGM_FI_DEV_FB_USED
|
已用的影格緩衝區記憶體 (以 MiB 為單位) |
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL
|
所有通道的 NVLink 頻寬計數器總數 |
DCGM_FI_DEV_VGPU_LICENSE_STATUS
|
vGPU 授權狀態 |
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS
|
無法更正錯誤的重新對應資料列數量 |
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS
|
可修正錯誤的重新對應資料列數量 |
DCGM_FI_DEV_ROW_REMAP_FAILURE
|
資料列重新對應是否失敗 |
EFA 指標儀表板
從 P 執行個體上配備的 Amazon Elastic Fabric Adapter (EFA) 提供 EFA 節點匯出工具
指標類型
-
EFA 錯誤指標:視覺化錯誤,例如配置錯誤、命令錯誤和記憶體對應錯誤。
-
EFA 網路流量:監控接收和傳輸的位元組、封包和工作請求。
-
EFA RDMA 效能:分析 RDMA 讀取和寫入操作,包括傳輸的位元組和錯誤率。
-
EFA 連接埠使用壽命:隨時間顯示 EFA 連接埠的使用壽命。
-
EFA 持續作用封包:追蹤收到的保持連線封包數量。
指標清單
下表顯示一個清單,列出提供 EFA 操作各層面洞見的指標,包括錯誤、完成的命令、網路流量和資源使用率。
| 指標名稱 | Description |
|---|---|
node_amazonefa_info
|
來自 /sys/class/infiniband/ 的非數值資料,值一律為 1。 |
node_amazonefa_lifespan
|
連接埠的使用壽命 |
node_amazonefa_rdma_read_bytes
|
RDMA 的讀取位元組數量 |
node_amazonefa_rdma_read_resp_bytes
|
RDMA 的讀取回應位元組數量 |
node_amazonefa_rdma_read_wr_err
|
RDMA 的讀取寫入錯誤數量 |
node_amazonefa_rdma_read_wrs
|
RDMA 的讀取 rs 數量 |
node_amazonefa_rdma_write_bytes
|
RDMA 的寫入位元組數量 |
node_amazonefa_rdma_write_recv_bytes
|
RDMA 的寫入和接收位元組數量 |
node_amazonefa_rdma_write_wr_err
|
RDMA 的寫入但有錯誤位元組數量 |
node_amazonefa_rdma_write_wrs
|
RDMA 的寫入 wrs 位元組數量 |
node_amazonefa_recv_bytes
|
接收的位元組數量 |
node_amazonefa_recv_wrs
|
接收的 wrs 位元組數量 |
node_amazonefa_rx_bytes
|
接收的位元組數量 |
node_amazonefa_rx_drops
|
捨棄的封包數量 |
node_amazonefa_rx_pkts
|
接收的封包數量 |
node_amazonefa_send_bytes
|
傳送的位元組數量 |
node_amazonefa_send_wrs
|
傳送的 wrs 數量 |
node_amazonefa_tx_bytes
|
傳輸的位元組數量 |
node_amazonefa_tx_pkts
|
傳輸的封包數量 |
FSx for Lustre 指標儀表板
從 Amazon FSx for Lustre 檔案系統提供 Amazon CloudWatch 收集的指標視覺化資訊。
注意
Grafana FSx for Lustre 儀表板使用 Amazon CloudWatch 作為其資料來源,這與您設定為使用 Amazon Managed Service for Prometheus 的其他儀表板不同。為了確保 FSx for Lustre 檔案系統相關指標的準確監控和視覺化,請將 FSx for Lustre 儀表板設定為使用 Amazon CloudWatch 作為資料來源,並指定部署 FSx for Lustre 檔案系統的相同 AWS 區域 位置。
指標類型
-
DataReadBytes:檔案系統讀取操作的位元組數量。
-
DataWriteBytes:檔案系統寫入操作的位元組數量。
-
DataReadOperations:讀取操作次數。
-
DataWriteOperations:寫入操作次數。
-
MetadataOperations:中繼資料操作次數。
-
FreeDataStorageCapacity:可用儲存容量的數量。