

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 导出的指标参考
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference"></a>

以下各节列出了成功配置堆栈 SageMaker HyperPod 以实现可观察性后从亚马逊托管服务 Prometheus 导出的指标的完整列表。 CloudFormation SageMaker HyperPod 您可以在 Amazon Managed Grafana 面板中开始监控这些可视化指标。

## Slurm 导出程序控制面板
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-slurm-exporter"></a>

提供 Slurm 集群的可视化信息。 SageMaker HyperPod

**指标类型**
+ **集群概览：**显示节点、作业总数及其状态。
+ **作业指标：**可视化一段时间内的作业数量和状态。
+ **节点指标：**显示节点状态、分配和可用资源。
+ **分区指标：**监控特定分区的指标，如 CPU、内存和 GPU 利用率。
+ **作业效率：**根据使用的资源计算作业效率。

**指标列表**


| 指标名称 | 说明 | 
| --- | --- | 
| slurm\_job\_count | Slurm 集群中的作业总数 | 
| slurm\_job\_state\_count | 处于各种状态（如运行中、待处理、已完成）的作业数 | 
| slurm\_node\_count  | Slurm 集群的节点总数 | 
| slurm\_node\_state\_count  | 处于各种状态（如空闲、分配、混合）的节点数 | 
| slurm\_partition\_node\_count  | 每个分区的节点数 | 
| slurm\_partition\_job\_count  | 每个分区的作业计数 | 
| slurm\_partition\_alloc\_cpus  | 每个分区已分配 CPU 的总数 | 
| slurm\_partition\_free\_cpus  | 每个分区可用 CPU 总数 | 
| slurm\_partition\_alloc\_memory  | 每个分区分配的内存总量 | 
| slurm\_partition\_free\_memory  | 每个分区的可用内存总量 | 
| slurm\_partition\_alloc\_gpus  | 每个分区分配的 GPU 总数 | 
| slurm\_partition\_free\_gpus  | 每个分区可用 GPU 总数 | 

## 节点导出程序控制面板
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-node-exporter"></a>

提供 [Prometheus](https://github.com/prometheus/node_exporter) 节点导出器从集群节点收集的系统指标的可视化信息。 HyperPod 

**指标类型**
+ **系统概述：**显示 CPU 负载平均值和内存使用情况。
+ **内存指标：**可视化内存使用情况，包括总内存、可用内存和交换空间。
+ **磁盘使用情况：**监控磁盘空间利用率和可用性。
+ **网络流量：**显示一段时间内接收和传输的网络字节数。
+ **文件系统指标：**分析文件系统的使用情况和可用性。
+ **磁盘 I/O 指标：**可视化磁盘读取和写入活动。

**指标列表**

有关导出的指标的完整列表，请参阅 [Node 导出器](https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default)和 [procfs](https://github.com/prometheus/procfs?tab=readme-ov-file) GitHub 存储库。下表列出了部分指标，可帮助用户深入了解 CPU 负载、内存使用、磁盘空间和网络活动等系统资源利用情况。


| 指标名称 | 说明 | 
| --- | --- | 
|  node\_load1  | 1 分钟平均负荷 | 
|  node\_load5  | 5 分钟平均负荷 | 
|  node\_load15  | 15 分钟平均负荷 | 
|  node\_memory\_MemTotal  | 系统内存总量 | 
|  node\_memory\_MemFree  | 释放系统内存 | 
|  node\_memory\_MemAvailable  | 可分配给进程的可用内存 | 
|  node\_memory\_Buffers  | 内核用于缓冲的内存 | 
|  node\_memory\_Cached  | 内核用于缓存文件系统数据的内存 | 
|  node\_memory\_SwapTotal  | 可用交换空间总数 | 
|  node\_memory\_SwapFree  | 自由交换空间 | 
|  node\_memory\_SwapCached  | 曾被换出的内存被换回，但仍处于交换状态 | 
|  node\_filesystem\_avail\_bytes  | 可用磁盘空间（单位：字节） | 
|  node\_filesystem\_size\_bytes  | 磁盘空间总量（单位：字节） | 
|  node\_filesystem\_free\_bytes  | 可用磁盘空间（单位：字节） | 
|  node\_network\_receive\_bytes  | 收到的网络字节数 | 
|  node\_network\_transmit\_bytes  | 传输的网络字节数 | 
|  node\_disk\_read\_bytes  | 读取的磁盘字节数 | 
|  node\_disk\_written\_bytes  | 写入的磁盘字节数 | 

## NVIDIA DCGM 导出器控制面板
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-nvidia-dcgm-exporter"></a>

提供由 [NVIDIA DCGM 导出程序](https://github.com/NVIDIA/dcgm-exporter)收集的 NVIDIA GPU 指标的可视化信息。

**指标类型**
+ **GPU 概览：**显示 GPU 利用率、温度、功耗和内存使用情况。
+ **温度指标：**可视化 GPU 随时间变化的温度。
+ **电源使用：**监控 GPU 功耗和用电趋势。
+ **内存使用情况：**分析 GPU 内存使用情况，包括已用内存、可用内存和总内存。
+ **风扇速度：**显示 GPU 风扇速度和变化。
+ **ECC 错误：**跟踪 GPU 内存 ECC 错误和待处理错误。

**指标列表**

下表列出的指标可帮助用户深入了解 NVIDIA GPU 的运行状况和性能，包括时钟频率、温度、用电量、内存利用率、风扇速度和错误指标。


| 指标名称 | 说明 | 
| --- | --- | 
|  DCGM\_FI\_DEV\_SM\_CLOCK  | SM 时钟频率（单位：兆赫） | 
|  DCGM\_FI\_DEV\_MEM\_CLOCK  | 内存时钟频率（单位：兆赫） | 
|  DCGM\_FI\_DEV\_MEMORY\_TEMP  | 内存温度（单位：摄氏度） | 
|  DCGM\_FI\_DEV\_GPU\_TEMP  | GPU 温度（单位：摄氏度） | 
|  DCGM\_FI\_DEV\_POWER\_USAGE  | 耗电量（单位：瓦） | 
|  DCGM\_FI\_DEV\_TOTAL\_ENERGY\_CONSUMPTION  | 启动以来的总能耗（单位：兆焦耳） | 
|  DCGM\_FI\_DEV\_PCIE\_REPLAY\_COUNTER  | PCIe 重试总次数 | 
|  DCGM\_FI\_DEV\_MEM\_COPY\_UTIL  | 内存利用率（单位：%） | 
|  DCGM\_FI\_DEV\_ENC\_UTIL  | 编码器利用率（单位：%） | 
|  DCGM\_FI\_DEV\_DEC\_UTIL  | 解码器利用率（单位：%） | 
|  DCGM\_FI\_DEV\_XID\_ERRORS  | 最后遇到的 XID 错误值 | 
|  DCGM\_FI\_DEV\_FB\_FREE  | 帧缓冲区可用内存（单位：MB） | 
|  DCGM\_FI\_DEV\_FB\_USED  | 使用的帧缓冲区内存（单位：MB） | 
|  DCGM\_FI\_DEV\_NVLINK\_BANDWIDTH\_TOTAL  | 所有通道的 NVLink 带宽计数器总数 | 
|  DCGM\_FI\_DEV\_VGPU\_LICENSE\_STATUS  | vGPU 许可证状态 | 
|  DCGM\_FI\_DEV\_UNCORRECTABLE\_REMAPPED\_ROWS  | 无法纠正错误的重新映射行数 | 
|  DCGM\_FI\_DEV\_CORRECTABLE\_REMAPPED\_ROWS  | 可纠正错误的重新映射行数 | 
|  DCGM\_FI\_DEV\_ROW\_REMAP\_FAILURE  | 行的重新映射是否失败 | 

## EFA 指标控制面板
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-efa-exporter"></a>

提供由 [EFA 节点导出程序](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa.html)收集的 P 实例上配备的 [Amazon Elastic Fabric Adapter（EFA）](https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md)指标的可视化信息。

**指标类型**
+ **EFA 错误指标：**可视化分配错误、命令错误和内存映射错误等错误。
+ **EFA 网络流量：**监控接收和传输的字节、数据包和作业请求。
+ **EFA RDMA 性能：**分析 RDMA 读写操作，包括传输字节数和错误率。
+ **EFA 端口寿命：**显示 EFA 端口随时间变化的寿命。
+ **EFA 保持连接数据包：**跟踪收到的保持连接数据包的数量。

**指标列表**

下表列出了可深入了解 EFA 运行各个方面的指标，包括错误、已完成命令、网络流量和资源利用率。


| 指标名称 | 说明 | 
| --- | --- | 
|  node\_amazonefa\_info  | Non-numeric 来自 sys/class //infiniband/ 的数据，值始终为 1。 | 
|  node\_amazonefa\_lifespan  | 端口寿命 | 
|  node\_amazonefa\_rdma\_read\_bytes  | RDMA 读取的字节数 | 
|  node\_amazonefa\_rdma\_read\_resp\_bytes  | RDMA 读取响应字节数 | 
|  node\_amazonefa\_rdma\_read\_wr\_err  | RDMA 读写错误次数 | 
|  node\_amazonefa\_rdma\_read\_wrs  | RDMA 的读取次数 | 
|  node\_amazonefa\_rdma\_write\_bytes  | RDMA 写入的字节数 | 
|  node\_amazonefa\_rdma\_write\_recv\_bytes  | RDMA 写入和接收的字节数 | 
|  node\_amazonefa\_rdma\_write\_wr\_err  | 写入的错误 RDMA 字节数 | 
|  node\_amazonefa\_rdma\_write\_wrs  | 写入的 wrs RDMA 字节数 | 
|  node\_amazonefa\_recv\_bytes  | 接收的字节数 | 
|  node\_amazonefa\_recv\_wrs  | 接收的 wrs 字节数 | 
|  node\_amazonefa\_rx\_bytes  | 接收的字节数 | 
|  node\_amazonefa\_rx\_drops  | 丢弃的数据包数量 | 
|  node\_amazonefa\_rx\_pkts  | 接收的数据包数量 | 
|  node\_amazonefa\_send\_bytes  | 发送的字节数 | 
|  node\_amazonefa\_send\_wrs  | 发送的 wrs 数量 | 
|  node\_amazonefa\_tx\_bytes  | 传输的字节数 | 
|  node\_amazonefa\_tx\_pkts  | 传输的数据包数量 | 

## FSx for Lustre 指标控制面板
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-fsx-exporter"></a>

[提供亚马逊收集的来[自 Amazon FSx for Lustre 文件系统的指标](https://docs.aws.amazon.com/fsx/latest/LustreGuide/monitoring-cloudwatch.html)的可视化信息。 CloudWatch](https://docs.aws.amazon.com/fsx/latest/LustreGuide/monitoring-cloudwatch.html)

**注意**  
Grafana fsX for Lustre 控制面板 CloudWatch 使用亚马逊作为其数据源，这与您配置为使用适用于 Prometheus 的亚马逊托管服务的其他控制面板不同。为确保准确监控和可视化与 FSx for Lustre 文件系统相关的指标，请将 FSx for Lustre 控制面板配置为 CloudWatch 使用亚马逊作为数据源，指定与 FSx for Lustre 文件系统的部署 AWS 区域 位置相同。

**指标类型**
+ **DataReadBytes：**文件系统读取操作的字节数。
+ **DataWriteBytes：**文件系统写入操作的字节数。
+ **DataReadOperations：**读取操作的数量。
+ **DataWriteOperations：**写入操作的数量。
+ **MetadataOperations：**元数据操作的数量。
+ **FreeDataStorageCapacity：**可用存储容量。