

# 收集 NVIDIA GPU 指标
<a name="CloudWatch-Agent-NVIDIA-GPU"></a>

 您可以使用 CloudWatch 代理从 Linux 服务器收集 NVIDIA GPU 指标。要对此进行设置，请在 CloudWatch 代理配置文件的 `metrics_collected` 部分中添加 `nvidia_gpu` 部分。有关更多信息，请参阅 [Linux 部分](CloudWatch-Agent-Configuration-File-Details.md#CloudWatch-Agent-Linux-section)。

此外，该实例必须已经安装 NVIDIA 驱动程序。某些亚马逊机器映像（AMI）上已经预装 NVIDIA 驱动程序。如果没有安装，您可以手动安装该驱动程序。有关更多信息，请参见[在 Linux 实例上安装 NVIDIA 驱动程序](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/install-nvidia-driver.html)。

可以收集以下指标。所有这些指标都在没有 CloudWatch `Unit` 的情况下收集，但是您可以通过向 CloudWatch 代理配置文件添加参数来为每个指标指定单位。有关更多信息，请参阅 [Linux 部分](CloudWatch-Agent-Configuration-File-Details.md#CloudWatch-Agent-Linux-section)。


| 指标 | CloudWatch 的指标名称 | 说明 | 
| --- | --- | --- | 
| `utilization_gpu` | `nvidia_smi_utilization_gpu` | 在过去的采样周期内 GPU 上的一个或多个内核运行的时间百分比。 | 
| `temperature_gpu` | `nvidia_smi_temperature_gpu` | GPU 核心温度（以摄氏度为单位）。 | 
| `power_draw` | `nvidia_smi_power_draw` | 上次测量的整个显卡功耗（以瓦为单位）。 | 
| `utilization_memory` | `nvidia_smi_utilization_memory` | 在过去的样本周期内读取或写入全局（设备）内存的时间百分比。 | 
| `fan_speed` | `nvidia_smi_fan_speed` | 设备风扇目前预计以最大风扇速度运行的百分比。 | 
| `memory_total` | `nvidia_smi_memory_total` | 报告的总内存（以 MB 为单位）。 | 
| `memory_used` | `nvidia_smi_memory_used` | 已使用的内存（以 MB 为单位）。 | 
| `memory_free` | `nvidia_smi_memory_free` | 空闲内存（以 MB 为单位）。 | 
| `pcie_link_gen_current` | `nvidia_smi_pcie_link_gen_current` | 当前链接生成。 | 
| `pcie_link_width_current` | `nvidia_smi_pcie_link_width_current` | 当前链接宽度。 | 
| `encoder_stats_session_count` | `nvidia_smi_encoder_stats_session_count` | 当前编码器会话数量。 | 
| `encoder_stats_average_fps` | `nvidia_smi_encoder_stats_average_fps` | 每秒编码帧数的移动平均值。 | 
| `encoder_stats_average_latency` | `nvidia_smi_encoder_stats_average_latency` | 编码延迟的移动平均值（以微秒为单位）。 | 
| `clocks_current_graphics` | `nvidia_smi_clocks_current_graphics` | 显卡（着色器）时钟的当前频率。 | 
| `clocks_current_sm` | `nvidia_smi_clocks_current_sm` | 流式多处理器（SM）时钟的当前频率。 | 
| `clocks_current_memory` | `nvidia_smi_clocks_current_memory` | 内存时钟的当前频率。 | 
| `clocks_current_video` | `nvidia_smi_clocks_current_video` | 视频（编码器加解码器）时钟的当前频率。 | 

所有这些指标都使用以下维度收集:


| 维度 | 说明 | 
| --- | --- | 
| `index` | 此服务器上 GPU 的唯一标识符。表示设备的 NVIDIA 管理库（NVML）索引。 | 
| `name` | GPU 类型。例如，`NVIDIA Tesla A100` | 
| `arch` | 服务器架构。 | 