

# Colete métricas de GPU NVIDIA
<a name="CloudWatch-Agent-NVIDIA-GPU"></a>

 Você pode usar o atendente do CloudWatch para coletar métricas de GPU NVIDIA de servidores Linux. Para configurar, adicione uma seção `nvidia_gpu` à seção `metrics_collected` do arquivo de configuração do atendente do CloudWatch. Para obter mais informações, consulte [Seção Linux](CloudWatch-Agent-Configuration-File-Details.md#CloudWatch-Agent-Linux-section). 

Além disso, a instância deve ter um driver NVIDIA instalado. Os drivers NVIDIA estão pré-instalados em algumas imagens de máquina da Amazon (AMIs). Caso contrário, é possível instalar o driver manualmente. Para obter mais informações, consulte [Instalação de drivers NVIDIA em instâncias Linux](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/install-nvidia-driver.html). 

As seguintes métricas podem ser coletadas. Todas essas métricas são coletadas sem uma `Unit` do CloudWatch, mas você pode especificar uma unidade para cada métrica adicionando um parâmetro ao arquivo de configuração do atendente CloudWatch. Para obter mais informações, consulte [Seção Linux](CloudWatch-Agent-Configuration-File-Details.md#CloudWatch-Agent-Linux-section).


| Métrica | Nome da métrica no CloudWatch | Descrição | 
| --- | --- | --- | 
| `utilization_gpu` | `nvidia_smi_utilization_gpu` | A porcentagem de tempo do período amostral anterior durante a qual um ou mais kernals na GPU estavam sendo executados. | 
| `temperature_gpu` | `nvidia_smi_temperature_gpu` | A temperatura principal da GPU em graus Celsius. | 
| `power_draw` | `nvidia_smi_power_draw` | O último consumo de energia medido para toda a placa, em watts. | 
| `utilization_memory` | `nvidia_smi_utilization_memory` | A porcentagem de tempo do período de amostra anterior durante a qual a memória global (dispositivo) estava sendo lida ou gravada. | 
| `fan_speed` | `nvidia_smi_fan_speed` | A porcentagem da velocidade máxima do ventilador em que o ventilador do dispositivo deve funcionar atualmente. | 
| `memory_total` | `nvidia_smi_memory_total` | Memória total reportada, em MB. | 
| `memory_used` | `nvidia_smi_memory_used` | Memória utilizada, em MB. | 
| `memory_free` | `nvidia_smi_memory_free` | Memória livre, em MB. | 
| `pcie_link_gen_current` | `nvidia_smi_pcie_link_gen_current` | A geração de links atual. | 
| `pcie_link_width_current` | `nvidia_smi_pcie_link_width_current` | A largura do link atual. | 
| `encoder_stats_session_count` | `nvidia_smi_encoder_stats_session_count` | Número atual de sessões de codificador. | 
| `encoder_stats_average_fps` | `nvidia_smi_encoder_stats_average_fps` | A média móvel dos quadros de codificação por segundo. | 
| `encoder_stats_average_latency` | `nvidia_smi_encoder_stats_average_latency` | A média móvel da latência de codificação em microssegundos. | 
| `clocks_current_graphics` | `nvidia_smi_clocks_current_graphics` | A frequência atual do relógio gráfico (sombreador). | 
| `clocks_current_sm` | `nvidia_smi_clocks_current_sm` | A frequência atual do relógio Streaming Multiprocessor (SM – Multiprocessador de transmissão). | 
| `clocks_current_memory` | `nvidia_smi_clocks_current_memory` | A frequência atual do relógio de memória. | 
| `clocks_current_video` | `nvidia_smi_clocks_current_video` | A frequência atual dos relógios de vídeo (codificador e decodificador). | 

Todas essas métricas são coletadas com as seguintes dimensões:


| Dimensão | Descrição | 
| --- | --- | 
| `index` | Um identificador exclusivo da GPU neste servidor. Representa o índice NVIDIA Management Library (NVML – Biblioteca de gerenciamento NVIDIA) do dispositivo. | 
| `name` | O tipo de GPU. Por exemplo, `NVIDIA Tesla A100` | 
| `arch` | A arquitetura do servidor. | 