

# NVIDIA GPU 지표 수집
<a name="CloudWatch-Agent-NVIDIA-GPU"></a>

 CloudWatch 에이전트를 사용하여 Linux 서버에서 NVIDIA GPU 지표를 수집할 수 있습니다. 이를 설정하려면 CloudWatch 에이전트 구성 파일의 `metrics_collected` 섹션에 `nvidia_gpu` 섹션을 추가합니다. 자세한 내용은 [Linux 섹션](CloudWatch-Agent-Configuration-File-Details.md#CloudWatch-Agent-Linux-section) 섹션을 참조하세요.

또한 인스턴스에는 NVIDIA 드라이버가 설치되어 있어야 합니다. 일부 Amazon Machine Image(AMI)에는 NVIDIA 드라이버가 사전 설치되어 있습니다. 그렇지 않다면 드라이버를 수동으로 설치하세요. 자세한 내용은 [Linux 인스턴스에 NVIDIA 드라이버 설치](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/install-nvidia-driver.html)를 참조하세요.

다음 지표를 수집할 수 있습니다. 이러한 모든 지표는 CloudWatch `Unit` 없이 수집되지만, CloudWatch 에이전트 구성 파일에 파라미터를 추가하여 각 지표에 대한 단위를 지정할 수 있습니다. 자세한 내용은 [Linux 섹션](CloudWatch-Agent-Configuration-File-Details.md#CloudWatch-Agent-Linux-section) 섹션을 참조하세요.


| 지표 | CloudWatch의 지표 이름 | 설명 | 
| --- | --- | --- | 
| `utilization_gpu` | `nvidia_smi_utilization_gpu` | GPU에서 하나 이상의 커널이 실행 중이었던 과거 샘플 기간에 대한 시간 비율입니다. | 
| `temperature_gpu` | `nvidia_smi_temperature_gpu` | 코어 GPU 온도(섭씨)입니다. | 
| `power_draw` | `nvidia_smi_power_draw` | 전체 보드에 대해 마지막으로 측정된 소비 전력(와트)입니다. | 
| `utilization_memory` | `nvidia_smi_utilization_memory` | 글로벌(디바이스) 메모리를 읽거나 쓰는 동안 과거 샘플 기간에 대한 시간 비율입니다. | 
| `fan_speed` | `nvidia_smi_fan_speed` | 디바이스의 팬이 현재 동작하려는 최대 팬 속도의 비율입니다. | 
| `memory_total` | `nvidia_smi_memory_total` | 보고된 총 메모리(MB)입니다. | 
| `memory_used` | `nvidia_smi_memory_used` | 사용된 메모리(MB)입니다. | 
| `memory_free` | `nvidia_smi_memory_free` | 여유 메모리(MB)입니다. | 
| `pcie_link_gen_current` | `nvidia_smi_pcie_link_gen_current` | 현재 링크 생성입니다. | 
| `pcie_link_width_current` | `nvidia_smi_pcie_link_width_current` | 현재 링크 폭입니다. | 
| `encoder_stats_session_count` | `nvidia_smi_encoder_stats_session_count` | 현재 인코더 세션 수입니다. | 
| `encoder_stats_average_fps` | `nvidia_smi_encoder_stats_average_fps` | 초당 인코딩 프레임의 이동 평균입니다. | 
| `encoder_stats_average_latency` | `nvidia_smi_encoder_stats_average_latency` | 인코딩 대기 시간(마이크로초)의 이동 평균입니다. | 
| `clocks_current_graphics` | `nvidia_smi_clocks_current_graphics` | 그래픽(셰이더) 클럭의 현재 주파수입니다. | 
| `clocks_current_sm` | `nvidia_smi_clocks_current_sm` | 스트리밍 멀티프로세서(SM) 클럭의 현재 주파수입니다. | 
| `clocks_current_memory` | `nvidia_smi_clocks_current_memory` | 메모리 클럭의 현재 주파수입니다. | 
| `clocks_current_video` | `nvidia_smi_clocks_current_video` | 비디오(인코더 및 디코더) 클럭의 현재 주파수입니다. | 

이러한 모든 지표는 다음 측정기준으로 수집됩니다.


| 차원 | 설명 | 
| --- | --- | 
| `index` | 이 서버의 GPU의 고유 식별자입니다. 디바이스의 NVIDIA 관리 라이브러리(NVML) 인덱스를 나타냅니다. | 
| `name` | GPU의 유형입니다. 예: `NVIDIA Tesla A100` | 
| `arch` | 서버 아키텍처입니다. | 