

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# NVIDIA GPU 플러그인 누락 오류
<a name="sagemaker-hyperpod-model-deployment-ts-gpu"></a>

사용 가능한 GPU 노드가 있음에도 불구하고 GPU 부족 오류로 인해 모델 배포가 실패합니다. 이는 NVIDIA 디바이스 플러그인이 HyperPod 클러스터에 설치되지 않은 경우에 발생합니다.

**오류 메시지:**

```
0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 
5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 
10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.
```

**근본 원인:**
+ Kubernetes는 NVIDIA 디바이스 플러그인 없이 GPU 리소스를 감지할 수 없습니다.
+ GPU 워크로드에 대한 예약 실패 발생

**​해결 방법:**

다음을 실행하여 NVIDIA GPU 플러그인을 설치합니다.

```
kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml
```

**확인 단계:**

1. 플러그인 배포 상태를 확인합니다.

   ```
   kubectl get pods -n kube-system | grep nvidia-device-plugin
   ```

1. 이제 GPU 리소스가 표시되는지 확인합니다.

   ```
   kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu
   ```

1. 모델 배포 재시도

**참고**  
NVIDIA 드라이버가 GPU 노드에 설치되어 있는지 확인합니다. 플러그인 설치는 클러스터당 일회성 설정입니다. 설치하려면 클러스터 관리자 권한이 필요할 수 있습니다.