View a markdown version of this page

NVIDIA GPU 플러그인 누락 오류 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

NVIDIA GPU 플러그인 누락 오류

사용 가능한 GPU 노드가 있음에도 불구하고 GPU 부족 오류로 인해 모델 배포가 실패합니다. 이는 NVIDIA 디바이스 플러그인이 HyperPod 클러스터에 설치되지 않은 경우에 발생합니다.

오류 메시지:

0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.

근본 원인:

  • Kubernetes는 NVIDIA 디바이스 플러그인 없이 GPU 리소스를 감지할 수 없습니다.

  • GPU 워크로드에 대한 예약 실패 발생

​해결 방법:

다음을 실행하여 NVIDIA GPU 플러그인을 설치합니다.

kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml

확인 단계:

  1. 플러그인 배포 상태를 확인합니다.

    kubectl get pods -n kube-system | grep nvidia-device-plugin
  2. 이제 GPU 리소스가 표시되는지 확인합니다.

    kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu
  3. 모델 배포 재시도

참고

NVIDIA 드라이버가 GPU 노드에 설치되어 있는지 확인합니다. 플러그인 설치는 클러스터당 일회성 설정입니다. 설치하려면 클러스터 관리자 권한이 필요할 수 있습니다.