NVIDIA GPU 플러그인 누락 오류

사용 가능한 GPU 노드가 있음에도 불구하고 GPU 부족 오류로 인해 모델 배포가 실패합니다. 이는 NVIDIA 디바이스 플러그인이 HyperPod 클러스터에 설치되지 않은 경우에 발생합니다.

오류 메시지:


0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 
5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 
10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.

근본 원인:

Kubernetes는 NVIDIA 디바이스 플러그인 없이 GPU 리소스를 감지할 수 없습니다.
GPU 워크로드에 대한 예약 실패 발생

해결 방법:

다음을 실행하여 NVIDIA GPU 플러그인을 설치합니다.


kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml

확인 단계:

플러그인 배포 상태를 확인합니다.


kubectl get pods -n kube-system | grep nvidia-device-plugin

이제 GPU 리소스가 표시되는지 확인합니다.


kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu

모델 배포 재시도

참고

NVIDIA 드라이버가 GPU 노드에 설치되어 있는지 확인합니다. 플러그인 설치는 클러스터당 일회성 설정입니다. 설치하려면 클러스터 관리자 권한이 필요할 수 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

IAM 신뢰 관계 문제

추론 연산자가 시작되지 않음