Amazon ECS 관리형 인스턴스의 GPU 자동 복구
Amazon ECS는 GPU 하드웨어를 사용하는 Amazon ECS 관리형 인스턴스에서 NVIDIA GPU 상태를 모니터링합니다. Amazon ECS는 GPU 하드웨어 장애를 감지하면 손상된 인스턴스를 자동으로 교체할 수 있습니다. GPU 자동 복구는 Amazon ECS 관리형 인스턴스에서 기본적으로 활성화됩니다.
작동 방식
Amazon ECS가 NVIDIA Data Center GPU Manager(DCGM)를 사용하여 GPU 하드웨어를 사용하는 관리형 인스턴스에서 NVIDIA GPU 상태를 모니터링합니다. DCGM이 중요한 GPU 장애를 보고하면 Amazon ECS가 인스턴스를 손상됨으로 표시합니다.
GPU 자동 복구가 활성화되면 Amazon ECS는 start-before-stop 워크플로를 사용하여 손상된 인스턴스를 교체합니다.
-
Amazon ECS는 손상된 인스턴스를 DRAINING으로 설정합니다. 해당 인스턴스에 새로운 태스크가 배치되지 않습니다.
-
Amazon ECS는 대체 인스턴스를 프로비저닝합니다.
-
Amazon ECS는 기존 태스크가 정상적으로 중지되도록 허용합니다. Amazon ECS는 인스턴스의 태스크에 대한 태스크 중지 시간 제한을 준수합니다.
-
드레이닝 기간이 끝나면 Amazon ECS는 손상된 인스턴스를 종료합니다.
Amazon ECS는 캐스케이딩 교체를 방지하기 위해 복구 작업 속도를 제한합니다. 용량 공급자에 속하는 인스턴스의 20% 이상을 한 번에 드레이닝할 수 없습니다. 용량 공급자의 인스턴스가 9개 미만인 경우 한 번에 최대 1개의 인스턴스가 드레이닝됩니다.
GPU 상태 모니터링
DescribeContainerInstances API를 사용하여 GPU 상태를 확인할 수 있습니다. 자세한 내용은 Amazon ECS 컨테이너 인스턴스 상태 모니터링 섹션을 참조하세요. 또한 Amazon ECS 컨테이너 인스턴스 상태 변경 이벤트를 통해 GPU 상태 변경을 모니터링할 수도 있습니다.
모니터링되는 XID 오류 코드
Amazon ECS는 다음 NVIDIA Xid 오류 코드를 모니터링합니다. Amazon ECS는 이러한 오류를 감지하면 인스턴스를 손상됨으로 표시하고 인스턴스를 교체합니다.
| Xid | 설명 |
|---|---|
46 |
GPU 처리 중지 |
48 |
더블 비트 ECC 오류 |
54 |
보조 전원 커넥터가 연결되지 않음 |
62 |
내부 마이크로 컨트롤러 중지 |
64 |
GPU 메모리 재매핑 실패 |
74 |
NVLink 오류 |
79 |
GPU가 버스에서 떨어짐 |
95 |
포함되지 않은 메모리 오류 |
109 |
컨텍스트 전환 시간 초과 |
110 |
GPU가 버스에서 사라짐 |
136 |
GPU 메모리 페이지 사용 중지 제한 초과 |
140 |
복구할 수 없는 ECC 오류 |
142 |
수정할 수 없는 오류로 인해 GPU 메모리 페이지가 사용 중지됨 |
143 |
수정 가능한 오류 임곗값으로 인해 GPU 메모리 페이지가 사용 중지됨 |
151 |
GPU-CPU 인터커넥트 오류 |
155 |
GPU NVLink 플릿 CRC 오류 |
156 |
GPU NVLink 레인 오류 |
158 |
GPU InfoROM 손상 |
XID 오류에 대한 자세한 내용은 NVIDIA GPU 배포 및 관리 설명서의 Xid Errors
자동 복구 비활성화
GPU 자동 복구는 Amazon ECS 관리형 인스턴스에서 기본적으로 활성화됩니다. GPU 자동 복구를 비활성화하려면 용량 공급자를 생성하거나 업데이트할 때 autoRepairConfiguration에서 actionsStatus를 DISABLED로 설정합니다. 용량 공급자를 생성하거나 업데이트할 때 Amazon ECS 콘솔에서 GPU 자동 복구를 비활성화할 수도 있습니다.
GPU 자동 복구가 비활성화되면 Amazon ECS는 GPU 상태를 계속 모니터링하지만 손상된 인스턴스를 자동으로 교체하지는 않습니다.
참고
GPU 자동 복구를 비활성화하면 Amazon ECS 관리형 대몬 자동 복구도 비활성화됩니다. 자세한 내용은 Amazon ECS 관리형 대몬 자동 복구를 참조하세요.
GPU 자동 복구를 비활성화하려면
aws ecs update-capacity-provider \ --namemy-gpu-capacity-provider\ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "DISABLED" } }'
GPU 자동 복구를 활성화하려면
aws ecs update-capacity-provider \ --namemy-gpu-capacity-provider\ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "ENABLED" } }'
구성을 확인하려면
aws ecs describe-capacity-providers \ --capacity-providersmy-gpu-capacity-provider