View a markdown version of this page

Amazon ECS 관리형 인스턴스의 GPU 자동 복구 - Amazon Elastic Container Service

Amazon ECS 관리형 인스턴스의 GPU 자동 복구

Amazon ECS는 GPU 하드웨어를 사용하는 Amazon ECS 관리형 인스턴스에서 NVIDIA GPU 상태를 모니터링합니다. Amazon ECS는 GPU 하드웨어 장애를 감지하면 손상된 인스턴스를 자동으로 교체할 수 있습니다. GPU 자동 복구는 Amazon ECS 관리형 인스턴스에서 기본적으로 활성화됩니다.

작동 방식

Amazon ECS가 NVIDIA Data Center GPU Manager(DCGM)를 사용하여 GPU 하드웨어를 사용하는 관리형 인스턴스에서 NVIDIA GPU 상태를 모니터링합니다. DCGM이 중요한 GPU 장애를 보고하면 Amazon ECS가 인스턴스를 손상됨으로 표시합니다.

GPU 자동 복구가 활성화되면 Amazon ECS는 start-before-stop 워크플로를 사용하여 손상된 인스턴스를 교체합니다.

  1. Amazon ECS는 손상된 인스턴스를 DRAINING으로 설정합니다. 해당 인스턴스에 새로운 태스크가 배치되지 않습니다.

  2. Amazon ECS는 대체 인스턴스를 프로비저닝합니다.

  3. Amazon ECS는 기존 태스크가 정상적으로 중지되도록 허용합니다. Amazon ECS는 인스턴스의 태스크에 대한 태스크 중지 시간 제한을 준수합니다.

  4. 드레이닝 기간이 끝나면 Amazon ECS는 손상된 인스턴스를 종료합니다.

Amazon ECS는 캐스케이딩 교체를 방지하기 위해 복구 작업 속도를 제한합니다. 용량 공급자에 속하는 인스턴스의 20% 이상을 한 번에 드레이닝할 수 없습니다. 용량 공급자의 인스턴스가 9개 미만인 경우 한 번에 최대 1개의 인스턴스가 드레이닝됩니다.

GPU 상태 모니터링

DescribeContainerInstances API를 사용하여 GPU 상태를 확인할 수 있습니다. 자세한 내용은 Amazon ECS 컨테이너 인스턴스 상태 모니터링 섹션을 참조하세요. 또한 Amazon ECS 컨테이너 인스턴스 상태 변경 이벤트를 통해 GPU 상태 변경을 모니터링할 수도 있습니다.

모니터링되는 XID 오류 코드

Amazon ECS는 다음 NVIDIA Xid 오류 코드를 모니터링합니다. Amazon ECS는 이러한 오류를 감지하면 인스턴스를 손상됨으로 표시하고 인스턴스를 교체합니다.

Xid 설명

46

GPU 처리 중지

48

더블 비트 ECC 오류

54

보조 전원 커넥터가 연결되지 않음

62

내부 마이크로 컨트롤러 중지

64

GPU 메모리 재매핑 실패

74

NVLink 오류

79

GPU가 버스에서 떨어짐

95

포함되지 않은 메모리 오류

109

컨텍스트 전환 시간 초과

110

GPU가 버스에서 사라짐

136

GPU 메모리 페이지 사용 중지 제한 초과

140

복구할 수 없는 ECC 오류

142

수정할 수 없는 오류로 인해 GPU 메모리 페이지가 사용 중지됨

143

수정 가능한 오류 임곗값으로 인해 GPU 메모리 페이지가 사용 중지됨

151

GPU-CPU 인터커넥트 오류

155

GPU NVLink 플릿 CRC 오류

156

GPU NVLink 레인 오류

158

GPU InfoROM 손상

XID 오류에 대한 자세한 내용은 NVIDIA GPU 배포 및 관리 설명서Xid Errors를 참조하세요. 개별 XID 메시지에 대한 자세한 내용은 NVIDIA GPU 배포 및 관리 설명서Understanding Xid Messages를 참조하세요.

자동 복구 비활성화

GPU 자동 복구는 Amazon ECS 관리형 인스턴스에서 기본적으로 활성화됩니다. GPU 자동 복구를 비활성화하려면 용량 공급자를 생성하거나 업데이트할 때 autoRepairConfiguration에서 actionsStatusDISABLED로 설정합니다. 용량 공급자를 생성하거나 업데이트할 때 Amazon ECS 콘솔에서 GPU 자동 복구를 비활성화할 수도 있습니다.

GPU 자동 복구가 비활성화되면 Amazon ECS는 GPU 상태를 계속 모니터링하지만 손상된 인스턴스를 자동으로 교체하지는 않습니다.

참고

GPU 자동 복구를 비활성화하면 Amazon ECS 관리형 대몬 자동 복구도 비활성화됩니다. 자세한 내용은 Amazon ECS 관리형 대몬 자동 복구를 참조하세요.

GPU 자동 복구를 비활성화하려면

aws ecs update-capacity-provider \ --name my-gpu-capacity-provider \ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "DISABLED" } }'

GPU 자동 복구를 활성화하려면

aws ecs update-capacity-provider \ --name my-gpu-capacity-provider \ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "ENABLED" } }'

구성을 확인하려면

aws ecs describe-capacity-providers \ --capacity-providers my-gpu-capacity-provider