Reparo automático de GPU para instâncias gerenciadas do Amazon ECS
O Amazon ECS monitora a integridade de GPU NVIDIA nas instâncias gerenciadas do Amazon ECS que usam hardware de GPU. Quando o Amazon ECS detecta uma falha no hardware de GPU, ele pode substituir automaticamente a instância danificada. O reparo automático de GPU é habilitado por padrão para instâncias gerenciadas do Amazon ECS
Como funciona
O Amazon ECS usa o NVIDIA Data Center GPU Manager (DCGM) para monitorar a integridade da GPU NVIDIA em instâncias gerenciadas que tenham hardware de GPU. Quando o DCGM relata uma falha crítica de GPU, o Amazon ECS marca a instância como danificada.
Quando o reparo automático de GPU está habilitado, o Amazon ECS substitui a instância danificada usando um fluxo de trabalho de início antes da parada:
-
O Amazon ECS define a instância danificada como DRAINING. Novas tarefas não serão colocadas na instância.
-
O Amazon ECS provisiona uma instância substituta.
-
O Amazon ECS permite que as tarefas existentes sejam interrompidas normalmente. O Amazon ECS honra o tempo limite de parada de tarefas para tarefas na instância.
-
Após o término do período de drenagem, o Amazon ECS encerra a instância danificada.
O Amazon ECS limita as ações de reparo para evitar substituições em cascata. Não mais do que 20% das instâncias pertencentes ao provedor de capacidade podem ser drenadas por vez. Se houver menos de 9 instâncias no provedor de capacidade, no máximo uma instância será drenada por vez.
Monitoramento de integridade de GPU
É possível usar a API DescribeContainerInstances para verificar a integridade de GPUs. Para obter mais informações, consulte Monitoramento da integridade da instância de contêiner do Amazon ECS. Também é possível monitorar as alterações de integridade de GPU por meio de Eventos de alteração na integridade da instância de contêiner do Amazon ECS.
Códigos de erro de Xid NVIDIA
O Amazon ECS monitora os códigos de erro de Xid NVIDIA a seguir. Se o Amazon ECS detectar algum desses erros, ele marcará a instância como danificada e a substituirá.
| Xid | Descrição |
|---|---|
46 |
Processamento interrompido pela GPU |
48 |
Erro de ECC de dois bits |
54 |
Conector de alimentação auxiliar não conectado |
62 |
Interrupção de microcontrolador interno |
64 |
Falha de remapeamento de memória de GPU |
74 |
Erro de NVLink |
79 |
A GPU saiu do barramento |
95 |
Erro de memória não contido |
109 |
Tempo limite de troca de contexto |
110 |
A GPU desapareceu do barramento |
136 |
Limite de retirada da página de memória de GPU excedido |
140 |
Erro de ECC não recuperável |
142 |
Página de memória de GPU retirada devido a um erro incorrigível |
143 |
Página de memória de GPU retirada devido a limiar de erro corrigível |
151 |
Erro de interconexão entre GPU e CPU |
155 |
Erro de flit CRC de NVLink de GPU |
156 |
Erro de faixa de NVLink de GPU |
158 |
InfoROM de GPU corrompida |
Para obter mais informações sobre erros do XID, consulte Xid Errors
Desabilitação do reparo automático
O reparo automático de GPU é habilitado por padrão para instâncias gerenciadas do Amazon ECS Para desabilitar o reparo automático de GPU, defina actionsStatus como DISABLED em autoRepairConfiguration ao criar ou atualizar um provedor de capacidade. Você também pode desabilitar o reparo automático de GPU no console do Amazon ECS ao criar ou atualizar um provedor de capacidade.
Quando o reparo automático de GPU é desabilitado, o Amazon ECS continua monitorando a integridade da GPU, mas não substitui automaticamente as instâncias danificadas.
nota
A desabilitação do reparo automático de GPU também desabilita o reparo automático de daemons gerenciados do Amazon ECS. Para obter mais informações, consulte Reparo automático de daemons gerenciados do Amazon ECS.
Para desabilitar o reparo automático de GPU
aws ecs update-capacity-provider \ --namemy-gpu-capacity-provider\ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "DISABLED" } }'
Para habilitar o reparo automático de GPU
aws ecs update-capacity-provider \ --namemy-gpu-capacity-provider\ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "ENABLED" } }'
Para verificar a configuração
aws ecs describe-capacity-providers \ --capacity-providersmy-gpu-capacity-provider