View a markdown version of this page

Reparo automático de GPU para instâncias gerenciadas do Amazon ECS - Amazon Elastic Container Service

Reparo automático de GPU para instâncias gerenciadas do Amazon ECS

O Amazon ECS monitora a integridade de GPU NVIDIA nas instâncias gerenciadas do Amazon ECS que usam hardware de GPU. Quando o Amazon ECS detecta uma falha no hardware de GPU, ele pode substituir automaticamente a instância danificada. O reparo automático de GPU é habilitado por padrão para instâncias gerenciadas do Amazon ECS

Como funciona

O Amazon ECS usa o NVIDIA Data Center GPU Manager (DCGM) para monitorar a integridade da GPU NVIDIA em instâncias gerenciadas que tenham hardware de GPU. Quando o DCGM relata uma falha crítica de GPU, o Amazon ECS marca a instância como danificada.

Quando o reparo automático de GPU está habilitado, o Amazon ECS substitui a instância danificada usando um fluxo de trabalho de início antes da parada:

  1. O Amazon ECS define a instância danificada como DRAINING. Novas tarefas não serão colocadas na instância.

  2. O Amazon ECS provisiona uma instância substituta.

  3. O Amazon ECS permite que as tarefas existentes sejam interrompidas normalmente. O Amazon ECS honra o tempo limite de parada de tarefas para tarefas na instância.

  4. Após o término do período de drenagem, o Amazon ECS encerra a instância danificada.

O Amazon ECS limita as ações de reparo para evitar substituições em cascata. Não mais do que 20% das instâncias pertencentes ao provedor de capacidade podem ser drenadas por vez. Se houver menos de 9 instâncias no provedor de capacidade, no máximo uma instância será drenada por vez.

Monitoramento de integridade de GPU

É possível usar a API DescribeContainerInstances para verificar a integridade de GPUs. Para obter mais informações, consulte Monitoramento da integridade da instância de contêiner do Amazon ECS. Também é possível monitorar as alterações de integridade de GPU por meio de Eventos de alteração na integridade da instância de contêiner do Amazon ECS.

Códigos de erro de Xid NVIDIA

O Amazon ECS monitora os códigos de erro de Xid NVIDIA a seguir. Se o Amazon ECS detectar algum desses erros, ele marcará a instância como danificada e a substituirá.

Xid Descrição

46

Processamento interrompido pela GPU

48

Erro de ECC de dois bits

54

Conector de alimentação auxiliar não conectado

62

Interrupção de microcontrolador interno

64

Falha de remapeamento de memória de GPU

74

Erro de NVLink

79

A GPU saiu do barramento

95

Erro de memória não contido

109

Tempo limite de troca de contexto

110

A GPU desapareceu do barramento

136

Limite de retirada da página de memória de GPU excedido

140

Erro de ECC não recuperável

142

Página de memória de GPU retirada devido a um erro incorrigível

143

Página de memória de GPU retirada devido a limiar de erro corrigível

151

Erro de interconexão entre GPU e CPU

155

Erro de flit CRC de NVLink de GPU

156

Erro de faixa de NVLink de GPU

158

InfoROM de GPU corrompida

Para obter mais informações sobre erros do XID, consulte Xid Errors na Documentação de implantação e gerenciamento da GPU NVIDIA. Para obter mais informações sobre as mensagens individuais do XID, consulte Understanding Xid Messages na Documentação de implantação e gerenciamento da GPU NVIDIA.

Desabilitação do reparo automático

O reparo automático de GPU é habilitado por padrão para instâncias gerenciadas do Amazon ECS Para desabilitar o reparo automático de GPU, defina actionsStatus como DISABLED em autoRepairConfiguration ao criar ou atualizar um provedor de capacidade. Você também pode desabilitar o reparo automático de GPU no console do Amazon ECS ao criar ou atualizar um provedor de capacidade.

Quando o reparo automático de GPU é desabilitado, o Amazon ECS continua monitorando a integridade da GPU, mas não substitui automaticamente as instâncias danificadas.

nota

A desabilitação do reparo automático de GPU também desabilita o reparo automático de daemons gerenciados do Amazon ECS. Para obter mais informações, consulte Reparo automático de daemons gerenciados do Amazon ECS.

Para desabilitar o reparo automático de GPU

aws ecs update-capacity-provider \ --name my-gpu-capacity-provider \ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "DISABLED" } }'

Para habilitar o reparo automático de GPU

aws ecs update-capacity-provider \ --name my-gpu-capacity-provider \ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "ENABLED" } }'

Para verificar a configuração

aws ecs describe-capacity-providers \ --capacity-providers my-gpu-capacity-provider