Como funciona Monitoramento de integridade de GPU Códigos de erro de Xid NVIDIA Desabilitação do reparo automático

Reparo automático de GPU para instâncias gerenciadas do Amazon ECS

O Amazon ECS monitora a integridade de GPU NVIDIA nas instâncias gerenciadas do Amazon ECS que usam hardware de GPU. Quando o Amazon ECS detecta uma falha no hardware de GPU, ele pode substituir automaticamente a instância danificada. O reparo automático de GPU é habilitado por padrão para instâncias gerenciadas do Amazon ECS

Como funciona

O Amazon ECS usa o NVIDIA Data Center GPU Manager (DCGM) para monitorar a integridade da GPU NVIDIA em instâncias gerenciadas que tenham hardware de GPU. Quando o DCGM relata uma falha crítica de GPU, o Amazon ECS marca a instância como danificada.

Quando o reparo automático de GPU está habilitado, o Amazon ECS substitui a instância danificada usando um fluxo de trabalho de início antes da parada:

O Amazon ECS define a instância danificada como DRAINING. Novas tarefas não serão colocadas na instância.
O Amazon ECS provisiona uma instância substituta.
O Amazon ECS permite que as tarefas existentes sejam interrompidas normalmente. O Amazon ECS honra o tempo limite de parada de tarefas para tarefas na instância.
Após o término do período de drenagem, o Amazon ECS encerra a instância danificada.

O Amazon ECS limita as ações de reparo para evitar substituições em cascata. Não mais do que 20% das instâncias pertencentes ao provedor de capacidade podem ser drenadas por vez. Se houver menos de 9 instâncias no provedor de capacidade, no máximo uma instância será drenada por vez.

Monitoramento de integridade de GPU

É possível usar a API DescribeContainerInstances para verificar a integridade de GPUs. Para obter mais informações, consulte Monitoramento da integridade da instância de contêiner do Amazon ECS. Também é possível monitorar as alterações de integridade de GPU por meio de Eventos de alteração na integridade da instância de contêiner do Amazon ECS.

Códigos de erro de Xid NVIDIA

O Amazon ECS monitora os códigos de erro de Xid NVIDIA a seguir. Se o Amazon ECS detectar algum desses erros, ele marcará a instância como danificada e a substituirá.

Xid	Descrição
46	Processamento interrompido pela GPU
48	Erro de ECC de dois bits
54	Conector de alimentação auxiliar não conectado
62	Interrupção de microcontrolador interno
64	Falha de remapeamento de memória de GPU
74	Erro de NVLink
79	A GPU saiu do barramento
95	Erro de memória não contido
109	Tempo limite de troca de contexto
110	A GPU desapareceu do barramento
136	Limite de retirada da página de memória de GPU excedido
140	Erro de ECC não recuperável
142	Página de memória de GPU retirada devido a um erro incorrigível
143	Página de memória de GPU retirada devido a limiar de erro corrigível
151	Erro de interconexão entre GPU e CPU
155	Erro de flit CRC de NVLink de GPU
156	Erro de faixa de NVLink de GPU
158	InfoROM de GPU corrompida

Para obter mais informações sobre erros do XID, consulte Xid Errors na Documentação de implantação e gerenciamento da GPU NVIDIA. Para obter mais informações sobre as mensagens individuais do XID, consulte Understanding Xid Messages na Documentação de implantação e gerenciamento da GPU NVIDIA.

Desabilitação do reparo automático

O reparo automático de GPU é habilitado por padrão para instâncias gerenciadas do Amazon ECS Para desabilitar o reparo automático de GPU, defina actionsStatus como DISABLED em autoRepairConfiguration ao criar ou atualizar um provedor de capacidade. Você também pode desabilitar o reparo automático de GPU no console do Amazon ECS ao criar ou atualizar um provedor de capacidade.

Quando o reparo automático de GPU é desabilitado, o Amazon ECS continua monitorando a integridade da GPU, mas não substitui automaticamente as instâncias danificadas.

nota

A desabilitação do reparo automático de GPU também desabilita o reparo automático de daemons gerenciados do Amazon ECS. Para obter mais informações, consulte Reparo automático de daemons gerenciados do Amazon ECS.

Para desabilitar o reparo automático de GPU


aws ecs update-capacity-provider \
    --name my-gpu-capacity-provider \
    --managed-instances-provider '{
        "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole",
        "instanceLaunchTemplate": {
            "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole",
            "networkConfiguration": {
                "subnets": ["subnet-0123456789abcdef0"],
                "securityGroups": ["sg-0123456789abcdef0"]
            }
        },
        "autoRepairConfiguration": {
            "actionsStatus": "DISABLED"
        }
    }'

Para habilitar o reparo automático de GPU


aws ecs update-capacity-provider \
    --name my-gpu-capacity-provider \
    --managed-instances-provider '{
        "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole",
        "instanceLaunchTemplate": {
            "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole",
            "networkConfiguration": {
                "subnets": ["subnet-0123456789abcdef0"],
                "securityGroups": ["sg-0123456789abcdef0"]
            }
        },
        "autoRepairConfiguration": {
            "actionsStatus": "ENABLED"
        }
    }'

Para verificar a configuração


aws ecs describe-capacity-providers \
    --capacity-providers my-gpu-capacity-provider

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Otimização da infraestrutura

Migrar do Fargate para as instâncias gerenciadas do Amazon ECS