View a markdown version of this page

Reparación automática de la GPU para instancias administradas de Amazon ECS - Amazon Elastic Container Service

Reparación automática de la GPU para instancias administradas de Amazon ECS

Amazon ECS supervisa el estado de la GPU de NVIDIA en las instancias administradas de Amazon ECS que utilizan el hardware de la GPU. Cuando Amazon ECS detecta un fallo en el hardware de la GPU, puede sustituir automáticamente la instancia deteriorada. La reparación automática de la GPU está habilitada de forma predeterminada en las instancias administradas de Amazon ECS.

Funcionamiento

Amazon ECS utiliza el administrador de GPU para centros de datos (DCGM) de NVIDIA para supervisar el estado de la GPU de NVIDIA en instancias administradas que tienen hardware de la GPU. Cuando el DCGM informa un fallo crítico de la GPU, Amazon ECS marca la instancia como deteriorada.

Cuando la reparación automática de la GPU está habilitada, Amazon ECS sustituye la instancia deteriorada mediante un flujo de trabajo de inicio antes de la detención:

  1. Amazon ECS establece la instancia deteriorada en el estado VACIANDO. No se colocan nuevas tareas en la instancia.

  2. Amazon ECS aprovisiona una instancia de reemplazo.

  3. Amazon ECS permite que las tareas existentes se detengan sin problemas. Amazon ECS respeta el tiempo de espera de detención de la tarea para las tareas de la instancia.

  4. Una vez finalizado el período de vaciado, Amazon ECS cierra la instancia deteriorada.

Amazon ECS limita la velocidad de las acciones de reparación para evitar los reemplazos en cascada. No se pueden vaciar más del 20 % de las instancias que pertenecen al proveedor de capacidad a la vez. Si hay menos de 9 instancias en el proveedor de capacidad, se vacía como máximo una instancia a la vez.

Supervisión del estado de la GPU

Puede usar la API de DescribeContainerInstances para comprobar el estado de la GPU. Para obtener más información, consulte Supervisión del estado de la instancia de contenedor de Amazon ECS. También puede supervisar los cambios en el estado de la GPU a través de Eventos de cambio de estado de la instancia de contenedor de Amazon ECS.

Códigos de error XID supervisados

Amazon ECS supervisa los siguientes códigos de error Xid de NVIDIA. Si Amazon ECS detecta alguno de estos errores, marca la instancia como deteriorada y la reemplaza.

Xid Descripción

46

La GPU dejó de procesar

48

Error de ECC de doble bit

54

El conector de alimentación auxiliar no está conectado

62

Detención del microcontrolador interno

64

Fallo de reasignación de la memoria de la GPU

74

Error de NVLink

79

La GPU se ha caído del bus

95

Error de memoria no contenida

109

Tiempo de espera agotado del cambio de contexto

110

La GPU desapareció del bus

136

Se superó el límite de retiros de la página de memoria de la GPU

140

Error de ECC irrecuperable

142

La página de memoria de la GPU se retiró debido a un error incorregible

143

La página de memoria de la GPU se retiró debido a un umbral de error corregible

151

Error de interconexión de la GPU a la CPU

155

Error de CRC en el flit de NVLink de la GPU

156

Error en el carril de NVLink de la GPU

158

InfoROM de la GPU corrupto

Para obtener más información sobre los errores de XID, consulte Errores de Xid en la documentación sobre la implementación y administración de las GPU de NVIDIA. Para obtener más información sobre los mensajes XID individuales, consulte Comprensión de los mensajes Xid en la documentación sobre implementación y administración de GPU de NVIDIA.

Deshabilitación de la reparación automática

La reparación automática de la GPU está habilitada de forma predeterminada en las instancias administradas de Amazon ECS. Para deshabilitar la reparación automática de la GPU, configure el actionsStatus como DISABLED en autoRepairConfiguration cuando cree o actualice un proveedor de capacidad. También puede deshabilitar la reparación automática de la GPU en la consola de Amazon ECS cuando cree o actualice un proveedor de capacidad.

Cuando la reparación automática de la GPU está deshabilitada, Amazon ECS sigue supervisando el estado de la GPU, pero no reemplaza automáticamente las instancias deterioradas.

nota

Al deshabilitar la reparación automática de la GPU, también se deshabilita la reparación automática de los daemons administrados de Amazon ECS. Para obtener más información, consulte Reparación automática de daemons administrados de Amazon ECS.

Cómo deshabilitar la reparación automática de la GPU

aws ecs update-capacity-provider \ --name my-gpu-capacity-provider \ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "DISABLED" } }'

Cómo habilitar la reparación automática de la GPU

aws ecs update-capacity-provider \ --name my-gpu-capacity-provider \ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "ENABLED" } }'

Cómo verificar la configuración

aws ecs describe-capacity-providers \ --capacity-providers my-gpu-capacity-provider