Reparación automática de la GPU para instancias administradas de Amazon ECS
Amazon ECS supervisa el estado de la GPU de NVIDIA en las instancias administradas de Amazon ECS que utilizan el hardware de la GPU. Cuando Amazon ECS detecta un fallo en el hardware de la GPU, puede sustituir automáticamente la instancia deteriorada. La reparación automática de la GPU está habilitada de forma predeterminada en las instancias administradas de Amazon ECS.
Funcionamiento
Amazon ECS utiliza el administrador de GPU para centros de datos (DCGM) de NVIDIA para supervisar el estado de la GPU de NVIDIA en instancias administradas que tienen hardware de la GPU. Cuando el DCGM informa un fallo crítico de la GPU, Amazon ECS marca la instancia como deteriorada.
Cuando la reparación automática de la GPU está habilitada, Amazon ECS sustituye la instancia deteriorada mediante un flujo de trabajo de inicio antes de la detención:
-
Amazon ECS establece la instancia deteriorada en el estado VACIANDO. No se colocan nuevas tareas en la instancia.
-
Amazon ECS aprovisiona una instancia de reemplazo.
-
Amazon ECS permite que las tareas existentes se detengan sin problemas. Amazon ECS respeta el tiempo de espera de detención de la tarea para las tareas de la instancia.
-
Una vez finalizado el período de vaciado, Amazon ECS cierra la instancia deteriorada.
Amazon ECS limita la velocidad de las acciones de reparación para evitar los reemplazos en cascada. No se pueden vaciar más del 20 % de las instancias que pertenecen al proveedor de capacidad a la vez. Si hay menos de 9 instancias en el proveedor de capacidad, se vacía como máximo una instancia a la vez.
Supervisión del estado de la GPU
Puede usar la API de DescribeContainerInstances para comprobar el estado de la GPU. Para obtener más información, consulte Supervisión del estado de la instancia de contenedor de Amazon ECS. También puede supervisar los cambios en el estado de la GPU a través de Eventos de cambio de estado de la instancia de contenedor de Amazon ECS.
Códigos de error XID supervisados
Amazon ECS supervisa los siguientes códigos de error Xid de NVIDIA. Si Amazon ECS detecta alguno de estos errores, marca la instancia como deteriorada y la reemplaza.
| Xid | Descripción |
|---|---|
46 |
La GPU dejó de procesar |
48 |
Error de ECC de doble bit |
54 |
El conector de alimentación auxiliar no está conectado |
62 |
Detención del microcontrolador interno |
64 |
Fallo de reasignación de la memoria de la GPU |
74 |
Error de NVLink |
79 |
La GPU se ha caído del bus |
95 |
Error de memoria no contenida |
109 |
Tiempo de espera agotado del cambio de contexto |
110 |
La GPU desapareció del bus |
136 |
Se superó el límite de retiros de la página de memoria de la GPU |
140 |
Error de ECC irrecuperable |
142 |
La página de memoria de la GPU se retiró debido a un error incorregible |
143 |
La página de memoria de la GPU se retiró debido a un umbral de error corregible |
151 |
Error de interconexión de la GPU a la CPU |
155 |
Error de CRC en el flit de NVLink de la GPU |
156 |
Error en el carril de NVLink de la GPU |
158 |
InfoROM de la GPU corrupto |
Para obtener más información sobre los errores de XID, consulte Errores de Xid
Deshabilitación de la reparación automática
La reparación automática de la GPU está habilitada de forma predeterminada en las instancias administradas de Amazon ECS. Para deshabilitar la reparación automática de la GPU, configure el actionsStatus como DISABLED en autoRepairConfiguration cuando cree o actualice un proveedor de capacidad. También puede deshabilitar la reparación automática de la GPU en la consola de Amazon ECS cuando cree o actualice un proveedor de capacidad.
Cuando la reparación automática de la GPU está deshabilitada, Amazon ECS sigue supervisando el estado de la GPU, pero no reemplaza automáticamente las instancias deterioradas.
nota
Al deshabilitar la reparación automática de la GPU, también se deshabilita la reparación automática de los daemons administrados de Amazon ECS. Para obtener más información, consulte Reparación automática de daemons administrados de Amazon ECS.
Cómo deshabilitar la reparación automática de la GPU
aws ecs update-capacity-provider \ --namemy-gpu-capacity-provider\ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "DISABLED" } }'
Cómo habilitar la reparación automática de la GPU
aws ecs update-capacity-provider \ --namemy-gpu-capacity-provider\ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "ENABLED" } }'
Cómo verificar la configuración
aws ecs describe-capacity-providers \ --capacity-providersmy-gpu-capacity-provider