View a markdown version of this page

Réparation automatique du GPU pour les instances gérées Amazon ECS - Amazon Elastic Container Service

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Réparation automatique du GPU pour les instances gérées Amazon ECS

Amazon ECS surveille l'état du GPU NVIDIA sur les instances gérées Amazon ECS qui utilisent du matériel GPU. Lorsqu'Amazon ECS détecte une défaillance matérielle du GPU, il peut automatiquement remplacer l'instance défectueuse. La réparation automatique du GPU est activée par défaut pour les instances gérées Amazon ECS.

Comment ça marche

Amazon ECS utilise NVIDIA Data Center GPU Manager (DCGM) pour surveiller l'état du GPU NVIDIA sur les instances gérées dotées d'un matériel GPU. Lorsque le DCGM signale une défaillance critique du GPU, Amazon ECS marque l'instance comme étant défectueuse.

Lorsque la réparation automatique du GPU est activée, Amazon ECS remplace l'instance défectueuse en utilisant un flux de travail de démarrage avant arrêt :

  1. Amazon ECS définit l'instance altérée sur DRAINING. Les nouvelles tâches ne sont pas placées sur l'instance.

  2. Amazon ECS fournit une instance de remplacement.

  3. Amazon ECS permet aux tâches existantes de s'arrêter en douceur. Amazon ECS respecte le délai d'arrêt des tâches pour les tâches de l'instance.

  4. Une fois la période de vidange terminée, Amazon ECS met fin à l'instance défectueuse.

Amazon ECS limite le taux des actions de réparation afin d'éviter les remplacements en cascade. Pas plus de 20 % des instances appartenant au fournisseur de capacité peuvent être vidées à la fois. S'il y a moins de 9 instances dans le fournisseur de capacité, une instance au maximum est vidée à la fois.

Surveillance de l'état du GPU

Vous pouvez utiliser l'DescribeContainerInstancesAPI pour vérifier l'état du GPU. Pour de plus amples informations, veuillez consulter Surveillance de l’état des instances de conteneurs Amazon ECS. Vous pouvez également surveiller l'évolution de l'état du GPU via leÉvénements de modification de l'état de santé de l'instance de conteneur Amazon ECS.

Codes d'erreur XID surveillés

Amazon ECS surveille les codes d'erreur NVIDIA Xid suivants. Si Amazon ECS détecte l'une de ces erreurs, il marque l'instance comme étant altérée et la remplace.

Xid Description

46

Le GPU a arrêté le traitement

48

Erreur ECC à deux bits

54

Connecteur d'alimentation auxiliaire non connecté

62

Halte du microcontrôleur interne

64

Défaillance du remappage de la mémoire GPU

74

Erreur NVLink

79

Le GPU est tombé du bus

95

Erreur de mémoire non confinée

109

Délai d'expiration du changement de contexte

110

Le GPU a disparu du bus

136

La limite de retrait de pages de mémoire du GPU est dépassée

140

Erreur ECC irrécupérable

142

La page de mémoire du GPU a été retirée en raison d'une erreur non corrigible

143

Page mémoire du GPU retirée en raison d'un seuil d'erreur corrigible

151

Erreur d'interconnexion entre le processeur graphique et le processeur

155

Erreur CRC filtrée par GPU NVLink

156

Erreur de voie GPU NVLink

158

GPU InfoROM corrompu

Pour plus d’informations sur les erreurs XID, consultez Erreurs XID dans la Documentation sur le déploiement et la gestion des GPU NVIDIA. Pour plus d’informations sur les messages XID individuels, consultez Comprendre les messages XID dans la Documentation sur le déploiement et la gestion des GPU NVIDIA.

Désactivation de la réparation auto

La réparation automatique du GPU est activée par défaut pour les instances gérées Amazon ECS. Pour désactiver la réparation automatique du GPU, configurez actionsStatus cette DISABLED option autoRepairConfiguration lorsque vous créez ou mettez à jour un fournisseur de capacité. Vous pouvez également désactiver la réparation automatique du GPU dans la console Amazon ECS lorsque vous créez ou mettez à jour un fournisseur de capacité.

Lorsque la réparation automatique du GPU est désactivée, Amazon ECS continue de surveiller l'état du GPU, mais il ne remplace pas automatiquement les instances défectueuses.

Note

La désactivation de la réparation automatique du GPU désactive également la réparation automatique des démons gérés par Amazon ECS. Pour plus d'informations, consultez la section Amazon ECS Managed Daemons auto repair.

Pour désactiver la réparation automatique du GPU

aws ecs update-capacity-provider \ --name my-gpu-capacity-provider \ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "DISABLED" } }'

Pour activer la réparation automatique du GPU

aws ecs update-capacity-provider \ --name my-gpu-capacity-provider \ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "ENABLED" } }'

Pour vérifier la configuration

aws ecs describe-capacity-providers \ --capacity-providers my-gpu-capacity-provider