Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Réparation automatique du GPU pour les instances gérées Amazon ECS
Amazon ECS surveille l'état du GPU NVIDIA sur les instances gérées Amazon ECS qui utilisent du matériel GPU. Lorsqu'Amazon ECS détecte une défaillance matérielle du GPU, il peut automatiquement remplacer l'instance défectueuse. La réparation automatique du GPU est activée par défaut pour les instances gérées Amazon ECS.
Comment ça marche
Amazon ECS utilise NVIDIA Data Center GPU Manager (DCGM) pour surveiller l'état du GPU NVIDIA sur les instances gérées dotées d'un matériel GPU. Lorsque le DCGM signale une défaillance critique du GPU, Amazon ECS marque l'instance comme étant défectueuse.
Lorsque la réparation automatique du GPU est activée, Amazon ECS remplace l'instance défectueuse en utilisant un flux de travail de démarrage avant arrêt :
-
Amazon ECS définit l'instance altérée sur DRAINING. Les nouvelles tâches ne sont pas placées sur l'instance.
-
Amazon ECS fournit une instance de remplacement.
-
Amazon ECS permet aux tâches existantes de s'arrêter en douceur. Amazon ECS respecte le délai d'arrêt des tâches pour les tâches de l'instance.
-
Une fois la période de vidange terminée, Amazon ECS met fin à l'instance défectueuse.
Amazon ECS limite le taux des actions de réparation afin d'éviter les remplacements en cascade. Pas plus de 20 % des instances appartenant au fournisseur de capacité peuvent être vidées à la fois. S'il y a moins de 9 instances dans le fournisseur de capacité, une instance au maximum est vidée à la fois.
Surveillance de l'état du GPU
Vous pouvez utiliser l'DescribeContainerInstancesAPI pour vérifier l'état du GPU. Pour de plus amples informations, veuillez consulter Surveillance de l’état des instances de conteneurs Amazon ECS. Vous pouvez également surveiller l'évolution de l'état du GPU via leÉvénements de modification de l'état de santé de l'instance de conteneur Amazon ECS.
Codes d'erreur XID surveillés
Amazon ECS surveille les codes d'erreur NVIDIA Xid suivants. Si Amazon ECS détecte l'une de ces erreurs, il marque l'instance comme étant altérée et la remplace.
| Xid | Description |
|---|---|
46 |
Le GPU a arrêté le traitement |
48 |
Erreur ECC à deux bits |
54 |
Connecteur d'alimentation auxiliaire non connecté |
62 |
Halte du microcontrôleur interne |
64 |
Défaillance du remappage de la mémoire GPU |
74 |
Erreur NVLink |
79 |
Le GPU est tombé du bus |
95 |
Erreur de mémoire non confinée |
109 |
Délai d'expiration du changement de contexte |
110 |
Le GPU a disparu du bus |
136 |
La limite de retrait de pages de mémoire du GPU est dépassée |
140 |
Erreur ECC irrécupérable |
142 |
La page de mémoire du GPU a été retirée en raison d'une erreur non corrigible |
143 |
Page mémoire du GPU retirée en raison d'un seuil d'erreur corrigible |
151 |
Erreur d'interconnexion entre le processeur graphique et le processeur |
155 |
Erreur CRC filtrée par GPU NVLink |
156 |
Erreur de voie GPU NVLink |
158 |
GPU InfoROM corrompu |
Pour plus d’informations sur les erreurs XID, consultez Erreurs XID
Désactivation de la réparation auto
La réparation automatique du GPU est activée par défaut pour les instances gérées Amazon ECS. Pour désactiver la réparation automatique du GPU, configurez actionsStatus cette DISABLED option autoRepairConfiguration lorsque vous créez ou mettez à jour un fournisseur de capacité. Vous pouvez également désactiver la réparation automatique du GPU dans la console Amazon ECS lorsque vous créez ou mettez à jour un fournisseur de capacité.
Lorsque la réparation automatique du GPU est désactivée, Amazon ECS continue de surveiller l'état du GPU, mais il ne remplace pas automatiquement les instances défectueuses.
Note
La désactivation de la réparation automatique du GPU désactive également la réparation automatique des démons gérés par Amazon ECS. Pour plus d'informations, consultez la section Amazon ECS Managed Daemons auto repair.
Pour désactiver la réparation automatique du GPU
aws ecs update-capacity-provider \ --namemy-gpu-capacity-provider\ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "DISABLED" } }'
Pour activer la réparation automatique du GPU
aws ecs update-capacity-provider \ --namemy-gpu-capacity-provider\ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "ENABLED" } }'
Pour vérifier la configuration
aws ecs describe-capacity-providers \ --capacity-providersmy-gpu-capacity-provider