Comment ça marche Surveillance de l'état du GPU Codes d'erreur XID surveillés Désactivation de la réparation auto

Réparation automatique du GPU pour les instances gérées Amazon ECS

Amazon ECS surveille l'état du GPU NVIDIA sur les instances gérées Amazon ECS qui utilisent du matériel GPU. Lorsqu'Amazon ECS détecte une défaillance matérielle du GPU, il peut automatiquement remplacer l'instance défectueuse. La réparation automatique du GPU est activée par défaut pour les instances gérées Amazon ECS.

Comment ça marche

Amazon ECS utilise NVIDIA Data Center GPU Manager (DCGM) pour surveiller l'état du GPU NVIDIA sur les instances gérées dotées d'un matériel GPU. Lorsque le DCGM signale une défaillance critique du GPU, Amazon ECS marque l'instance comme étant défectueuse.

Lorsque la réparation automatique du GPU est activée, Amazon ECS remplace l'instance défectueuse en utilisant un flux de travail de démarrage avant arrêt :

Amazon ECS définit l'instance altérée sur DRAINING. Les nouvelles tâches ne sont pas placées sur l'instance.
Amazon ECS fournit une instance de remplacement.
Amazon ECS permet aux tâches existantes de s'arrêter en douceur. Amazon ECS respecte le délai d'arrêt des tâches pour les tâches de l'instance.
Une fois la période de vidange terminée, Amazon ECS met fin à l'instance défectueuse.

Amazon ECS limite le taux des actions de réparation afin d'éviter les remplacements en cascade. Pas plus de 20 % des instances appartenant au fournisseur de capacité peuvent être vidées à la fois. S'il y a moins de 9 instances dans le fournisseur de capacité, une instance au maximum est vidée à la fois.

Surveillance de l'état du GPU

Vous pouvez utiliser l'DescribeContainerInstancesAPI pour vérifier l'état du GPU. Pour de plus amples informations, veuillez consulter Surveillance de l’état des instances de conteneurs Amazon ECS. Vous pouvez également surveiller l'évolution de l'état du GPU via leÉvénements de modification de l'état de santé de l'instance de conteneur Amazon ECS.

Codes d'erreur XID surveillés

Amazon ECS surveille les codes d'erreur NVIDIA Xid suivants. Si Amazon ECS détecte l'une de ces erreurs, il marque l'instance comme étant altérée et la remplace.

Xid	Description
46	Le GPU a arrêté le traitement
48	Erreur ECC à deux bits
54	Connecteur d'alimentation auxiliaire non connecté
62	Halte du microcontrôleur interne
64	Défaillance du remappage de la mémoire GPU
74	Erreur NVLink
79	Le GPU est tombé du bus
95	Erreur de mémoire non confinée
109	Délai d'expiration du changement de contexte
110	Le GPU a disparu du bus
136	La limite de retrait de pages de mémoire du GPU est dépassée
140	Erreur ECC irrécupérable
142	La page de mémoire du GPU a été retirée en raison d'une erreur non corrigible
143	Page mémoire du GPU retirée en raison d'un seuil d'erreur corrigible
151	Erreur d'interconnexion entre le processeur graphique et le processeur
155	Erreur CRC filtrée par GPU NVLink
156	Erreur de voie GPU NVLink
158	GPU InfoROM corrompu

Pour plus d’informations sur les erreurs XID, consultez Erreurs XID dans la Documentation sur le déploiement et la gestion des GPU NVIDIA. Pour plus d’informations sur les messages XID individuels, consultez Comprendre les messages XID dans la Documentation sur le déploiement et la gestion des GPU NVIDIA.

Désactivation de la réparation auto

La réparation automatique du GPU est activée par défaut pour les instances gérées Amazon ECS. Pour désactiver la réparation automatique du GPU, configurez actionsStatus cette DISABLED option autoRepairConfiguration lorsque vous créez ou mettez à jour un fournisseur de capacité. Vous pouvez également désactiver la réparation automatique du GPU dans la console Amazon ECS lorsque vous créez ou mettez à jour un fournisseur de capacité.

Lorsque la réparation automatique du GPU est désactivée, Amazon ECS continue de surveiller l'état du GPU, mais il ne remplace pas automatiquement les instances défectueuses.

Note

La désactivation de la réparation automatique du GPU désactive également la réparation automatique des démons gérés par Amazon ECS. Pour plus d'informations, consultez la section Amazon ECS Managed Daemons auto repair.

Pour désactiver la réparation automatique du GPU


aws ecs update-capacity-provider \
    --name my-gpu-capacity-provider \
    --managed-instances-provider '{
        "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole",
        "instanceLaunchTemplate": {
            "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole",
            "networkConfiguration": {
                "subnets": ["subnet-0123456789abcdef0"],
                "securityGroups": ["sg-0123456789abcdef0"]
            }
        },
        "autoRepairConfiguration": {
            "actionsStatus": "DISABLED"
        }
    }'

Pour activer la réparation automatique du GPU


aws ecs update-capacity-provider \
    --name my-gpu-capacity-provider \
    --managed-instances-provider '{
        "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole",
        "instanceLaunchTemplate": {
            "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole",
            "networkConfiguration": {
                "subnets": ["subnet-0123456789abcdef0"],
                "securityGroups": ["sg-0123456789abcdef0"]
            }
        },
        "autoRepairConfiguration": {
            "actionsStatus": "ENABLED"
        }
    }'

Pour vérifier la configuration


aws ecs describe-capacity-providers \
    --capacity-providers my-gpu-capacity-provider

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Optimisation de l’infrastructure

Migration de Fargate vers les instances gérées Amazon ECS