Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Riparazione automatica della GPU per le istanze gestite da Amazon ECS
Amazon ECS monitora lo stato della GPU NVIDIA su istanze gestite Amazon ECS che utilizzano hardware GPU. Quando Amazon ECS rileva un guasto hardware della GPU, può sostituire automaticamente l'istanza danneggiata. La riparazione automatica della GPU è abilitata per impostazione predefinita per le istanze gestite di Amazon ECS.
Come funziona
Amazon ECS utilizza NVIDIA Data Center GPU Manager (DCGM) per monitorare lo stato della GPU NVIDIA su istanze gestite che dispongono di hardware GPU. Quando DCGM segnala un guasto critico della GPU, Amazon ECS contrassegna l'istanza come compromessa.
Quando la riparazione automatica della GPU è abilitata, Amazon ECS sostituisce l'istanza danneggiata utilizzando un flusso di lavoro start-before-stop:
-
Amazon ECS imposta l'istanza danneggiata su DRAINING. Le nuove attività non vengono inserite nell'istanza.
-
Amazon ECS fornisce un'istanza sostitutiva.
-
Amazon ECS consente di interrompere correttamente le attività esistenti. Amazon ECS rispetta il timeout di interruzione delle attività per le attività sull'istanza.
-
Al termine del periodo di drenaggio, Amazon ECS termina l'istanza danneggiata.
Amazon ECS limita le azioni di riparazione per evitare sostituzioni a cascata. Non è possibile esaurire più del 20% delle istanze appartenenti al provider di capacità alla volta. Se nel Capacity Provider sono presenti meno di 9 istanze, viene esaurita al massimo un'istanza alla volta.
Monitoraggio dello stato della GPU
Puoi utilizzare l'DescribeContainerInstancesAPI per verificare lo stato della GPU. Per ulteriori informazioni, consulta Monitora l'integrità delle istanze di container Amazon ECS. Puoi anche monitorare le modifiche allo stato della GPU tramite. Eventi di modifica dello stato di integrità delle istanze del contenitore Amazon ECS
Codici di errore XID monitorati
Amazon ECS monitora i seguenti codici di errore NVIDIA Xid. Se Amazon ECS rileva uno di questi errori, contrassegna l'istanza come danneggiata e sostituisce l'istanza.
| Xid | Description |
|---|---|
46 |
La GPU ha interrotto l'elaborazione |
48 |
Errore ECC a doppio bit |
54 |
Connettore di alimentazione ausiliario non collegato |
62 |
Arresto interno del microcontrollore |
64 |
Errore di rimappatura della memoria della GPU |
74 |
Errore NVLink |
79 |
La GPU è caduta dal bus |
95 |
Errore di memoria non contenuto |
109 |
Timeout per il cambio di contesto |
110 |
La GPU è scomparsa dal bus |
136 |
Il limite di ritiro delle pagine di memoria della GPU è stato superato |
140 |
Errore ECC irreversibile |
142 |
La pagina di memoria della GPU è stata ritirata a causa di un errore non correggibile |
143 |
La pagina di memoria della GPU è stata ritirata a causa di una soglia di errore correggibile |
151 |
Errore di interconnessione da GPU a CPU |
155 |
Errore GPU NVLink flit CRC |
156 |
Errore di corsia GPU NVLink |
158 |
GPU InfoRom è danneggiata |
Per ulteriori informazioni sugli errori XID, consulta Errori Xid
Disabilitazione della riparazione automatica
La riparazione automatica della GPU è abilitata per impostazione predefinita per le istanze gestite di Amazon ECS. Per disabilitare la riparazione automatica della GPU, imposta su actionsStatus DISABLED Attiva autoRepairConfiguration quando crei o aggiorni un provider di capacità. Puoi anche disabilitare la riparazione automatica della GPU nella console Amazon ECS quando crei o aggiorni un provider di capacità.
Quando la riparazione automatica della GPU è disabilitata, Amazon ECS continua a monitorare lo stato della GPU, ma non sostituisce automaticamente le istanze danneggiate.
Nota
La disabilitazione della riparazione automatica della GPU disattiva anche la riparazione automatica di Amazon ECS Managed Daemons. Per ulteriori informazioni, consulta Amazon ECS Managed Daemons auto repair.
Per disattivare la riparazione automatica della GPU
aws ecs update-capacity-provider \ --namemy-gpu-capacity-provider\ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "DISABLED" } }'
Per abilitare la riparazione automatica della GPU
aws ecs update-capacity-provider \ --namemy-gpu-capacity-provider\ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "ENABLED" } }'
Per verificare la configurazione
aws ecs describe-capacity-providers \ --capacity-providersmy-gpu-capacity-provider