View a markdown version of this page

Riparazione automatica della GPU per le istanze gestite da Amazon ECS - Amazon Elastic Container Service

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Riparazione automatica della GPU per le istanze gestite da Amazon ECS

Amazon ECS monitora lo stato della GPU NVIDIA su istanze gestite Amazon ECS che utilizzano hardware GPU. Quando Amazon ECS rileva un guasto hardware della GPU, può sostituire automaticamente l'istanza danneggiata. La riparazione automatica della GPU è abilitata per impostazione predefinita per le istanze gestite di Amazon ECS.

Come funziona

Amazon ECS utilizza NVIDIA Data Center GPU Manager (DCGM) per monitorare lo stato della GPU NVIDIA su istanze gestite che dispongono di hardware GPU. Quando DCGM segnala un guasto critico della GPU, Amazon ECS contrassegna l'istanza come compromessa.

Quando la riparazione automatica della GPU è abilitata, Amazon ECS sostituisce l'istanza danneggiata utilizzando un flusso di lavoro start-before-stop:

  1. Amazon ECS imposta l'istanza danneggiata su DRAINING. Le nuove attività non vengono inserite nell'istanza.

  2. Amazon ECS fornisce un'istanza sostitutiva.

  3. Amazon ECS consente di interrompere correttamente le attività esistenti. Amazon ECS rispetta il timeout di interruzione delle attività per le attività sull'istanza.

  4. Al termine del periodo di drenaggio, Amazon ECS termina l'istanza danneggiata.

Amazon ECS limita le azioni di riparazione per evitare sostituzioni a cascata. Non è possibile esaurire più del 20% delle istanze appartenenti al provider di capacità alla volta. Se nel Capacity Provider sono presenti meno di 9 istanze, viene esaurita al massimo un'istanza alla volta.

Monitoraggio dello stato della GPU

Puoi utilizzare l'DescribeContainerInstancesAPI per verificare lo stato della GPU. Per ulteriori informazioni, consulta Monitora l'integrità delle istanze di container Amazon ECS. Puoi anche monitorare le modifiche allo stato della GPU tramite. Eventi di modifica dello stato di integrità delle istanze del contenitore Amazon ECS

Codici di errore XID monitorati

Amazon ECS monitora i seguenti codici di errore NVIDIA Xid. Se Amazon ECS rileva uno di questi errori, contrassegna l'istanza come danneggiata e sostituisce l'istanza.

Xid Description

46

La GPU ha interrotto l'elaborazione

48

Errore ECC a doppio bit

54

Connettore di alimentazione ausiliario non collegato

62

Arresto interno del microcontrollore

64

Errore di rimappatura della memoria della GPU

74

Errore NVLink

79

La GPU è caduta dal bus

95

Errore di memoria non contenuto

109

Timeout per il cambio di contesto

110

La GPU è scomparsa dal bus

136

Il limite di ritiro delle pagine di memoria della GPU è stato superato

140

Errore ECC irreversibile

142

La pagina di memoria della GPU è stata ritirata a causa di un errore non correggibile

143

La pagina di memoria della GPU è stata ritirata a causa di una soglia di errore correggibile

151

Errore di interconnessione da GPU a CPU

155

Errore GPU NVLink flit CRC

156

Errore di corsia GPU NVLink

158

GPU InfoRom è danneggiata

Per ulteriori informazioni sugli errori XID, consulta Errori Xid nella Documentazione di implementazione e gestione delle GPU NVIDIA. Per ulteriori informazioni sui singoli messaggi XID, consulta Comprensione dei messaggi Xid nella Documentazione di implementazione e gestione delle GPU NVIDIA.

Disabilitazione della riparazione automatica

La riparazione automatica della GPU è abilitata per impostazione predefinita per le istanze gestite di Amazon ECS. Per disabilitare la riparazione automatica della GPU, imposta su actionsStatus DISABLED Attiva autoRepairConfiguration quando crei o aggiorni un provider di capacità. Puoi anche disabilitare la riparazione automatica della GPU nella console Amazon ECS quando crei o aggiorni un provider di capacità.

Quando la riparazione automatica della GPU è disabilitata, Amazon ECS continua a monitorare lo stato della GPU, ma non sostituisce automaticamente le istanze danneggiate.

Nota

La disabilitazione della riparazione automatica della GPU disattiva anche la riparazione automatica di Amazon ECS Managed Daemons. Per ulteriori informazioni, consulta Amazon ECS Managed Daemons auto repair.

Per disattivare la riparazione automatica della GPU

aws ecs update-capacity-provider \ --name my-gpu-capacity-provider \ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "DISABLED" } }'

Per abilitare la riparazione automatica della GPU

aws ecs update-capacity-provider \ --name my-gpu-capacity-provider \ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "ENABLED" } }'

Per verificare la configurazione

aws ecs describe-capacity-providers \ --capacity-providers my-gpu-capacity-provider