Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
auto GPU-Reparatur für von Amazon ECS verwaltete Instances
Amazon ECS überwacht den Zustand der NVIDIA-GPU auf Amazon ECS Managed Instances, die GPU-Hardware verwenden. Wenn Amazon ECS einen GPU-Hardwarefehler erkennt, kann es die beeinträchtigte Instance automatisch ersetzen. Die auto GPU-Reparatur ist standardmäßig für Amazon ECS Managed Instances aktiviert.
Funktionsweise
Amazon ECS verwendet NVIDIA Data Center GPU Manager (DCGM), um den Zustand der NVIDIA-GPU auf verwalteten Instances mit GPU-Hardware zu überwachen. Wenn DCGM einen kritischen GPU-Ausfall meldet, markiert Amazon ECS die Instance als beeinträchtigt.
Wenn die auto GPU-Reparatur aktiviert ist, ersetzt Amazon ECS die beeinträchtigte Instance mithilfe eines Start-Before-Stopp-Workflows:
-
Amazon ECS setzt die beeinträchtigte Instance auf DRAINING. Neue Aufgaben werden der Instance nicht zugewiesen.
-
Amazon ECS stellt eine Ersatz-Instance bereit.
-
Mit Amazon ECS können bestehende Aufgaben problemlos beendet werden. Amazon ECS berücksichtigt das Zeitlimit für das Stoppen von Aufgaben auf der Instance.
-
Nach Ablauf der Drain-Zeit beendet Amazon ECS die beeinträchtigte Instance.
Amazon ECS begrenzt Reparaturaktionen auf Ratenbegrenzungen, um kaskadierende Austauschvorgänge zu verhindern. Es können nicht mehr als 20% der zum Kapazitätsanbieter gehörenden Instances gleichzeitig ausgelastet werden. Wenn der Kapazitätsanbieter weniger als 9 Instances umfasst, wird jeweils höchstens eine Instance ausgelastet.
Überwachung des GPU-Zustands
Sie können die DescribeContainerInstances API verwenden, um den Zustand der GPU zu überprüfen. Weitere Informationen finden Sie unter Überwachung des Zustands von Amazon-ECS-Container-Instances. Sie können Änderungen des GPU-Zustands auch über die überwachenEreignisse zur Änderung des Zustands der Amazon ECS-Container-Instance.
Überwachte XID-Fehlercodes
Amazon ECS überwacht die folgenden NVIDIA Xid-Fehlercodes. Wenn Amazon ECS einen dieser Fehler feststellt, markiert es die Instance als beeinträchtigt und ersetzt die Instance.
| Xid | Description |
|---|---|
46 |
Die GPU hat die Verarbeitung gestoppt |
48 |
Double-Bit-ECC-Fehler |
54 |
Der Hilfsstromanschluss ist nicht angeschlossen |
62 |
Interner Mikrocontroller stoppt |
64 |
Fehler bei der Neuzuweisung des GPU-Speichers |
74 |
NVLink-Fehler |
79 |
Die GPU ist vom Bus gefallen |
95 |
Fehler bei unbegrenztem Speicher |
109 |
Timeout für den Kontextwechsel |
110 |
Die GPU ist aus dem Bus verschwunden |
136 |
Das Limit für die Außerbetriebnahme von GPU-Speicherseiten |
140 |
ECC-Fehler, der nicht behebbar ist |
142 |
Die GPU-Speicherseite wurde aufgrund eines nicht behebbaren Fehlers eingestellt |
143 |
Die GPU-Speicherseite wurde aufgrund eines behebbaren Fehlerschwellenwerts zurückgezogen |
151 |
Verbindungsfehler zwischen GPU und CPU |
155 |
GPU NVLink Flit CRC-Fehler |
156 |
GPU NVLink-Spurfehler |
158 |
GPU InfoRoom ist beschädigt |
Weitere Informationen zu XID-Fehlern finden Sie unter XID-Fehler
Autoreparatur deaktivieren
Die auto GPU-Reparatur ist standardmäßig für Amazon ECS Managed Instances aktiviert. Um die auto GPU-Reparatur actionsStatus zu DISABLED deaktivieren, stellen Sie diese Option ein, autoRepairConfiguration wenn Sie einen Kapazitätsanbieter erstellen oder aktualisieren. Sie können die auto GPU-Reparatur auch in der Amazon ECS-Konsole deaktivieren, wenn Sie einen Kapazitätsanbieter erstellen oder aktualisieren.
Wenn die auto GPU-Reparatur deaktiviert ist, überwacht Amazon ECS weiterhin den Zustand der GPU, ersetzt beeinträchtigte Instances jedoch nicht automatisch.
Anmerkung
Wenn Sie die auto GPU-Reparatur deaktivieren, wird auch die auto Reparatur von Amazon ECS Managed Daemons deaktiviert. Weitere Informationen finden Sie unter auto Reparatur von Amazon ECS Managed Daemons.
Um die auto GPU-Reparatur zu deaktivieren
aws ecs update-capacity-provider \ --namemy-gpu-capacity-provider\ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "DISABLED" } }'
Um die auto GPU-Reparatur zu aktivieren
aws ecs update-capacity-provider \ --namemy-gpu-capacity-provider\ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "ENABLED" } }'
Um die Konfiguration zu überprüfen
aws ecs describe-capacity-providers \ --capacity-providersmy-gpu-capacity-provider