View a markdown version of this page

auto GPU-Reparatur für von Amazon ECS verwaltete Instances - Amazon Elastic Container Service

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

auto GPU-Reparatur für von Amazon ECS verwaltete Instances

Amazon ECS überwacht den Zustand der NVIDIA-GPU auf Amazon ECS Managed Instances, die GPU-Hardware verwenden. Wenn Amazon ECS einen GPU-Hardwarefehler erkennt, kann es die beeinträchtigte Instance automatisch ersetzen. Die auto GPU-Reparatur ist standardmäßig für Amazon ECS Managed Instances aktiviert.

Funktionsweise

Amazon ECS verwendet NVIDIA Data Center GPU Manager (DCGM), um den Zustand der NVIDIA-GPU auf verwalteten Instances mit GPU-Hardware zu überwachen. Wenn DCGM einen kritischen GPU-Ausfall meldet, markiert Amazon ECS die Instance als beeinträchtigt.

Wenn die auto GPU-Reparatur aktiviert ist, ersetzt Amazon ECS die beeinträchtigte Instance mithilfe eines Start-Before-Stopp-Workflows:

  1. Amazon ECS setzt die beeinträchtigte Instance auf DRAINING. Neue Aufgaben werden der Instance nicht zugewiesen.

  2. Amazon ECS stellt eine Ersatz-Instance bereit.

  3. Mit Amazon ECS können bestehende Aufgaben problemlos beendet werden. Amazon ECS berücksichtigt das Zeitlimit für das Stoppen von Aufgaben auf der Instance.

  4. Nach Ablauf der Drain-Zeit beendet Amazon ECS die beeinträchtigte Instance.

Amazon ECS begrenzt Reparaturaktionen auf Ratenbegrenzungen, um kaskadierende Austauschvorgänge zu verhindern. Es können nicht mehr als 20% der zum Kapazitätsanbieter gehörenden Instances gleichzeitig ausgelastet werden. Wenn der Kapazitätsanbieter weniger als 9 Instances umfasst, wird jeweils höchstens eine Instance ausgelastet.

Überwachung des GPU-Zustands

Sie können die DescribeContainerInstances API verwenden, um den Zustand der GPU zu überprüfen. Weitere Informationen finden Sie unter Überwachung des Zustands von Amazon-ECS-Container-Instances. Sie können Änderungen des GPU-Zustands auch über die überwachenEreignisse zur Änderung des Zustands der Amazon ECS-Container-Instance.

Überwachte XID-Fehlercodes

Amazon ECS überwacht die folgenden NVIDIA Xid-Fehlercodes. Wenn Amazon ECS einen dieser Fehler feststellt, markiert es die Instance als beeinträchtigt und ersetzt die Instance.

Xid Description

46

Die GPU hat die Verarbeitung gestoppt

48

Double-Bit-ECC-Fehler

54

Der Hilfsstromanschluss ist nicht angeschlossen

62

Interner Mikrocontroller stoppt

64

Fehler bei der Neuzuweisung des GPU-Speichers

74

NVLink-Fehler

79

Die GPU ist vom Bus gefallen

95

Fehler bei unbegrenztem Speicher

109

Timeout für den Kontextwechsel

110

Die GPU ist aus dem Bus verschwunden

136

Das Limit für die Außerbetriebnahme von GPU-Speicherseiten

140

ECC-Fehler, der nicht behebbar ist

142

Die GPU-Speicherseite wurde aufgrund eines nicht behebbaren Fehlers eingestellt

143

Die GPU-Speicherseite wurde aufgrund eines behebbaren Fehlerschwellenwerts zurückgezogen

151

Verbindungsfehler zwischen GPU und CPU

155

GPU NVLink Flit CRC-Fehler

156

GPU NVLink-Spurfehler

158

GPU InfoRoom ist beschädigt

Weitere Informationen zu XID-Fehlern finden Sie unter XID-Fehler in der Dokumentation zur Bereitstellung und Verwaltung von NVIDIA-GPUs. Weitere Informationen zu den einzelnen XID-Meldungen finden Sie unter XID-Meldungen verstehen in der Dokumentation zur Bereitstellung und Verwaltung von NVIDIA-GPUs.

Autoreparatur deaktivieren

Die auto GPU-Reparatur ist standardmäßig für Amazon ECS Managed Instances aktiviert. Um die auto GPU-Reparatur actionsStatus zu DISABLED deaktivieren, stellen Sie diese Option ein, autoRepairConfiguration wenn Sie einen Kapazitätsanbieter erstellen oder aktualisieren. Sie können die auto GPU-Reparatur auch in der Amazon ECS-Konsole deaktivieren, wenn Sie einen Kapazitätsanbieter erstellen oder aktualisieren.

Wenn die auto GPU-Reparatur deaktiviert ist, überwacht Amazon ECS weiterhin den Zustand der GPU, ersetzt beeinträchtigte Instances jedoch nicht automatisch.

Anmerkung

Wenn Sie die auto GPU-Reparatur deaktivieren, wird auch die auto Reparatur von Amazon ECS Managed Daemons deaktiviert. Weitere Informationen finden Sie unter auto Reparatur von Amazon ECS Managed Daemons.

Um die auto GPU-Reparatur zu deaktivieren

aws ecs update-capacity-provider \ --name my-gpu-capacity-provider \ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "DISABLED" } }'

Um die auto GPU-Reparatur zu aktivieren

aws ecs update-capacity-provider \ --name my-gpu-capacity-provider \ --managed-instances-provider '{ "infrastructureRoleArn": "arn:aws:iam::111122223333:role/ecsInfrastructureRole", "instanceLaunchTemplate": { "ec2InstanceProfileArn": "arn:aws:iam::111122223333:instance-profile/ecsInstanceRole", "networkConfiguration": { "subnets": ["subnet-0123456789abcdef0"], "securityGroups": ["sg-0123456789abcdef0"] } }, "autoRepairConfiguration": { "actionsStatus": "ENABLED" } }'

Um die Konfiguration zu überprüfen

aws ecs describe-capacity-providers \ --capacity-providers my-gpu-capacity-provider