Aktivieren Sie die Gruppenplanung Konfigurationseinstellungen für die Gruppenplanung

Verwendung von Bandenplanung in der SageMaker HyperPod Task-Governance von Amazon

Bei verteilten ML-Trainings erfordert ein Job oft, dass mehrere Pods gleichzeitig auf Knoten laufen und Pod-zu-Pod-Kommunikation gewährleistet ist. HyperPod Die Task-Governance nutzt die waitForPodsReady Funktion von Kueue, um die Gruppenplanung zu implementieren. Wenn diese Option aktiviert ist, wird der Workload von Kueue überwacht, bis alle Pods bereit sind, d. h. geplant sind, laufen und die optionale Bereitschaftsprüfung bestanden haben. Wenn nicht alle Pods des Workloads innerhalb des konfigurierten Timeouts bereit sind, wird der Workload gelöscht und in die Warteschlange gestellt.

Die Gruppenplanung bietet die folgenden Vorteile:

Beugt Ressourcenverschwendung vor — Die Warteschlange entfernt den Workload und stellt ihn in eine Warteschlange, wenn nicht alle Pods bereit sind. Dadurch wird sichergestellt, dass Ressourcen nicht auf unbestimmte Zeit durch teilweise ausgeführte Workloads zurückgehalten werden.
Vermeidet Deadlocks — Verhindert, dass Jobs teilweise Ressourcen enthalten und sich gegenseitig auf unbestimmte Zeit blockieren.
Automatische Wiederherstellung — Wenn Pods innerhalb des Timeouts nicht bereit sind, wird der Workload gelöscht und mit konfigurierbarem exponentiellem Backoff in die Warteschlange gestellt, anstatt auf unbestimmte Zeit zu warten.

Aktivieren Sie die Gruppenplanung

Um die Gruppenplanung zu aktivieren, müssen Sie einen HyperPod Amazon EKS-Cluster mit dem Amazon EKS-Add-on zur Aufgabenverwaltung installiert haben. Der Status des Add-ons muss Active oder seinDegraded.

Anmerkung

Die Gruppenplanung kann auch direkt konfiguriert werden, kubectl indem Sie die Kueue-Konfiguration auf dem Cluster bearbeiten.

Aktivieren Sie die Gruppenplanung (SageMaker KI-Konsole)

Öffnen Sie die Amazon SageMaker AI-Konsole und navigieren Sie zu Ihrem HyperPod Cluster.
Wählen Sie die Registerkarte Richtlinienverwaltung.
Öffnen Sie im Bereich Task-Governance die Option Aktionen und wählen Sie dann Gruppenplanung konfigurieren aus.
Schalten Sie die Gruppenplanung ein und konfigurieren Sie die Einstellungen.
Wählen Sie Speichern. Der Kueue-Controller wird neu gestartet, um die Änderung zu übernehmen.

Konfigurationseinstellungen für die Gruppenplanung

In der folgenden Tabelle werden die Konfigurationseinstellungen für die Gruppenplanung beschrieben.

Einstellung	Description	Standard
`timeout`	Wie lange Kueue wartet, bis alle Pods bereit sind, bevor der Workload entfernt und in die Warteschlange gestellt wird.	5m
`recoveryTimeout`	Wie lange Kueue darauf wartet, dass ein Pod nach einem Knotenausfall wiederhergestellt ist, bevor es die Arbeitslast in die Warteschlange stellt. Auf deaktivieren setzen. `0s` Standardmäßig ist der Wert von, `timeout` falls nicht festgelegt.	5m
`blockAdmission`	Wenn diese Option aktiviert ist, werden Workloads sequenziell zugelassen. Es wird kein neuer Workload zugelassen, bis alle Pods des aktuellen Workloads bereit sind. Beugt Deadlocks auf Clustern mit eingeschränkten Ressourcen vor.	Aus
`requeuingStrategy timestamp`	Ob die Warteschlangenreihenfolge verwendet `Creation` (ursprüngliche Abgabezeit, Beibehaltung der Warteschlangenposition) oder `Eviction` (Zeitpunkt der letzten Räumung, wodurch wiederholt fehlgeschlagene Jobs effektiv depriorisiert werden).	Räumung
`requeuingStrategy backoffLimitCount`	Maximale Anzahl von Warteschlangenversuchen, bevor die Warteschlange den Workload dauerhaft deaktiviert. Lassen Sie das Feld leer für eine unbegrenzte Anzahl von Wiederholungen.	Unbegrenzt
`requeuingStrategy backoffBaseSeconds`	Die Basiszeit in Sekunden für exponentielles Backoff, wenn ein Workload nach jedem aufeinanderfolgenden Timeout in die Warteschlange gestellt wird. Der Exponent ist 2.	60er Jahre
`requeuingStrategy backoffMaxSeconds`	Obergrenze für die exponentielle Backoff-Verzögerung. Sobald dieser Wert erreicht ist, setzt die Warteschlange die Warteschlange in diesem festen Intervall fort.	3600s

Anmerkung

Wenn Sie die Einstellungen für die Gruppenplanung ändern, wird der Warteschlangencontroller neu gestartet, wodurch sich die Auftragszulassung vorübergehend verzögern kann. Dies gilt unabhängig davon, ob Sie einen Wert aktivieren, deaktivieren oder aktualisieren. Laufende Jobs werden nicht unterbrochen.

Anmerkung

Die Gruppenplanung erfolgt clusterweit. Es gilt für alle Kueue-managed Workloads im Cluster, nicht nur für bestimmte Teams oder Warteschlangen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Planung

Richtlinien