View a markdown version of this page

Verwendung von Bandenplanung in der SageMaker HyperPod Task-Governance von Amazon - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwendung von Bandenplanung in der SageMaker HyperPod Task-Governance von Amazon

Bei verteilten ML-Trainings erfordert ein Job oft, dass mehrere Pods gleichzeitig auf Knoten laufen und Pod-zu-Pod-Kommunikation gewährleistet ist. HyperPod Die Task-Governance nutzt die waitForPodsReady Funktion von Kueue, um die Gruppenplanung zu implementieren. Wenn diese Option aktiviert ist, wird der Workload von Kueue überwacht, bis alle Pods bereit sind, d. h. geplant sind, laufen und die optionale Bereitschaftsprüfung bestanden haben. Wenn nicht alle Pods des Workloads innerhalb des konfigurierten Timeouts bereit sind, wird der Workload gelöscht und in die Warteschlange gestellt.

Die Gruppenplanung bietet die folgenden Vorteile:

  • Beugt Ressourcenverschwendung vor — Die Warteschlange entfernt den Workload und stellt ihn in eine Warteschlange, wenn nicht alle Pods bereit sind. Dadurch wird sichergestellt, dass Ressourcen nicht auf unbestimmte Zeit durch teilweise ausgeführte Workloads zurückgehalten werden.

  • Vermeidet Deadlocks — Verhindert, dass Jobs teilweise Ressourcen enthalten und sich gegenseitig auf unbestimmte Zeit blockieren.

  • Automatische Wiederherstellung — Wenn Pods innerhalb des Timeouts nicht bereit sind, wird der Workload gelöscht und mit konfigurierbarem exponentiellem Backoff in die Warteschlange gestellt, anstatt auf unbestimmte Zeit zu warten.

Aktivieren Sie die Gruppenplanung

Um die Gruppenplanung zu aktivieren, müssen Sie einen HyperPod Amazon EKS-Cluster mit dem Amazon EKS-Add-on zur Aufgabenverwaltung installiert haben. Der Status des Add-ons muss Active oder seinDegraded.

Anmerkung

Die Gruppenplanung kann auch direkt konfiguriert werden, kubectl indem Sie die Kueue-Konfiguration auf dem Cluster bearbeiten.

Aktivieren Sie die Gruppenplanung (SageMaker KI-Konsole)
  1. Öffnen Sie die Amazon SageMaker AI-Konsole und navigieren Sie zu Ihrem HyperPod Cluster.

  2. Wählen Sie die Registerkarte Richtlinienverwaltung.

  3. Öffnen Sie im Bereich Task-Governance die Option Aktionen und wählen Sie dann Gruppenplanung konfigurieren aus.

  4. Schalten Sie die Gruppenplanung ein und konfigurieren Sie die Einstellungen.

  5. Wählen Sie Speichern. Der Kueue-Controller wird neu gestartet, um die Änderung zu übernehmen.

Konfigurationseinstellungen für die Gruppenplanung

In der folgenden Tabelle werden die Konfigurationseinstellungen für die Gruppenplanung beschrieben.

Einstellung Description Standard
timeout Wie lange Kueue wartet, bis alle Pods bereit sind, bevor der Workload entfernt und in die Warteschlange gestellt wird. 5m
recoveryTimeout Wie lange Kueue darauf wartet, dass ein Pod nach einem Knotenausfall wiederhergestellt ist, bevor es die Arbeitslast in die Warteschlange stellt. Auf deaktivieren setzen. 0s Standardmäßig ist der Wert von, timeout falls nicht festgelegt. 5m
blockAdmission Wenn diese Option aktiviert ist, werden Workloads sequenziell zugelassen. Es wird kein neuer Workload zugelassen, bis alle Pods des aktuellen Workloads bereit sind. Beugt Deadlocks auf Clustern mit eingeschränkten Ressourcen vor. Aus
requeuingStrategy timestamp Ob die Warteschlangenreihenfolge verwendet Creation (ursprüngliche Abgabezeit, Beibehaltung der Warteschlangenposition) oder Eviction (Zeitpunkt der letzten Räumung, wodurch wiederholt fehlgeschlagene Jobs effektiv depriorisiert werden). Räumung
requeuingStrategy backoffLimitCount Maximale Anzahl von Warteschlangenversuchen, bevor die Warteschlange den Workload dauerhaft deaktiviert. Lassen Sie das Feld leer für eine unbegrenzte Anzahl von Wiederholungen. Unbegrenzt
requeuingStrategy backoffBaseSeconds Die Basiszeit in Sekunden für exponentielles Backoff, wenn ein Workload nach jedem aufeinanderfolgenden Timeout in die Warteschlange gestellt wird. Der Exponent ist 2. 60er Jahre
requeuingStrategy backoffMaxSeconds Obergrenze für die exponentielle Backoff-Verzögerung. Sobald dieser Wert erreicht ist, setzt die Warteschlange die Warteschlange in diesem festen Intervall fort. 3600s
Anmerkung

Wenn Sie die Einstellungen für die Gruppenplanung ändern, wird der Warteschlangencontroller neu gestartet, wodurch sich die Auftragszulassung vorübergehend verzögern kann. Dies gilt unabhängig davon, ob Sie einen Wert aktivieren, deaktivieren oder aktualisieren. Laufende Jobs werden nicht unterbrochen.

Anmerkung

Die Gruppenplanung erfolgt clusterweit. Es gilt für alle Kueue-managed Workloads im Cluster, nicht nur für bestimmte Teams oder Warteschlangen.