Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Kontinuierliche Bereitstellung für erweiterte Clusteroperationen mit Slurm
SageMaker HyperPod Amazon-Cluster, die mit Slurm-Orchestrierung erstellt wurden, unterstützen jetzt Continuous Provisioning, eine Funktion, die mehr Flexibilität und Effizienz bei der Ausführung großer Workloads ermöglicht. AI/ML Durch die kontinuierliche Bereitstellung können Sie schnell mit dem Training beginnen, nahtlos skalieren, Wartungsarbeiten ohne Betriebsunterbrechung durchführen und einen detaillierten Einblick in den Clusterbetrieb erhalten.
Anmerkung
Continuous Provisioning ist als optionale Konfiguration für HyperPod Cluster verfügbar, die mit Slurm-Orchestrierung erstellt wurden.
Funktionsweise
Das Continuous Provisioning System führt eine Architektur mit gewünschtem Status ein, die das traditionelle Alles-oder-Nichts-Skalierungsmodell ersetzt. Wenn beim vorherigen Modell eine Instanzgruppe nicht vollständig bereitgestellt werden konnte, schlug der gesamte Vorgang zur Clustererstellung oder -aktualisierung fehl und wurde zurückgesetzt. Bei kontinuierlicher Bereitstellung akzeptiert das System Teilkapazität und stellt die verbleibenden Instanzen weiterhin asynchron bereit.
Das System zur kontinuierlichen Bereitstellung:
-
Akzeptiert die Anfrage: Zeichnet die Anzahl der Zielinstanzen für jede Instanzgruppe auf.
-
Initiiert die Bereitstellung: Beginnt mit dem parallel Start von Instanzen für alle Instanzgruppen.
-
Stellt zuerst Prioritätsknoten bereit: Der Cluster wechselt zu,
InServicenachdem mindestens ein Controller-Knoten (und ein Login-Node, falls eine Login-Instanzgruppe angegeben wurde) erfolgreich bereitgestellt wurde. -
Verfolgt den Fortschritt: Überwacht jeden Instance-Startversuch und zeichnet den Status auf.
-
Behandelt Fehler: Wiederholt automatisch asynchron fehlgeschlagene Starts für Worker-Knoten.
Die kontinuierliche Bereitstellung ist standardmäßig deaktiviert. Um diese Funktion zu verwenden, stellen Sie Continuous in Ihrer NodeProvisioningMode CreateCluster Anfrage auf ein.
Wenn Continuous Provisioning aktiviert ist, können Sie mehrere Skalierungsvorgänge gleichzeitig initiieren, ohne auf den Abschluss früherer Operationen warten zu müssen. Auf diese Weise können Sie verschiedene Instance-Gruppen im selben Cluster gleichzeitig skalieren und mehrere Skalierungsanforderungen an dieselbe Instance-Gruppe senden.
Priority-based Bereitstellung
Slurm-Cluster erfordern, dass ein Controller-Knoten betriebsbereit ist, bevor Worker-Knoten sich registrieren und Jobs annehmen können. Continuous Provisioning erledigt dies automatisch durch prioritätsbasiertes Provisioning:
-
Die Controller-Instanzgruppe wird zuerst bereitgestellt.
-
Sobald ein Controller-Knoten fehlerfrei ist, beginnen Anmelde- und Worker-Knoten parallel mit der Bereitstellung.
-
Der Cluster wechselt zu dem
InServiceZeitpunkt, zu dem ein Controller-Knoten und ein Login-Node aktiv sind (sofern eine Login-Instanzgruppe angegeben ist). Wenn keine Login-Instanzgruppe angegeben ist, wechselt der Cluster zu,InServicesobald der Controller-Knoten bereitgestellt ist. -
Worker-Knoten, die aufgrund von Kapazitätsbeschränkungen nicht sofort bereitgestellt werden können, treten in eine asynchrone Wiederholungsschleife ein und werden dem Slurm-Cluster automatisch hinzugefügt, sobald sie verfügbar sind.
Behandlung von Controller-Fehlern
Wenn der Controller-Knoten bei der Clustererstellung die Bereitstellung fehlschlägt, hängt das Verhalten davon ab, ob der Fehler erneut versucht werden kann oder nicht.
Fehler, die wiederholt werden können (z. B. fehlerhafte Instanzen oder vorübergehende Ausfälle):
-
HyperPod ersetzt kontinuierlich die Instanz und versucht erneut, sie bereitzustellen, bis der Controller wieder verfügbar ist.
-
Worker- und Login-Knoten, die bereits bereitgestellt wurden, bleiben verfügbar, aber der Cluster wechselt
InServiceerst, wenn der Controller fehlerfrei ist.
Non-retryable Fehler (z. B. keine verfügbare Kapazität für den Controller-Instanztyp oder Fehler im Lifecycle-Skript):
-
Der Cluster ist markiert als
Failed. -
Sie werden über die Ursache des Fehlers informiert und müssen Abhilfemaßnahmen ergreifen, z. B. einen anderen Instance-Typ wählen, Lebenszyklusskripts korrigieren oder es in einer anderen Availability Zone erneut versuchen.
Voraussetzungen
Kontinuierliches Provisioning erfordert, dass die Slurm-Bereitstellungsparameter (Knotentypen, Partitionsnamen) über die API-Payload im Feld jeder Instanzgruppe bereitgestellt werden. SlurmConfig Cluster, die auf der provisioning_parameters.json Legacy-Datei in Amazon S3 basieren, sind nicht mit Continuous Provisioning kompatibel.
Anmerkung
Die folgenden Funktionen werden derzeit bei der kontinuierlichen Bereitstellung auf Slurm-Clustern nicht unterstützt: Konfiguration von Multi-Head-Knoten über die API-based Slurm-Topologie und. SlurmConfigStrategy Die kontinuierliche Bereitstellung erfolgt ausschließlich im Merge-Modus für die Verwaltung. slurm.conf
Nutzungsmessung
HyperPod Cluster mit kontinuierlicher Bereitstellung verwenden Metering auf Instanzebene, um eine genaue Abrechnung zu gewährleisten, die die tatsächliche Ressourcennutzung widerspiegelt. Dieser Zählungsansatz unterscheidet sich von der herkömmlichen Abrechnung auf Clusterebene dadurch, dass jede Instance unabhängig verfolgt wird.
Instance-level Fakturierung
Bei kontinuierlicher Bereitstellung beginnt und endet die Abrechnung auf der Ebene der einzelnen Instances, anstatt auf Statusänderungen auf Clusterebene zu warten. Diese Methode bietet folgende Vorteile:
-
Präzise Rechnungsgenauigkeit: Die Abrechnung beginnt, wenn die Ausführung des Lifecycle-Skripts beginnt. Wenn das Lifecycle-Skript fehlschlägt, wird die Instance-Bereitstellung erneut versucht, und Ihnen wird die Dauer der Laufzeit des Lifecycle-Skripts in Rechnung gestellt.
-
Unabhängige Messung: Der Abrechnungszyklus jeder Instanz wird separat verwaltet, wodurch kaskadierende Abrechnungsfehler vermieden werden.
-
Real-time Abrechnungsupdates: Die Abrechnung beginnt, wenn eine Instance mit der Ausführung ihres Lebenszyklus-Konfigurationsskripts beginnt, und endet, wenn die Instance in den Endzustand übergeht.
Lebenszyklus der Abrechnung
Jede Instance in Ihrem HyperPod Cluster folgt diesem Abrechnungszyklus:
-
Die Abrechnung beginnt: Wenn die Instance erfolgreich gestartet wird und mit der Ausführung ihres Lebenszyklus-Konfigurationsskripts beginnt.
-
Die Abrechnung wird fortgesetzt: Während der gesamten Betriebsdauer der Instance.
-
Die Abrechnung wird beendet: Wenn die Instance unabhängig vom Grund für die Kündigung in den Status „Beenden“ übergeht.
Anmerkung
Die Abrechnung für Instances, die nicht gestartet werden können, beginnt nicht. Wenn der Start einer Instance aufgrund unzureichender Kapazität oder anderer Probleme fehlschlägt, wird Ihnen dieser fehlgeschlagene Versuch nicht in Rechnung gestellt. Die Abrechnung wird auf Instance-Ebene berechnet und die Kosten werden zusammengefasst und unter dem Amazon-Ressourcennamen (ARN) Ihres Clusters gemeldet.
Erstellen Sie einen Cluster mit aktivierter kontinuierlicher Bereitstellung
Anmerkung
Bereiten Sie ein Lifecycle-Konfigurationsskript vor und laden Sie es in einen Amazon S3 S3-Bucket hoch, auf den Ihre Ausführungsrolle zugreifen kann. Weitere Informationen finden Sie unter SageMaker HyperPod Slurm-Cluster-Operationen.
Bereiten Sie eine CreateCluster API-Anforderungsdatei im JSON-Format vor. Stellen NodeProvisioningMode Sie diese Option ein Continuous und geben Sie im Feld jeder Instanzgruppe Informationen zur Slurm-Topologie anSlurmConfig.
// create_cluster.json { "ClusterName": "my-training-cluster", "NodeProvisioningMode": "Continuous", "Orchestrator": { "Slurm": {} }, "InstanceGroups": [ { "InstanceGroupName": "controller-group", "InstanceType": "ml.m5.xlarge", "InstanceCount": 1, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket/lifecycle-scripts/src/", "OnCreate": "on_create.sh" }, "ExecutionRole": "arn:aws:iam::111122223333:role/iam-role-for-cluster", "SlurmConfig": { "NodeType": "Controller" } }, { "InstanceGroupName": "login-group", "InstanceType": "ml.m5.xlarge", "InstanceCount": 1, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket/lifecycle-scripts/src/", "OnCreate": "on_create.sh" }, "ExecutionRole": "arn:aws:iam::111122223333:role/iam-role-for-cluster", "SlurmConfig": { "NodeType": "Login" } }, { "InstanceGroupName": "worker-gpu-a", "InstanceType": "ml.p5.48xlarge", "InstanceCount": 16, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket/lifecycle-scripts/src/", "OnCreate": "on_create.sh" }, "ExecutionRole": "arn:aws:iam::111122223333:role/iam-role-for-cluster", "SlurmConfig": { "NodeType": "Compute", "PartitionNames": ["gpu-training"] } } ], "VpcConfig": { "SecurityGroupIds": ["sg-12345678"], "Subnets": ["subnet-12345678"] } }
Führen Sie den create-cluster Befehl aus, um die Anfrage einzureichen.
aws sagemaker create-cluster \ --cli-input-json file://complete/path/to/create_cluster.json
Dies gibt den ARN des neuen Clusters zurück.
{ "ClusterArn": "arn:aws:sagemaker:us-west-2:111122223333:cluster/abcde12345" }
Verwaltung der Slurm-Konfiguration
Die kontinuierliche Bereitstellung erfolgt ausschließlich im Merge-Modus für die slurm.conf Partitionsverwaltung. HyperPodWendet im Zusammenführungsmodus die Änderungen der Partitionskonfiguration zusätzlich zu den Änderungen an, an denen Sie Änderungen vorgenommen haben. slurm.conf HyperPod aktualisiert nur die partitionsbezogenen Abschnitte von slurm.conf (wie Partitionsnamen- und Knotennameneinträge); andere Slurm-Konfigurationsparameter werden nicht geändert. Das bedeutet Folgendes:
-
Ihre manuellen Änderungen an bleiben erhalten.
slurm.conf -
Es gibt keine automatische Erkennung von Abweichungen oder eine automatische Lösung von Konflikten zwischen Ihren Änderungen und HyperPod dem erwarteten Status.
Der SlurmConfigStrategy Parameter (Managed,Merge,Overwrite) wird bei kontinuierlicher Bereitstellung nicht unterstützt. Die Übergabe eines beliebigen SlurmConfigStrategy Werts führt zu einem API-Fehler.
Mindestkapazitätsanforderungen (MinCount)
Mit dieser MinCount Funktion können Sie die Mindestanzahl von Instanzen angeben, die erfolgreich bereitgestellt werden müssen, bevor eine Instanzgruppe in den InService Status übergeht. Diese Funktion bietet eine bessere Kontrolle über Skalierungsvorgänge und trägt dazu bei, Szenarien zu vermeiden, in denen teilweise bereitgestellte Instanzgruppen nicht effektiv für Trainingsworkloads verwendet werden können.
Wichtig
MinCount ist keine dauerhafte Garantie für Mindestkapazität. Es stellt lediglich sicher, dass die angegebene Mindestanzahl von Instanzen verfügbar ist, wenn die Instanzgruppe zum ersten Mal verfügbar istInService. Bei normalem Betrieb, z. B. beim Austausch fehlerhafter Instances oder bei Wartungsarbeiten, MinCount kann es zu kurzen Abweichungen im unteren Bereich kommen.
MinCount Wie funktioniert
Wenn Sie eine Instanzgruppe mit MinCount aktivierter Option erstellen oder aktualisieren, tritt das folgende Verhalten auf:
-
Neue Instanzgruppen: Die Instanzgruppe bleibt so lange im
CreatingStatus, bis mindestens MinCount Instanzen erfolgreich bereitgestellt wurden und bereit sind. Sobald dieser Schwellenwert erreicht ist, wechselt die Instanzgruppe zuInService. -
Bestehende Instanzgruppen: Bei MinCount der Aktualisierung einer vorhandenen Instanzgruppe ändert sich der Status so lange,
Updatingbis die neue MinCount Anforderung erfüllt ist. -
Kontinuierliche Skalierung: Wenn der Wert größer als TargetCount ist MinCount, versucht das System für kontinuierliche Skalierung weiterhin, weitere Instances zu starten, bis dieser TargetCount Wert erreicht ist.
-
Timeout und Rollback: Wenn das Problem MinCount nicht innerhalb von 3 Stunden erfüllt werden kann, setzt das System die Instanzgruppe automatisch auf ihren letzten als funktionierend bekannten Zustand zurück. Weitere Informationen zum Rollback-Verhalten finden Sie unter Automatisches Rollback-Verhalten.
Status der Instanzgruppe während des Betriebs MinCount
Instanzgruppen mit MinCount konfigurierter Konfiguration weisen das folgende Statusverhalten auf:
- Erstellen
-
Für neue Instanzgruppen, wenn CurrentCount < MinCount. Die Instanzgruppe bleibt in diesem Status, bis die Mindestkapazitätsanforderung erfüllt ist.
- Aktualisieren
-
Für bestehende Instanzgruppen MinCount wird wann geändert und CurrentCount < MinCount. Die Instanzgruppe behält diesen Status, bis die neue Mindestkapazitätsanforderung erfüllt ist.
- InService
-
Wenn MinCount ≤ CurrentCount ≤ TargetCount. Die Instanzgruppe ist einsatzbereit und alle Mutationsoperationen sind entsperrt.
Während Creating unseres Updating Status gelten die folgenden Einschränkungen:
-
Mutationsoperationen wie
BatchAddClusterNodesBatchDeleteClusterNodes, oderUpdateClusterSoftwaresind blockiert -
Sie können weiterhin TargetCount Werte ändern MinCount , um Konfigurationsfehler zu korrigieren
-
Das Löschen von Clustern und Instanzgruppen ist immer zulässig
Automatisches Rollback-Verhalten
Wenn eine Instanzgruppe ihr Ziel nicht MinCount innerhalb von 3 Stunden erreichen kann, leitet das System automatisch ein Rollback ein, um unbegrenztes Warten zu verhindern:
-
Neue Instanzgruppen: MinCount und TargetCount werden auf (0, 0) zurückgesetzt
-
Bestehende Instanzgruppen: MinCount und TargetCount werden auf ihre Werte aus dem letzten
InServiceStatus zurückgesetzt -
Instanzauswahl zur Kündigung: Wenn Instanzen während eines Rollbacks beendet werden müssen, wählt das System zuerst die fehlerhaften Instanzen aus und dann diejenigen, die zuletzt bereitgestellt wurden.
-
Statusübergang: Die Instanzgruppe wechselt sofort nach der Initiierung des Rollbacks in
InServiceden Status, sodass das System mit kontinuierlicher Skalierung die Kapazität gemäß den Rollback-Einstellungen verwalten kann
Das 3-Stunden-Timeout wird jedes Mal zurückgesetzt, wenn es aktualisiert wird. MinCount Wenn Sie beispielsweise MinCount mehrmals aktualisieren, beginnt der Timeout-Zeitraum mit dem letzten Update.
MinCount Ereignisse
Das System sendet bestimmte Ereignisse aus, um Ihnen bei der Nachverfolgung von MinCount Vorgängen zu helfen:
-
Mindestkapazität erreicht: Wird ausgegeben, wenn eine Instanzgruppe ihre Kapazität erfolgreich erreicht MinCount und zu dieser übergeht
InService -
Rollback eingeleitet: Wird ausgelöst, wenn das 3-stündige Timeout abläuft und das automatische Rollback beginnt
Sie können diese Ereignisse überwachen, um den Fortschritt ListClusterEventsIhrer Operationen zu verfolgen. MinCount
API-Nutzung
MinCount wird mithilfe des MinInstanceCount Parameters in Instanzgruppenkonfigurationen angegeben:
aws sagemaker create-cluster \ --cluster-name $HP_CLUSTER_NAME \ --instance-groups '[ { "InstanceGroupName": "controller-machine", "InstanceType": "ml.c5.xlarge", "InstanceCount": 1, "SlurmConfig": {"NodeType": "Controller"}, "LifeCycleConfig": { "SourceS3Uri": "s3://'$BUCKET_NAME'", "OnCreate": "on_create.sh" }, "ExecutionRole": "'$EXECUTION_ROLE'", "ThreadsPerCore": 2 }, { "InstanceGroupName": "my-login-group", "InstanceType": "ml.c5.xlarge", "InstanceCount": 1, "SlurmConfig": {"NodeType": "Login"}, "LifeCycleConfig": { "SourceS3Uri": "s3://'$BUCKET_NAME'", "OnCreate": "on_create.sh" }, "ExecutionRole": "'$EXECUTION_ROLE'", "ThreadsPerCore": 1 }, { "InstanceGroupName": "worker-group-1", "InstanceType": "ml.c5.xlarge", "MinInstanceCount": 1, "InstanceCount": 2, "SlurmConfig": { "NodeType": "Compute", "PartitionNames": ["p1"] }, "LifeCycleConfig": { "SourceS3Uri": "s3://'$BUCKET_NAME'", "OnCreate": "on_create.sh" }, "ExecutionRole": "'$EXECUTION_ROLE'", "ThreadsPerCore": 1 } ]' \ --vpc-config '{ "SecurityGroupIds": ["'$SECURITY_GROUP'"], "Subnets": ["'$SUBNET'"] }' \ --node-provisioning-mode Continuous
Wichtige Überlegungen zur MinCount Verwendung:
-
MinInstanceCountmuss zwischen 0 und demInstanceCount(inklusiven) Wert der in CreateClusterunserer UpdateClusterAnfrage angegebenen Instanzgruppe liegen -
Bei Einstellung
MinInstanceCountauf 0 (Standard) wird das standardmäßige kontinuierliche Skalierungsverhalten beibehalten -
Die Standardeinstellung
MinInstanceCountfür Controller und Login InstanceGroup ist bei der Clustererstellung auf 1 gesetzt -
Wenn der
MinInstanceCountWert gleich gesetzt wird,InstanceCountergibt sich ein Alles-oder-Nichts-Skalierungsverhalten -
MinCount ist nur für Cluster mit
NodeProvisioningModeder Einstellung auf verfügbarContinuous