Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Versionshinweise für Slurm-Versionen in PCS AWS
Dieses Thema beschreibt wichtige Änderungen für jede Slurm-Version, die derzeit in AWS PCS unterstützt wird. Wir empfehlen Ihnen, die Änderungen zwischen der alten und der neuen Version zu überprüfen, wenn Sie Ihren Cluster aktualisieren.
In PCS implementierte Änderungen AWS
-
Die Audit-Logs von Scheduler werden nun getrennt nach
PCS_SCHEDULER_AUDIT_LOGSProtokolltyp bereitgestellt, was die Problembehandlung und Prüfung vereinfacht, da die Protokollzustellung unabhängig gesteuert werden kann. Weitere Informationen finden Sie unter Scheduler-Prüfprotokolle in AWS PCS. -
Die beschleunigte Warteschlange ist standardmäßig aktiviert. Jobs, die aufgrund von Knotenproblemen fehlschlagen (z. B. Fehler bei unzureichender Kapazität), können mit der höchsten Planungspriorität unter Verwendung von in die Warteschlange eingereiht werden.
sbatch --requeue=expediteDies wird durch die EinstellungSchedulerParameters=enable_expedited_requeuegesteuert. -
Der
requeue_delayParameter ist als benutzerdefinierte Clustereinstellung mit einer Standardeinstellung von 5 Sekunden verfügbar. Bisher war die Warteschlangenverzögerung an den Ablauf der Anmeldeinformationen gebunden (70 Sekunden). Administratoren können dies jetzt unabhängig über konfigurieren.SchedulerParameters=requeue_delay=<seconds> -
HealthCheckNodeStateunterstützt jetzt denSTART_ONLYWert, der das Health Check-Programm nur beim Start des Knotens ausführt (slurmd start). -
CommunicationParameters=disable_httpist standardmäßig so eingestellt, dass die in Slurm 25.11 eingeführten HTTP-Endpunkte (Metriken und Integritätstests) deaktiviert werden. Um diese Endpunkte wieder zu aktivieren, setzen Sie.CommunicationParameters=enable_httpWeitere Informationen finden Sie unter Slurm-Metriken in AWS PCS.
Bekannte Probleme
-
Slurm 25.11 validiert
AllowQOSundDenyQOSpartitioniert Einstellungen, auch wenn sieAccountingStorageEnforce=QOSnicht gesetzt sind. Wenn ein QOS in der Slurm-Buchhaltungsdatenbank referenziert wirdAllowQOSoder nichtDenyQOSexistiert, wird der Vorgang mit einem schwerwiegenden Fehlerslurmctldbeendet. Stellen Sie sicher, dass alle in PartitionAllowQOSundDenyQOSEinstellungen aufgelisteten QOS-Werte in der Accounting-Datenbank existieren, bevor Sie auf Slurm 25.11 aktualisieren oder diesen neu starten. -
Das
slurmdProtokoll zeigt möglicherweise die Fehlermeldung an.error: cannot create url_parser context for http_parser/libhttp_parserDies ist ein bekanntes Slurm-Problem, das auch dann auftritt, wennCommunicationParameters=disable_httpes gesetzt ist. Der Fehler kann getrost ignoriert werden und hat keinen Einfluss auf den Clusterbetrieb.
Weitere Informationen zu Slurm 25.11 finden Sie in den folgenden Veröffentlichungen:
-
Ankündigung der Veröffentlichung von SchedMD: https://www.schedmd.com/slurm-version-25-11-0-is-now-available/
-
Versionshinweise zu SchedMD: https://github.com/SchedMD/slurm/blob/slurm-25.11/RELEASE_NOTES.md
In PCS implementierte Änderungen AWS
-
Der Slurm requeue_on_resume_failure ist jetzt standardmäßig SchedulerParameter aktiviert.
-
„stderr“ wurde als Option für entfernt, da es in Slurm 25.05 deaktiviert wurde. LogTimeFormat
-
AWS PCS unterstützt die Multi-cluster Sackd-Konfiguration: Der Login-Node kann auf mehrere Cluster zugreifen.
Weitere Informationen zu Slurm 25.05 finden Sie in den folgenden Publikationen:
-
Ankündigung der Veröffentlichung von SchedMD: https://www.schedmd.com/slurm-version-25-05-0-is-now-available/
-
Versionshinweise zu SchedMD: https://github.com/SchedMD/slurm/blob/slurm-25-05-0-1/RELEASE_NOTES.md
In PCS implementierte Änderungen AWS
-
AWS PCS unterstützt Slurm Accounting. Weitere Informationen finden Sie unter Slurm-Buchhaltung in PCS AWS.
Weitere Informationen zu Slurm 24.11 finden Sie in den folgenden Veröffentlichungen:
In PCS implementierte Änderungen AWS
-
Das neue Slurm Step Manager-Modul ist jetzt standardmäßig in AWS PCS aktiviert. Dieses Modul bietet erhebliche Vorteile, da das Schrittmanagement vom zentralen Controller auf die Rechenknoten verlagert wird, wodurch die Parallelität der Systeme in Umgebungen mit starker Schrittnutzung erheblich verbessert wird. Um diese Konfiguration zu unterstützen und die Ausführung besser zu isolieren
Prologund zuEpilogverarbeiten, wurden neue Prolog-Flags (Contain,Alloc) aktiviert. -
Die hierarchische Kommunikation vom Controller zu den Rechenknoten wird aktiviert, um die Kommunikation zwischen Slurm-Knoten zu optimieren und so die Skalierbarkeit und Leistung zu verbessern. Darüber hinaus verwendet die Routing-Konfiguration jetzt Partitionsknotenlisten für die Kommunikation vom Controller anstelle des Standard-Routing-Algorithmus des Plugins, wodurch die Systemstabilität verbessert wird.
-
Ein neues Hash-Plugin
HashPlugin=hash/sha3ersetzt das vorherigehash/k12 plugin. Dies ist jetzt standardmäßig in AWS PCS-Clustern aktiviert. -
Die Slurm-Controller-Logs enthalten jetzt erweiterte Auditing-Funktionen für alle eingehenden Remote Procedure Calls (RPC).
slurmctldDie Protokolle enthalten die Quelladresse, den authentifizierten Benutzer und den RPC-Typ vor der Verbindungsverarbeitung.
Weitere Informationen zu Slurm 24.05 finden Sie in den folgenden Veröffentlichungen:
Slurm-Einstellungen, die Sie in PCS ändern können AWS
-
Die
SuspendTimeStandardeinstellung ist.60Verwenden Sie den AWSscaleDownIdleTimeInSecondsPCS-Konfigurationsparameter, um ihn festzulegen. Weitere Informationen finden Sie unter demscaleDownIdleTimeInSecondsParameter desClusterSlurmConfigurationDatentyps in der AWS PCS-API-Referenz. -
Das
MaxJobCountundMaxArraySizebasiert auf der Größe, die Sie für den Cluster wählen. Weitere Informationen finden Sie unter demsizeParameter derCreateClusterAPI-Aktion in der AWS PCS-API-Referenz. -
Die
SelectTypeParametersSlurm-Einstellung ist standardmäßig auf.CR_CPUSie können ihn als Wert angeben,slurmCustomSettingsum ihn bei der Erstellung eines Clusters festzulegen. Weitere Informationen finden Sie imslurmCustomSettingsParameter derCreateClusterAPI-Aktion und SlurmCustomSettingin der AWS PCS-API-Referenz. -
Sie können
PrologundEpilogauf Clusterebene festlegen. Sie können es als Wert angebenslurmCustomSettings, um es festzulegen, wenn Sie einen Cluster erstellen. Weitere Informationen finden Sie unterCreateClusterund SlurmCustomSettingin der AWS PCS-API-Referenz. -
Sie können
WeightundRealMemoryauf der Ebene der Compute-Knotengruppen festlegen. Sie können es als Wert angeben,slurmCustomSettingsum es festzulegen, wenn Sie eine Compute-Knotengruppe erstellen. Weitere Informationen finden Sie unterCreateComputeNodeGroupund SlurmCustomSettingin der AWS PCS-API-Referenz.