View a markdown version of this page

Versionshinweise für Slurm-Versionen in PCS AWS - AWS PCS

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Versionshinweise für Slurm-Versionen in PCS AWS

Dieses Thema beschreibt wichtige Änderungen für jede Slurm-Version, die derzeit in AWS PCS unterstützt wird. Wir empfehlen Ihnen, die Änderungen zwischen der alten und der neuen Version zu überprüfen, wenn Sie Ihren Cluster aktualisieren.

In PCS implementierte Änderungen AWS
  • Die Audit-Logs von Scheduler werden nun getrennt nach PCS_SCHEDULER_AUDIT_LOGS Protokolltyp bereitgestellt, was die Problembehandlung und Prüfung vereinfacht, da die Protokollzustellung unabhängig gesteuert werden kann. Weitere Informationen finden Sie unter Scheduler-Prüfprotokolle in AWS PCS.

  • Die beschleunigte Warteschlange ist standardmäßig aktiviert. Jobs, die aufgrund von Knotenproblemen fehlschlagen (z. B. Fehler bei unzureichender Kapazität), können mit der höchsten Planungspriorität unter Verwendung von in die Warteschlange eingereiht werden. sbatch --requeue=expedite Dies wird durch die Einstellung SchedulerParameters=enable_expedited_requeue gesteuert.

  • Der requeue_delay Parameter ist als benutzerdefinierte Clustereinstellung mit einer Standardeinstellung von 5 Sekunden verfügbar. Bisher war die Warteschlangenverzögerung an den Ablauf der Anmeldeinformationen gebunden (70 Sekunden). Administratoren können dies jetzt unabhängig über konfigurieren. SchedulerParameters=requeue_delay=<seconds>

  • HealthCheckNodeStateunterstützt jetzt den START_ONLY Wert, der das Health Check-Programm nur beim Start des Knotens ausführt (slurmd start).

  • CommunicationParameters=disable_httpist standardmäßig so eingestellt, dass die in Slurm 25.11 eingeführten HTTP-Endpunkte (Metriken und Integritätstests) deaktiviert werden. Um diese Endpunkte wieder zu aktivieren, setzen Sie. CommunicationParameters=enable_http Weitere Informationen finden Sie unter Slurm-Metriken in AWS PCS.

Bekannte Probleme
  • Slurm 25.11 validiert AllowQOS und DenyQOS partitioniert Einstellungen, auch wenn sie AccountingStorageEnforce=QOS nicht gesetzt sind. Wenn ein QOS in der Slurm-Buchhaltungsdatenbank referenziert wird AllowQOS oder nicht DenyQOS existiert, wird der Vorgang mit einem schwerwiegenden Fehler slurmctld beendet. Stellen Sie sicher, dass alle in Partition AllowQOS und DenyQOS Einstellungen aufgelisteten QOS-Werte in der Accounting-Datenbank existieren, bevor Sie auf Slurm 25.11 aktualisieren oder diesen neu starten.

  • Das slurmd Protokoll zeigt möglicherweise die Fehlermeldung an. error: cannot create url_parser context for http_parser/libhttp_parser Dies ist ein bekanntes Slurm-Problem, das auch dann auftritt, wenn CommunicationParameters=disable_http es gesetzt ist. Der Fehler kann getrost ignoriert werden und hat keinen Einfluss auf den Clusterbetrieb.

Weitere Informationen zu Slurm 25.11 finden Sie in den folgenden Veröffentlichungen:

In PCS implementierte Änderungen AWS
  • Der Slurm requeue_on_resume_failure ist jetzt standardmäßig SchedulerParameter aktiviert.

  • „stderr“ wurde als Option für entfernt, da es in Slurm 25.05 deaktiviert wurde. LogTimeFormat

  • AWS PCS unterstützt die Multi-cluster Sackd-Konfiguration: Der Login-Node kann auf mehrere Cluster zugreifen.

Weitere Informationen zu Slurm 25.05 finden Sie in den folgenden Publikationen:

In PCS implementierte Änderungen AWS

Weitere Informationen zu Slurm 24.11 finden Sie in den folgenden Veröffentlichungen:

In PCS implementierte Änderungen AWS
  • Das neue Slurm Step Manager-Modul ist jetzt standardmäßig in AWS PCS aktiviert. Dieses Modul bietet erhebliche Vorteile, da das Schrittmanagement vom zentralen Controller auf die Rechenknoten verlagert wird, wodurch die Parallelität der Systeme in Umgebungen mit starker Schrittnutzung erheblich verbessert wird. Um diese Konfiguration zu unterstützen und die Ausführung besser zu isolieren Prolog und zu Epilog verarbeiten, wurden neue Prolog-Flags (Contain,Alloc) aktiviert.

  • Die hierarchische Kommunikation vom Controller zu den Rechenknoten wird aktiviert, um die Kommunikation zwischen Slurm-Knoten zu optimieren und so die Skalierbarkeit und Leistung zu verbessern. Darüber hinaus verwendet die Routing-Konfiguration jetzt Partitionsknotenlisten für die Kommunikation vom Controller anstelle des Standard-Routing-Algorithmus des Plugins, wodurch die Systemstabilität verbessert wird.

  • Ein neues Hash-Plugin HashPlugin=hash/sha3 ersetzt das vorherigehash/k12 plugin. Dies ist jetzt standardmäßig in AWS PCS-Clustern aktiviert.

  • Die Slurm-Controller-Logs enthalten jetzt erweiterte Auditing-Funktionen für alle eingehenden Remote Procedure Calls (RPC). slurmctld Die Protokolle enthalten die Quelladresse, den authentifizierten Benutzer und den RPC-Typ vor der Verbindungsverarbeitung.

Weitere Informationen zu Slurm 24.05 finden Sie in den folgenden Veröffentlichungen:

Slurm-Einstellungen, die Sie in PCS ändern können AWS
  • Die SuspendTime Standardeinstellung ist. 60 Verwenden Sie den AWS scaleDownIdleTimeInSeconds PCS-Konfigurationsparameter, um ihn festzulegen. Weitere Informationen finden Sie unter dem scaleDownIdleTimeInSecondsParameter des ClusterSlurmConfiguration Datentyps in der AWS PCS-API-Referenz.

  • Das MaxJobCount und MaxArraySize basiert auf der Größe, die Sie für den Cluster wählen. Weitere Informationen finden Sie unter dem sizeParameter der CreateCluster API-Aktion in der AWS PCS-API-Referenz.

  • Die SelectTypeParameters Slurm-Einstellung ist standardmäßig auf. CR_CPU Sie können ihn als Wert angeben, slurmCustomSettings um ihn bei der Erstellung eines Clusters festzulegen. Weitere Informationen finden Sie im slurmCustomSettingsParameter der CreateCluster API-Aktion und SlurmCustomSettingin der AWS PCS-API-Referenz.

  • Sie können Prolog und Epilog auf Clusterebene festlegen. Sie können es als Wert angebenslurmCustomSettings, um es festzulegen, wenn Sie einen Cluster erstellen. Weitere Informationen finden Sie unter CreateClusterund SlurmCustomSettingin der AWS PCS-API-Referenz.

  • Sie können Weight und RealMemory auf der Ebene der Compute-Knotengruppen festlegen. Sie können es als Wert angeben, slurmCustomSettings um es festzulegen, wenn Sie eine Compute-Knotengruppe erstellen. Weitere Informationen finden Sie unter CreateComputeNodeGroupund SlurmCustomSettingin der AWS PCS-API-Referenz.