Behebung von Fehlern bei der Einreichung von Jobs aufgrund eines MaxJobCount Limits

Problem: Die Jobübermittlung schlägt fehl und die folgende Fehlermeldung wird angezeigt:

sbatch: error: Slurm temporarily unable to accept job, sleeping and retrying

Dieser Fehler tritt auch dann auf, wenn die Anzahl der laufenden und ausstehenden Jobs deutlich unter dem Joblimit des Clusters zu liegen scheint.

Ursache: Das MaxJobCount Limit umfasst alle Jobs, die von Slurm verfolgt werden, nicht nur laufende oder ausstehende Jobs. Abgeschlossene Jobs bleiben für einen bestimmten Zeitraum (standardmäßig 5 Minuten) im Speicher von Slurm, bevor sie gelöscht werden. In Zeiten mit hohem Auftragsdurchsatz kann die Gesamtzahl der aktiven und kürzlich abgeschlossenen Jobs das Limit überschreiten.

Sie können die Gesamtzahl der Jobs überprüfen, indem Sie den folgenden Befehl auf einem Clusterknoten ausführen:

scontrol show jobs | grep -c JobId

Dies zeigt die Gesamtzahl der Jobs, die Slurm verfolgt, einschließlich abgeschlossener Jobs, die noch gelöscht werden müssen.

Lösung: Ziehen Sie einen der folgenden Ansätze in Betracht:

Einen größeren Cluster erstellen — Wenn Ihr Workload durchweg mehr gleichzeitige Jobs erfordert, erstellen Sie einen neuen Cluster mit einer größeren Größe. Weitere Informationen zu Clustergrößen und deren Beschränkungen finden Sie unterClustergröße in AWS PCS.
Reduzieren Sie die Anzahl der eingereichten Jobs — Passen Sie Ihre Skripte für die Einreichung von Jobs an, um Jobs langsamer einzureichen, sodass die Zeit für erledigte Jobs aus dem Tracking von Slurm gelöscht wird.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Beheben Sie Probleme mit dem Bootstrap und der Registrierung von Rechenknoten in PCS AWS

Dokumentverlauf