Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Behebung von Fehlern bei der Einreichung von Jobs aufgrund eines MaxJobCount Limits
Problem: Die Jobübermittlung schlägt fehl und die folgende Fehlermeldung wird angezeigt:
sbatch: error: Slurm temporarily unable to accept job, sleeping and retrying
Dieser Fehler tritt auch dann auf, wenn die Anzahl der laufenden und ausstehenden Jobs deutlich unter dem Joblimit des Clusters zu liegen scheint.
Ursache: Das MaxJobCount Limit umfasst alle Jobs, die von Slurm verfolgt werden, nicht nur laufende oder ausstehende Jobs. Abgeschlossene Jobs bleiben für einen bestimmten Zeitraum (standardmäßig 5 Minuten) im Speicher von Slurm, bevor sie gelöscht werden. In Zeiten mit hohem Auftragsdurchsatz kann die Gesamtzahl der aktiven und kürzlich abgeschlossenen Jobs das Limit überschreiten.
Sie können die Gesamtzahl der Jobs überprüfen, indem Sie den folgenden Befehl auf einem Clusterknoten ausführen:
scontrol show jobs | grep -c JobId
Dies zeigt die Gesamtzahl der Jobs, die Slurm verfolgt, einschließlich abgeschlossener Jobs, die noch gelöscht werden müssen.
Lösung: Ziehen Sie einen der folgenden Ansätze in Betracht:
-
Einen größeren Cluster erstellen — Wenn Ihr Workload durchweg mehr gleichzeitige Jobs erfordert, erstellen Sie einen neuen Cluster mit einer größeren Größe. Weitere Informationen zu Clustergrößen und deren Beschränkungen finden Sie unterClustergröße in AWS PCS.
-
Reduzieren Sie die Anzahl der eingereichten Jobs — Passen Sie Ihre Skripte für die Einreichung von Jobs an, um Jobs langsamer einzureichen, sodass die Zeit für erledigte Jobs aus dem Tracking von Slurm gelöscht wird.