View a markdown version of this page

Risoluzione dei problemi relativi agli errori di invio dei lavori dovuti al limite MaxJobCount - AWS PC

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Risoluzione dei problemi relativi agli errori di invio dei lavori dovuti al limite MaxJobCount

Problema: gli invii di lavoro non vanno a buon fine e viene visualizzato il seguente messaggio di errore:

sbatch: error: Slurm temporarily unable to accept job, sleeping and retrying

Questo errore si verifica anche quando il numero di job in esecuzione e in sospeso sembra essere ben al di sotto del limite di job del cluster.

Causa: il MaxJobCount limite include tutti i lavori tracciati da Slurm, non solo i lavori in esecuzione o in sospeso. I lavori completati rimangono nella memoria di Slurm per un periodo di tempo (per impostazione predefinita, 5 minuti) prima di essere eliminati. Durante i periodi di elevata produttività dei lavori, il numero totale di lavori attivi e quelli completati di recente può superare il limite.

È possibile verificare il numero totale di processi eseguendo il comando seguente su un nodo del cluster:

scontrol show jobs | grep -c JobId

Questo mostra il numero totale di lavori che Slurm sta monitorando, compresi i lavori completati in attesa di eliminazione.

Soluzione: prendete in considerazione uno dei seguenti approcci:

  • Crea un cluster più grande: se il tuo carico di lavoro richiede costantemente più lavori simultanei, crea un nuovo cluster di dimensioni maggiori. Per ulteriori informazioni sulle dimensioni dei cluster e sui relativi limiti, consulta. Dimensione del cluster in AWS PCS

  • Riduci la frequenza di invio dei lavori: modifica gli script di invio dei lavori in modo da inviare i lavori a un ritmo più lento, in modo da eliminare il tempo necessario per i lavori completati dal tracciamento di Slurm.