Risoluzione dei problemi relativi agli errori di invio dei lavori dovuti al limite MaxJobCount

Problema: gli invii di lavoro non vanno a buon fine e viene visualizzato il seguente messaggio di errore:

sbatch: error: Slurm temporarily unable to accept job, sleeping and retrying

Questo errore si verifica anche quando il numero di job in esecuzione e in sospeso sembra essere ben al di sotto del limite di job del cluster.

Causa: il MaxJobCount limite include tutti i lavori tracciati da Slurm, non solo i lavori in esecuzione o in sospeso. I lavori completati rimangono nella memoria di Slurm per un periodo di tempo (per impostazione predefinita, 5 minuti) prima di essere eliminati. Durante i periodi di elevata produttività dei lavori, il numero totale di lavori attivi e quelli completati di recente può superare il limite.

È possibile verificare il numero totale di processi eseguendo il comando seguente su un nodo del cluster:

scontrol show jobs | grep -c JobId

Questo mostra il numero totale di lavori che Slurm sta monitorando, compresi i lavori completati in attesa di eliminazione.

Soluzione: prendete in considerazione uno dei seguenti approcci:

Crea un cluster più grande: se il tuo carico di lavoro richiede costantemente più lavori simultanei, crea un nuovo cluster di dimensioni maggiori. Per ulteriori informazioni sulle dimensioni dei cluster e sui relativi limiti, consulta. Dimensione del cluster in AWS PCS
Riduci la frequenza di invio dei lavori: modifica gli script di invio dei lavori in modo da inviare i lavori a un ritmo più lento, in modo da eliminare il tempo necessario per i lavori completati dal tracciamento di Slurm.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Risolvi i problemi relativi al bootstrap e alla registrazione dei nodi di calcolo in PCS AWS

Cronologia dei documenti