As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Solucionando falhas no envio de trabalhos devido ao MaxJobCount limite
Problema: Os envios de trabalhos falham com a seguinte mensagem de erro:
sbatch: error: Slurm temporarily unable to accept job, sleeping and retrying
Esse erro ocorre mesmo quando o número de trabalhos em execução e pendentes parece estar bem abaixo do limite de trabalhos do cluster.
Causa: O MaxJobCount limite inclui todos os trabalhos monitorados pelo Slurm, não apenas os trabalhos em execução ou pendentes. Os trabalhos concluídos permanecem na memória do Slurm por um período de tempo (por padrão, 5 minutos) antes de serem removidos. Durante períodos de alta produtividade do trabalho, a contagem total de trabalhos ativos e recém-concluídos pode exceder o limite.
Você pode verificar a contagem total de trabalhos executando o seguinte comando em um nó do cluster:
scontrol show jobs | grep -c JobId
Isso mostra o número total de trabalhos que o Slurm está rastreando, incluindo trabalhos concluídos aguardando eliminação.
Solução: considere uma das seguintes abordagens:
-
Crie um cluster maior — Se sua carga de trabalho exigir consistentemente mais trabalhos simultâneos, crie um novo cluster com um tamanho maior. Para obter mais informações sobre tamanhos de cluster e seus limites, consulteTamanho do cluster no AWS PCS.
-
Reduza a taxa de envio de trabalhos — ajuste seus scripts de envio de trabalhos para enviar trabalhos em um ritmo mais lento, permitindo que o tempo de trabalhos concluídos seja eliminado do rastreamento do Slurm.