Solucionando falhas no envio de trabalhos devido ao MaxJobCount limite

Problema: Os envios de trabalhos falham com a seguinte mensagem de erro:

sbatch: error: Slurm temporarily unable to accept job, sleeping and retrying

Esse erro ocorre mesmo quando o número de trabalhos em execução e pendentes parece estar bem abaixo do limite de trabalhos do cluster.

Causa: O MaxJobCount limite inclui todos os trabalhos monitorados pelo Slurm, não apenas os trabalhos em execução ou pendentes. Os trabalhos concluídos permanecem na memória do Slurm por um período de tempo (por padrão, 5 minutos) antes de serem removidos. Durante períodos de alta produtividade do trabalho, a contagem total de trabalhos ativos e recém-concluídos pode exceder o limite.

Você pode verificar a contagem total de trabalhos executando o seguinte comando em um nó do cluster:

scontrol show jobs | grep -c JobId

Isso mostra o número total de trabalhos que o Slurm está rastreando, incluindo trabalhos concluídos aguardando eliminação.

Solução: considere uma das seguintes abordagens:

Crie um cluster maior — Se sua carga de trabalho exigir consistentemente mais trabalhos simultâneos, crie um novo cluster com um tamanho maior. Para obter mais informações sobre tamanhos de cluster e seus limites, consulteTamanho do cluster no AWS PCS.
Reduza a taxa de envio de trabalhos — ajuste seus scripts de envio de trabalhos para enviar trabalhos em um ritmo mais lento, permitindo que o tempo de trabalhos concluídos seja eliminado do rastreamento do Slurm.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Solucione problemas de inicialização e registro do nó de computação no AWS PCS

Histórico do documento