Solución de errores en el envío de los trabajos debidos al MaxJobCount límite

Problema: los envíos de trabajos fallan y aparece el siguiente mensaje de error:

sbatch: error: Slurm temporarily unable to accept job, sleeping and retrying

Este error se produce incluso cuando el número de trabajos pendientes y en ejecución parece estar muy por debajo del límite de trabajos del clúster.

Causa: el MaxJobCount límite incluye todos los trabajos rastreados por Slurm, no solo los trabajos pendientes o en ejecución. Los trabajos completados permanecen en la memoria de Slurm durante un período de tiempo (de forma predeterminada, 5 minutos) antes de ser purgados. Durante los períodos de alto rendimiento de los trabajos, el recuento total de trabajos activos y finalizados recientemente puede superar el límite.

Puede verificar el recuento total de trabajos ejecutando el siguiente comando en un nodo del clúster:

scontrol show jobs | grep -c JobId

Muestra el número total de trabajos que Slurm está rastreando, incluidos los trabajos finalizados que están pendientes de depuración.

Solución: considere uno de los siguientes enfoques:

Cree un clúster más grande: si su carga de trabajo requiere constantemente más trabajos simultáneos, cree un clúster nuevo con un tamaño mayor. Para obtener más información sobre los tamaños de los clústeres y sus límites, consulteTamaño del clúster en AWS PCS.
Reduzca la tasa de presentación de trabajos: ajuste sus scripts de envío de trabajos para enviar los trabajos a un ritmo más lento, lo que permitirá eliminar del seguimiento de Slurm el tiempo de finalización de los trabajos.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Solucione los problemas de arranque y registro de los nodos de cómputo en AWS UNIDADES

Historial de revisión