View a markdown version of this page

Solución de errores en el envío de los trabajos debidos al MaxJobCount límite - AWS PIEZAS

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Solución de errores en el envío de los trabajos debidos al MaxJobCount límite

Problema: los envíos de trabajos fallan y aparece el siguiente mensaje de error:

sbatch: error: Slurm temporarily unable to accept job, sleeping and retrying

Este error se produce incluso cuando el número de trabajos pendientes y en ejecución parece estar muy por debajo del límite de trabajos del clúster.

Causa: el MaxJobCount límite incluye todos los trabajos rastreados por Slurm, no solo los trabajos pendientes o en ejecución. Los trabajos completados permanecen en la memoria de Slurm durante un período de tiempo (de forma predeterminada, 5 minutos) antes de ser purgados. Durante los períodos de alto rendimiento de los trabajos, el recuento total de trabajos activos y finalizados recientemente puede superar el límite.

Puede verificar el recuento total de trabajos ejecutando el siguiente comando en un nodo del clúster:

scontrol show jobs | grep -c JobId

Muestra el número total de trabajos que Slurm está rastreando, incluidos los trabajos finalizados que están pendientes de depuración.

Solución: considere uno de los siguientes enfoques:

  • Cree un clúster más grande: si su carga de trabajo requiere constantemente más trabajos simultáneos, cree un clúster nuevo con un tamaño mayor. Para obtener más información sobre los tamaños de los clústeres y sus límites, consulteTamaño del clúster en AWS PCS.

  • Reduzca la tasa de presentación de trabajos: ajuste sus scripts de envío de trabajos para enviar los trabajos a un ritmo más lento, lo que permitirá eliminar del seguimiento de Slurm el tiempo de finalización de los trabajos.