View a markdown version of this page

Résolution des problèmes de soumission de tâches dus à une MaxJobCount limite - AWS PCS

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Résolution des problèmes de soumission de tâches dus à une MaxJobCount limite

Problème : les soumissions de Job échouent avec le message d'erreur suivant :

sbatch: error: Slurm temporarily unable to accept job, sleeping and retrying

Cette erreur se produit même lorsque le nombre de tâches en cours et en attente semble bien inférieur à la limite de tâches du cluster.

Cause : La MaxJobCount limite inclut toutes les tâches suivies par Slurm, et pas uniquement les tâches en cours ou en attente. Les tâches terminées restent dans la mémoire de Slurm pendant un certain temps (par défaut, 5 minutes) avant d'être purgées. Pendant les périodes où le nombre de tâches est élevé, le nombre total de tâches actives et de tâches récemment terminées peut dépasser la limite.

Vous pouvez vérifier le nombre total de tâches en exécutant la commande suivante sur un nœud de cluster :

scontrol show jobs | grep -c JobId

Cela indique le nombre total de tâches que Slurm suit, y compris les tâches terminées en attente de purge.

Solution : envisagez l'une des approches suivantes :

  • Création d'un cluster plus important : si votre charge de travail nécessite régulièrement un plus grand nombre de tâches simultanées, créez un nouveau cluster de plus grande taille. Pour plus d'informations sur la taille des clusters et leurs limites, consultezTaille du cluster en AWS PCS.

  • Réduisez le taux de soumission de tâches : ajustez vos scripts de soumission de tâches pour soumettre des tâches plus lentement, ce qui permet de supprimer le temps passé par les tâches terminées du suivi de Slurm.