View a markdown version of this page

MaxJobCount 制限によるジョブ送信失敗のトラブルシューティング - AWS PCS

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

MaxJobCount 制限によるジョブ送信失敗のトラブルシューティング

問題: ジョブの送信が失敗し、次のエラーメッセージが表示されます。

sbatch: error: Slurm temporarily unable to accept job, sleeping and retrying

このエラーは、実行中および保留中のジョブの数がクラスターのジョブ制限を大幅に下回っているように見える場合でも発生します。

原因: MaxJobCount制限には、実行中または保留中のジョブだけでなく、Slurm によって追跡されるすべてのジョブが含まれます。完了したジョブは、消去されるまで一定期間 (デフォルトでは 5 分) 、Slurm のメモリに残ります。高ジョブスループット期間中、アクティブなジョブと最近完了したジョブの合計数が制限を超える可能性があります。

クラスターノードで次のコマンドを実行して、ジョブの合計数を確認できます。

scontrol show jobs | grep -c JobId

これは、Slurm が追跡しているジョブの合計数を示します。これには、パージを待っている完了したジョブが含まれます。

解決策: 次のいずれかのアプローチを検討してください。

  • より大きなクラスターを作成する – ワークロードで一貫してより多くの同時ジョブが必要な場合は、より大きなサイズの新しいクラスターを作成します。クラスターサイズとその制限の詳細については、「」を参照してくださいPCS AWS のクラスターサイズ

  • ジョブの送信レートを下げる – ジョブの送信スクリプトを調整してジョブの送信速度を遅くし、完了したジョブを Slurm の追跡から削除できるようにします。