Memecahkan masalah kegagalan pengiriman pekerjaan karena batas MaxJobCount

Masalah: Pengajuan Job gagal dengan pesan galat berikut:

sbatch: error: Slurm temporarily unable to accept job, sleeping and retrying

Kesalahan ini terjadi bahkan ketika jumlah pekerjaan yang berjalan dan tertunda tampaknya jauh di bawah batas pekerjaan cluster.

Penyebab: MaxJobCount Batas mencakup semua pekerjaan yang dilacak oleh Slurm, tidak hanya menjalankan atau menunggu pekerjaan. Pekerjaan yang diselesaikan tetap berada dalam memori Slurm untuk jangka waktu tertentu (secara default, 5 menit) sebelum dibersihkan. Selama periode throughput pekerjaan yang tinggi, jumlah total pekerjaan aktif ditambah yang baru selesai dapat melebihi batas.

Anda dapat memverifikasi jumlah pekerjaan total dengan menjalankan perintah berikut pada node cluster:

scontrol show jobs | grep -c JobId

Ini menunjukkan jumlah total pekerjaan yang dilacak Slurm, termasuk pekerjaan yang diselesaikan menunggu pembersihan.

Solusi: Pertimbangkan salah satu pendekatan berikut:

Buat klaster yang lebih besar — Jika beban kerja Anda secara konsisten membutuhkan lebih banyak pekerjaan bersamaan, buat klaster baru dengan ukuran yang lebih besar. Untuk informasi selengkapnya tentang ukuran cluster dan batasnya, lihatUkuran cluster dalam AWS PCS.
Kurangi tingkat pengiriman pekerjaan - Sesuaikan skrip pengiriman pekerjaan Anda untuk mengirimkan pekerjaan pada tingkat yang lebih lambat, sehingga waktu pekerjaan yang telah selesai dibersihkan dari pelacakan Slurm.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Memecahkan masalah bootstrap node komputasi dan masalah pendaftaran di PCS AWS

Riwayat dokumen