Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Memecahkan masalah kegagalan pengiriman pekerjaan karena batas MaxJobCount
Masalah: Pengajuan Job gagal dengan pesan galat berikut:
sbatch: error: Slurm temporarily unable to accept job, sleeping and retrying
Kesalahan ini terjadi bahkan ketika jumlah pekerjaan yang berjalan dan tertunda tampaknya jauh di bawah batas pekerjaan cluster.
Penyebab: MaxJobCount Batas mencakup semua pekerjaan yang dilacak oleh Slurm, tidak hanya menjalankan atau menunggu pekerjaan. Pekerjaan yang diselesaikan tetap berada dalam memori Slurm untuk jangka waktu tertentu (secara default, 5 menit) sebelum dibersihkan. Selama periode throughput pekerjaan yang tinggi, jumlah total pekerjaan aktif ditambah yang baru selesai dapat melebihi batas.
Anda dapat memverifikasi jumlah pekerjaan total dengan menjalankan perintah berikut pada node cluster:
scontrol show jobs | grep -c JobId
Ini menunjukkan jumlah total pekerjaan yang dilacak Slurm, termasuk pekerjaan yang diselesaikan menunggu pembersihan.
Solusi: Pertimbangkan salah satu pendekatan berikut:
-
Buat klaster yang lebih besar — Jika beban kerja Anda secara konsisten membutuhkan lebih banyak pekerjaan bersamaan, buat klaster baru dengan ukuran yang lebih besar. Untuk informasi selengkapnya tentang ukuran cluster dan batasnya, lihatUkuran cluster dalam AWS PCS.
-
Kurangi tingkat pengiriman pekerjaan - Sesuaikan skrip pengiriman pekerjaan Anda untuk mengirimkan pekerjaan pada tingkat yang lebih lambat, sehingga waktu pekerjaan yang telah selesai dibersihkan dari pelacakan Slurm.