Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Catatan rilis untuk versi Slurm di PCS AWS
Topik ini menjelaskan perubahan penting untuk setiap versi Slurm yang saat ini didukung di AWS PCS. Kami sarankan Anda meninjau perubahan antara versi lama dan baru saat Anda meng-upgrade klaster Anda.
Perubahan diterapkan di AWS PCS
-
Log audit scheduler sekarang dikirimkan secara terpisah melalui jenis
PCS_SCHEDULER_AUDIT_LOGSlog, menyederhanakan pemecahan masalah dan audit dengan kontrol independen atas pengiriman log. Untuk informasi selengkapnya, lihat Log audit penjadwal di AWS PCS. -
Requeue yang dipercepat diaktifkan secara default. Pekerjaan yang gagal karena masalah node (seperti kesalahan kapasitas yang tidak mencukupi) dapat diisi ulang dengan prioritas penjadwalan tertinggi menggunakan.
sbatch --requeue=expediteIni dikendalikan olehSchedulerParameters=enable_expedited_requeuepengaturan. -
requeue_delayParameter ini tersedia sebagai pengaturan cluster kustom dengan default 5 detik. Sebelumnya, penundaan requeue terkait dengan kedaluwarsa kredensi (70 detik). Administrator sekarang dapat mengkonfigurasi ini secara independen melaluiSchedulerParameters=requeue_delay=<seconds>. -
HealthCheckNodeStatesekarang mendukungSTART_ONLYnilai, yang menjalankan program pemeriksaan kesehatan hanya pada startup node (slurmd start). -
CommunicationParameters=disable_httpdiatur secara default untuk menonaktifkan titik akhir HTTP (metrik dan probe kesehatan) yang diperkenalkan di Slurm 25.11. Untuk mengaktifkan kembali titik akhir ini, atur.CommunicationParameters=enable_httpUntuk informasi selengkapnya, lihat Metrik slurm di AWS PCS.
Masalah yang diketahui
-
Slurm 25.11 memvalidasi
AllowQOSdan pengaturanDenyQOSpartisi bahkan ketikaAccountingStorageEnforce=QOStidak diatur. Jika QOS direferensikanAllowQOSatauDenyQOStidak ada dalam database akuntansi Slurm,slurmctldkeluar dengan kesalahan fatal. Pastikan bahwa semua nilai QOS yang tercantum dalam partisiAllowQOSdanDenyQOSpengaturan ada di database akuntansi sebelum memutakhirkan ke atau memulai ulang Slurm 25.11. -
slurmdLog dapat menampilkan pesan kesalahanerror: cannot create url_parser context for http_parser/libhttp_parser. Ini adalah masalah Slurm yang diketahui yang terjadi bahkan ketikaCommunicationParameters=disable_httpdiatur. Kesalahan dapat diabaikan dengan aman dan tidak memengaruhi operasi cluster.
Untuk informasi lebih lanjut tentang Slurm 25.11, lihat publikasi berikut:
-
Pengumuman rilis SchedMD: https://www.schedmd.com/slurm-version-25-11-0-is-now-available/
-
Catatan rilis SchedMD: https://github.com/SchedMD/slurm/blob/slurm-25.11/RELEASE_NOTES.md
Perubahan diterapkan di AWS PCS
-
Slurm SchedulerParameter requeue_on_resume_failure sekarang Diaktifkan secara default.
-
“stderr” telah dihapus sebagai opsi untuk LogTimeFormat, karena dinonaktifkan di Slurm 25.05.
-
AWS PCS mendukung konfigurasi Multi-cluster sackd: node login dapat mengakses beberapa cluster.
Untuk informasi lebih lanjut tentang Slurm 25.05, lihat publikasi berikut:
-
Pengumuman rilis SchedMD: https://www.schedmd.com/slurm-version-25-05-0-is-now-available/
-
Catatan rilis SchedMD: https://github.com/SchedMD/slurm/blob/slurm-25-05-0-1/RELEASE_NOTES.md
Perubahan diterapkan di AWS PCS
-
AWS PCS mendukung akuntansi Slurm. Untuk informasi selengkapnya, lihat Akuntansi slurm di PCS AWS.
Untuk informasi lebih lanjut tentang Slurm 24.11, lihat publikasi berikut:
Perubahan diterapkan di AWS PCS
-
Modul Slurm Step Manager baru sekarang diaktifkan secara default di AWS PCS. Modul ini memberikan manfaat yang signifikan dengan membongkar manajemen langkah dari pengontrol pusat ke node komputasi, secara substansional meningkatkan konkurensi sistem di lingkungan dengan penggunaan langkah berat. Untuk mendukung konfigurasi ini dan mengisolasi
PrologdanEpilogmemproses eksekusi yang lebih baik, flag prolog baru (Contain,Alloc) diaktifkan. -
Komunikasi hierarkis dari pengontrol ke node komputasi diaktifkan untuk mengoptimalkan komunikasi intra-node Slurm, yang meningkatkan skalabilitas dan kinerja. Selain itu, konfigurasi routing sekarang menggunakan daftar node partisi untuk komunikasi dari controller, bukan algoritma routing default plugin, meningkatkan ketahanan sistem.
-
Plugin hash baru
HashPlugin=hash/sha3menggantikan yang sebelumnya.hash/k12 pluginIni sekarang diaktifkan secara default di cluster AWS PCS. -
Log pengontrol slurm sekarang menyertakan kemampuan audit yang ditingkatkan untuk semua panggilan prosedur jarak jauh masuk (RPC) ke.
slurmctldLog termasuk alamat sumber, pengguna yang diautentikasi, dan jenis RPC sebelum pemrosesan koneksi.
Untuk informasi lebih lanjut tentang Slurm 24.05, lihat publikasi berikut:
Pengaturan slurm yang dapat Anda ubah di PCS AWS
-
SuspendTimeDefault ke.60Gunakan parameterscaleDownIdleTimeInSecondskonfigurasi AWS PCS untuk mengaturnya. Untuk informasi selengkapnya, lihatscaleDownIdleTimeInSecondsparameter tipeClusterSlurmConfigurationdata di Referensi AWS PCS API. -
MaxJobCountDanMaxArraySizedidasarkan pada ukuran yang Anda pilih untuk cluster. Untuk informasi selengkapnya, lihatsizeparameter aksiCreateClusterAPI di Referensi AWS PCS API. -
Pengaturan
SelectTypeParametersSlurm default ke.CR_CPUAnda dapat memberikannya sebagai nilai untukslurmCustomSettingsmengaturnya saat Anda membuat cluster. Untuk informasi selengkapnya, lihatslurmCustomSettingsparameter aksiCreateClusterAPI dan SlurmCustomSettingReferensi AWS PCS API. -
Anda dapat mengatur
PrologdanEpilogpada tingkat cluster. Anda dapat memberikannya sebagai nilai untukslurmCustomSettingsmengaturnya saat Anda membuat cluster. Untuk informasi selengkapnya, lihatCreateClusterdan SlurmCustomSettingdi Referensi AWS PCS API. -
Anda dapat mengatur
WeightdanRealMemorypada tingkat grup node komputasi. Anda dapat memberikannya sebagai nilaislurmCustomSettingsuntuk mengaturnya saat Anda membuat grup node komputasi. Untuk informasi selengkapnya, lihatCreateComputeNodeGroupdan SlurmCustomSettingdi Referensi AWS PCS API.