View a markdown version of this page

Catatan rilis untuk versi Slurm di PCS AWS - AWS PCS

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Catatan rilis untuk versi Slurm di PCS AWS

Topik ini menjelaskan perubahan penting untuk setiap versi Slurm yang saat ini didukung di AWS PCS. Kami sarankan Anda meninjau perubahan antara versi lama dan baru saat Anda meng-upgrade klaster Anda.

Perubahan diterapkan di AWS PCS
  • Log audit scheduler sekarang dikirimkan secara terpisah melalui jenis PCS_SCHEDULER_AUDIT_LOGS log, menyederhanakan pemecahan masalah dan audit dengan kontrol independen atas pengiriman log. Untuk informasi selengkapnya, lihat Log audit penjadwal di AWS PCS.

  • Requeue yang dipercepat diaktifkan secara default. Pekerjaan yang gagal karena masalah node (seperti kesalahan kapasitas yang tidak mencukupi) dapat diisi ulang dengan prioritas penjadwalan tertinggi menggunakan. sbatch --requeue=expedite Ini dikendalikan oleh SchedulerParameters=enable_expedited_requeue pengaturan.

  • requeue_delayParameter ini tersedia sebagai pengaturan cluster kustom dengan default 5 detik. Sebelumnya, penundaan requeue terkait dengan kedaluwarsa kredensi (70 detik). Administrator sekarang dapat mengkonfigurasi ini secara independen melaluiSchedulerParameters=requeue_delay=<seconds>.

  • HealthCheckNodeStatesekarang mendukung START_ONLY nilai, yang menjalankan program pemeriksaan kesehatan hanya pada startup node (slurmd start).

  • CommunicationParameters=disable_httpdiatur secara default untuk menonaktifkan titik akhir HTTP (metrik dan probe kesehatan) yang diperkenalkan di Slurm 25.11. Untuk mengaktifkan kembali titik akhir ini, atur. CommunicationParameters=enable_http Untuk informasi selengkapnya, lihat Metrik slurm di AWS PCS.

Masalah yang diketahui
  • Slurm 25.11 memvalidasi AllowQOS dan pengaturan DenyQOS partisi bahkan ketika AccountingStorageEnforce=QOS tidak diatur. Jika QOS direferensikan AllowQOS atau DenyQOS tidak ada dalam database akuntansi Slurm, slurmctld keluar dengan kesalahan fatal. Pastikan bahwa semua nilai QOS yang tercantum dalam partisi AllowQOS dan DenyQOS pengaturan ada di database akuntansi sebelum memutakhirkan ke atau memulai ulang Slurm 25.11.

  • slurmdLog dapat menampilkan pesan kesalahanerror: cannot create url_parser context for http_parser/libhttp_parser. Ini adalah masalah Slurm yang diketahui yang terjadi bahkan ketika CommunicationParameters=disable_http diatur. Kesalahan dapat diabaikan dengan aman dan tidak memengaruhi operasi cluster.

Untuk informasi lebih lanjut tentang Slurm 25.11, lihat publikasi berikut:

Perubahan diterapkan di AWS PCS
  • Slurm SchedulerParameter requeue_on_resume_failure sekarang Diaktifkan secara default.

  • “stderr” telah dihapus sebagai opsi untuk LogTimeFormat, karena dinonaktifkan di Slurm 25.05.

  • AWS PCS mendukung konfigurasi Multi-cluster sackd: node login dapat mengakses beberapa cluster.

Untuk informasi lebih lanjut tentang Slurm 25.05, lihat publikasi berikut:

Perubahan diterapkan di AWS PCS

Untuk informasi lebih lanjut tentang Slurm 24.11, lihat publikasi berikut:

Perubahan diterapkan di AWS PCS
  • Modul Slurm Step Manager baru sekarang diaktifkan secara default di AWS PCS. Modul ini memberikan manfaat yang signifikan dengan membongkar manajemen langkah dari pengontrol pusat ke node komputasi, secara substansional meningkatkan konkurensi sistem di lingkungan dengan penggunaan langkah berat. Untuk mendukung konfigurasi ini dan mengisolasi Prolog dan Epilog memproses eksekusi yang lebih baik, flag prolog baru (Contain,Alloc) diaktifkan.

  • Komunikasi hierarkis dari pengontrol ke node komputasi diaktifkan untuk mengoptimalkan komunikasi intra-node Slurm, yang meningkatkan skalabilitas dan kinerja. Selain itu, konfigurasi routing sekarang menggunakan daftar node partisi untuk komunikasi dari controller, bukan algoritma routing default plugin, meningkatkan ketahanan sistem.

  • Plugin hash baru HashPlugin=hash/sha3 menggantikan yang sebelumnya. hash/k12 plugin Ini sekarang diaktifkan secara default di cluster AWS PCS.

  • Log pengontrol slurm sekarang menyertakan kemampuan audit yang ditingkatkan untuk semua panggilan prosedur jarak jauh masuk (RPC) ke. slurmctld Log termasuk alamat sumber, pengguna yang diautentikasi, dan jenis RPC sebelum pemrosesan koneksi.

Untuk informasi lebih lanjut tentang Slurm 24.05, lihat publikasi berikut:

Pengaturan slurm yang dapat Anda ubah di PCS AWS
  • SuspendTimeDefault ke. 60 Gunakan parameter scaleDownIdleTimeInSeconds konfigurasi AWS PCS untuk mengaturnya. Untuk informasi selengkapnya, lihat scaleDownIdleTimeInSecondsparameter tipe ClusterSlurmConfiguration data di Referensi AWS PCS API.

  • MaxJobCountDan MaxArraySize didasarkan pada ukuran yang Anda pilih untuk cluster. Untuk informasi selengkapnya, lihat sizeparameter aksi CreateCluster API di Referensi AWS PCS API.

  • Pengaturan SelectTypeParameters Slurm default ke. CR_CPU Anda dapat memberikannya sebagai nilai untuk slurmCustomSettings mengaturnya saat Anda membuat cluster. Untuk informasi selengkapnya, lihat slurmCustomSettingsparameter aksi CreateCluster API dan SlurmCustomSettingReferensi AWS PCS API.

  • Anda dapat mengatur Prolog dan Epilog pada tingkat cluster. Anda dapat memberikannya sebagai nilai untuk slurmCustomSettings mengaturnya saat Anda membuat cluster. Untuk informasi selengkapnya, lihat CreateClusterdan SlurmCustomSettingdi Referensi AWS PCS API.

  • Anda dapat mengatur Weight dan RealMemory pada tingkat grup node komputasi. Anda dapat memberikannya sebagai nilai slurmCustomSettings untuk mengaturnya saat Anda membuat grup node komputasi. Untuk informasi selengkapnya, lihat CreateComputeNodeGroupdan SlurmCustomSettingdi Referensi AWS PCS API.