View a markdown version of this page

Rotasi log slurm - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Rotasi log slurm

SageMaker HyperPod menyediakan rotasi log otomatis untuk log daemon Slurm untuk membantu mengelola penggunaan ruang disk dan mempertahankan kinerja sistem. Rotasi log sangat penting untuk mencegah log menghabiskan ruang disk yang berlebihan dan memastikan operasi sistem yang optimal dengan secara otomatis mengarsipkan dan menghapus file log lama sambil mempertahankan informasi logging terbaru. Rotasi log slurm diaktifkan secara default saat Anda membuat cluster.

Cara kerja rotasi log

Saat diaktifkan, konfigurasi rotasi log:

  • Memantau semua file log Slurm dengan ekstensi yang .log terletak di /var/log/slurm/ folder pada controller, login dan compute node.

  • Memutar log saat ukurannya mencapai 50 MB.

  • Mempertahankan hingga dua file log yang diputar sebelum menghapusnya.

  • Mengirim SIGUSR2 sinyal ke daemon Slurm (slurmctld,slurmd, danslurmdbd) setelah rotasi.

Daftar file log yang diputar

Log slurm terletak di direktori. /var/log/slurm/ Rotasi log diaktifkan untuk semua file yang cocok/var/log/slurm/*.log. Ketika rotasi terjadi, file yang diputar memiliki sufiks numerik (seperti). slurmd.log.1 Daftar berikut ini tidak lengkap tetapi menunjukkan beberapa file log penting yang berputar secara otomatis:

  • /var/log/slurm/slurmctld.log

  • /var/log/slurm/slurmd.log

  • /var/log/slurm/slurmdb.log

  • /var/log/slurm/slurmrestd.log

Mengaktifkan atau menonaktifkan rotasi log

Anda dapat mengontrol fitur rotasi log menggunakan enable_slurm_log_rotation parameter dalam config.py skrip skrip siklus hidup klaster Anda, seperti yang ditunjukkan pada contoh berikut:

class Config: # Set false if you want to disable log rotation of Slurm daemon logs enable_slurm_log_rotation = True # Default value

Untuk menonaktifkan rotasi log, atur parameter keFalse, seperti yang ditunjukkan pada contoh berikut:

enable_slurm_log_rotation = False
catatan

Skrip siklus hidup berjalan di semua node Slurm (pengontrol, login, dan node komputasi) selama pembuatan cluster. Mereka juga berjalan pada node baru ketika ditambahkan ke cluster. Memperbarui konfigurasi rotasi log harus dilakukan secara manual setelah pembuatan cluster. Konfigurasi rotasi log disimpan di/etc/logrotate.d/sagemaker-hyperpod-slurm. Kami menyarankan agar rotasi log diaktifkan untuk mencegah file log menghabiskan ruang disk yang berlebihan. Untuk menonaktifkan rotasi log, hapus sagemaker-hyperpod-slurm file atau komentari isinya dengan menambahkan # di awal setiap baris dalam sagemaker-hyperpod-slurm file.

Pengaturan rotasi log default

Pengaturan berikut dikonfigurasi secara otomatis untuk setiap file log yang diputar:

Pengaturan Nilai Deskripsi
rotate 2 Jumlah file log yang diputar untuk disimpan
size 50 MB Ukuran maksimum sebelum rotasi
copytruncate diaktifkan Menyalin dan memotong file log asli
compress dinonaktifkan Log yang diputar tidak dikompresi
missingok diaktifkan Tidak ada kesalahan jika file log hilang
notifempty diaktifkan Tidak memutar file kosong
noolddir diaktifkan File yang diputar tetap berada di direktori yang sama