Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mencoba memperbarui cluster
Bagian berikut menyediakan kemungkinan solusi pemecahan masalah untuk masalah yang mungkin terjadi saat Anda mencoba memperbarui klaster.
pcluster update-clusterperintah gagal dijalankan secara lokal
Periksa ~/.parallelcluster/pcluster-cli.log di sistem file lokal Anda untuk rincian kegagalan.
Melihat clusterStatus adalah UPDATE_FAILED dengan pcluster describe-cluster perintah
Penyebab akar
Untuk mengidentifikasi akar penyebab kegagalan, titik awalnya adalah melihat peristiwa tumpukan cluster dan /var/log/chef-client.log di node kepala.
Kemungkinan penyebabnya adalah setidaknya satu node cluster tidak menerapkan pembaruan. Anda dapat mengambil daftar node yang gagal diperbarui /var/log/chef-client.log di node kepala dengan mencari Check cluster readiness di log.
Periksa untuk melihat apakah masalah Anda disebutkan dalam Masalah yang GitHub Diketahui
Mencegah
Pembaruan cluster dapat gagal jika setidaknya satu node di cluster tidak berhasil menerapkan pembaruan. Untuk mengurangi risiko kegagalan pembaruan cluster, sebaiknya hentikan node yang rusak sebelum memulai pembaruan. Contoh node yang dapat rusak adalah node komputasi yang terjebak dalam COMPLETING keadaan lebih lama dari durasi epilog yang diharapkan. Untuk mendeteksi node tersebut, Anda dapat menjalankan perintah berikut, menyesuaikan threshold nilainya dengan kebutuhan Anda (nilainya harus lebih besar dari durasi maksimum yang diharapkan untuk epilog Anda).
$scontrol show nodes --json | jq -r --argjson threshold 60 ' .nodes[] | select(.state | index("COMPLETING")) | select((now - .last_busy.number) > $threshold) | .name '
Memulihkan
Jika pembaruan gagal, rollback adalah mekanisme yang diharapkan untuk memulihkan status cluster.
Jika rollback gagal, status cluster tidak deterministik. Dalam hal ini, mungkin yang clustermgtd dihentikan untuk mencegah amplifikasi kegagalan. Kami merekomendasikan memulainya dengan menjalankan perintah berikut pada node kepala. Sesuaikan versi Python dengan versi yang dikirimkan dengan versi Anda: AWS ParallelCluster
$/opt/parallelcluster/pyenv/versions/3.12.11/envs/cookbook_virtualenv/bin/supervisorctl start clustermgtd
Waktu pembaruan cluster habis
Ini bisa menjadi masalah yang terkait dengan cfn-hup tidak berjalan. Jika cfn-hup iblis diakhiri oleh penyebab eksternal, itu tidak dimulai ulang secara otomatis. Jika cfn-hup tidak berjalan, selama pembaruan cluster, CloudFormation tumpukan memulai proses pembaruan seperti yang diharapkan, tetapi prosedur pembaruan tidak diaktifkan pada node kepala dan penerapan tumpukan akhirnya habis waktu. Untuk informasi selengkapnya, lihat Memecahkan masalah batas waktu pembaruan klaster saat cfn-hup tidak berjalan untuk memecahkan masalah dan memulihkan masalah.