perintah pcluster update-cluster gagal dijalankan secara lokal Waktu pembaruan cluster habis ClusterStatus adalah UPDATE_FAILED Tumpukan cluster tampak macet di UPDATE_IN_PROGRESS atau UPDATE_ROLLBACK_IN_PROGRESS

Mencoba memperbarui cluster

Bagian berikut menyediakan kemungkinan solusi pemecahan masalah untuk masalah yang mungkin terjadi saat Anda mencoba memperbarui klaster.

perintah `pcluster update-cluster gagal dijalankan` secara lokal

Periksa ~/.parallelcluster/pcluster-cli.log di sistem file lokal Anda untuk rincian kegagalan.

Waktu pembaruan cluster habis

Ini bisa menjadi masalah yang terkait dengan cfn-hup tidak berjalan. Jika cfn-hup iblis diakhiri oleh penyebab eksternal, itu tidak dimulai ulang secara otomatis. Jika cfn-hup tidak berjalan, selama pembaruan cluster, CloudFormation tumpukan memulai proses pembaruan seperti yang diharapkan, tetapi prosedur pembaruan tidak diaktifkan pada node kepala dan penerapan tumpukan akhirnya habis waktu. Untuk informasi selengkapnya, lihat Memecahkan masalah batas waktu pembaruan cluster saat cfn-hup tidak berjalan untuk memecahkan masalah dan memulihkan masalah.

`ClusterStatus` `adalah UPDATE_FAILED`

Penyebab akar

Untuk mengidentifikasi akar penyebab kegagalan, titik awalnya adalah melihat peristiwa tumpukan cluster dan /var/log/chef-client.log di node kepala.

Kemungkinan penyebabnya adalah setidaknya satu node cluster tidak menerapkan pembaruan. Anda dapat mengambil daftar node yang gagal diperbarui /var/log/chef-client.log di node kepala dengan mencari Check cluster readiness di log.

Periksa untuk melihat apakah masalah Anda disebutkan dalam Masalah yang GitHub Diketahui di AWS ParallelCluster on GitHub.

Mencegah

Pembaruan cluster dapat gagal jika setidaknya satu node di cluster tidak berhasil menerapkan pembaruan. Untuk mengurangi risiko kegagalan pembaruan cluster, sebaiknya hentikan node yang rusak sebelum memulai pembaruan. Contoh node yang dapat rusak adalah node komputasi yang terjebak dalam COMPLETING keadaan lebih lama dari durasi epilog yang diharapkan. Untuk mendeteksi node tersebut, Anda dapat menjalankan perintah berikut, menyesuaikan threshold nilainya dengan kebutuhan Anda (nilainya harus lebih besar dari durasi maksimum yang diharapkan untuk epilog Anda).


$ scontrol show nodes --json | jq -r --argjson threshold 60 '
  .nodes[] | select(.state | index("COMPLETING")) |
  select((now - .last_busy.number) > $threshold) |
  .name
'

Memulihkan

Jika pembaruan gagal, rollback adalah mekanisme yang diharapkan untuk memulihkan status cluster.

Jika rollback gagal, status cluster tidak deterministik. Dalam hal ini, mungkin yang clustermgtd dihentikan untuk mencegah amplifikasi kegagalan. Kami merekomendasikan memulainya dengan menjalankan perintah berikut pada node kepala. Sesuaikan versi Python dengan versi yang dikirimkan dengan versi Anda: AWS ParallelCluster


$ /opt/parallelcluster/pyenv/versions/3.12.11/envs/cookbook_virtualenv/bin/supervisorctl start clustermgtd

`ClusterStatus` `adalah UPDATE_FAILED dan cloud adalah UPDATE_ROLLBACK_FAILED FormationStackStatus`

Ketika pcluster describe-cluster melaporkan clusterStatus itu UPDATE_FAILED dan cloudFormationStackStatus sedangUPDATE_ROLLBACK_FAILED, pembaruan cluster dan rollback berikutnya gagal. Dalam keadaan ini tumpukan cluster tidak dapat menerima pembaruan lebih lanjut dan memerlukan intervensi manual untuk dibuka blokir.

Untuk membuka blokir tumpukan cluster, selesaikan langkah-langkah berikut:

Perbaiki akar penyebab kegagalan.

Paksa kelanjutan rollback.


$ aws cloudformation continue-update-rollback --region REGION --stack-name CLUSTER_STACK_NAME

Tunggu tumpukan mencapai UPDATE_ROLLBACK_COMPLETE status.
Coba lagi pembaruan asli dengan pcluster update-cluster perintah.

`Tumpukan cluster tampak macet di UPDATE_IN_PROGRESS atau UPDATE_ROLLBACK_IN_PROGRESS`

Tumpukan cluster bisa macet UPDATE_IN_PROGRESS atau paling UPDATE_ROLLBACK_IN_PROGRESS lama 1 jam, jika node login Auto Scaling Group gagal stabil karena kegagalan bootstrap di node login.

Untuk memverifikasi apakah Anda berada dalam situasi ini karena node login Auto Scaling Group, Anda perlu melakukan pemeriksaan berikut: Di tumpukan utama, satu-satunya sumber daya yang ada di UPDATE_IN_PROGRESS adalah tumpukan bersarang node login. Dalam tumpukan bersarang node login, satu-satunya sumber daya yang terjebak adalah node login Auto Scaling Group. UPDATE_IN_PROGRESS

Jika Anda berada dalam skenario ini, Anda dapat membatalkan pembaruan sehingga Anda tidak perlu menunggu 1 jam hingga pembaruan selesai.


$ aws cloudformation cancel-update-stack --region REGION --stack-name CLUSTER_STACK_NAME

Membatalkan pembaruan memicu rollback. Anda tidak dapat mengurangi batas waktu 1 jam pada rollback, jadi dalam skenario terburuk Anda harus menunggu rollback mencapai keadaan akhirnya.

Jika rollback berhasil, Anda dapat segera mencoba kembali pembaruan cluster asli Anda setelah Anda memperbaiki akar penyebab kegagalan. Jika tidak, lihat ClusterStatus adalah UPDATE_FAILED dan cloud adalah UPDATE_ROLLBACK_FAILED FormationStackStatus.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Mencoba menjalankan pekerjaan

Mencoba mengakses penyimpanan