

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Mencoba memperbarui cluster
<a name="troubleshooting-fc-v3-update-cluster"></a>

Bagian berikut menyediakan kemungkinan solusi pemecahan masalah untuk masalah yang mungkin terjadi saat Anda mencoba memperbarui klaster.

## `pcluster update-cluster`perintah gagal dijalankan secara lokal
<a name="update-cluster-failure-cli-v3"></a>

Periksa `~/.parallelcluster/pcluster-cli.log` di sistem file lokal Anda untuk rincian kegagalan.

## Melihat `clusterStatus` adalah `UPDATE_FAILED` dengan `pcluster describe-cluster` perintah
<a name="update-cluster-failure-v3"></a>

### Penyebab akar
<a name="update-cluster-failure-v3-root-causing"></a>

Untuk mengidentifikasi akar penyebab kegagalan, titik awalnya adalah melihat peristiwa tumpukan cluster dan `/var/log/chef-client.log` di node kepala.

Kemungkinan penyebabnya adalah setidaknya satu node cluster tidak menerapkan pembaruan. Anda dapat mengambil daftar node yang gagal diperbarui `/var/log/chef-client.log` di node kepala dengan mencari `Check cluster readiness` di log.

Periksa untuk melihat apakah masalah Anda disebutkan dalam [Masalah yang GitHub Diketahui](https://github.com/aws/aws-parallelcluster/wiki) di AWS ParallelCluster on GitHub.

### Mencegah
<a name="update-cluster-failure-v3-preventing"></a>

Pembaruan cluster dapat gagal jika setidaknya satu node di cluster tidak berhasil menerapkan pembaruan. Untuk mengurangi risiko kegagalan pembaruan cluster, sebaiknya hentikan node yang rusak sebelum memulai pembaruan. Contoh node yang dapat rusak adalah node komputasi yang terjebak dalam `COMPLETING` keadaan lebih lama dari durasi epilog yang diharapkan. Untuk mendeteksi node tersebut, Anda dapat menjalankan perintah berikut, menyesuaikan `threshold` nilainya dengan kebutuhan Anda (nilainya harus lebih besar dari durasi maksimum yang diharapkan untuk epilog Anda). 

```
$ scontrol show nodes --json | jq -r --argjson threshold 60 '
  .nodes[] | select(.state | index("COMPLETING")) |
  select((now - .last_busy.number) > $threshold) |
  .name
'
```

### Memulihkan
<a name="update-cluster-failure-v3-recovering"></a>

Jika pembaruan gagal, rollback adalah mekanisme yang diharapkan untuk memulihkan status cluster.

 Jika rollback gagal, status cluster tidak deterministik. Dalam hal ini, mungkin yang `clustermgtd` dihentikan untuk mencegah amplifikasi kegagalan. Kami merekomendasikan memulainya dengan menjalankan perintah berikut pada node kepala. Sesuaikan versi Python dengan versi yang dikirimkan dengan versi Anda: AWS ParallelCluster 

```
$ /opt/parallelcluster/pyenv/versions/3.12.11/envs/cookbook_virtualenv/bin/supervisorctl start clustermgtd
```

## Waktu pembaruan cluster habis
<a name="update-cluster-failure-timeout-v3"></a>

Ini bisa menjadi masalah yang terkait dengan `cfn-hup` tidak berjalan. Jika `cfn-hup` iblis diakhiri oleh penyebab eksternal, itu tidak dimulai ulang secara otomatis. Jika `cfn-hup` tidak berjalan, selama pembaruan cluster, CloudFormation tumpukan memulai proses pembaruan seperti yang diharapkan, tetapi prosedur pembaruan tidak diaktifkan pada node kepala dan penerapan tumpukan akhirnya habis waktu. Untuk informasi selengkapnya, lihat [Memecahkan masalah batas waktu pembaruan klaster saat `cfn-hup` tidak berjalan](troubleshooting-v3-cluster-update-timeout.md) untuk memecahkan masalah dan memulihkan masalah.