

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Slurm mode terlindungi cluster
<a name="slurm-protected-mode-v3"></a>

Ketika sebuah cluster berjalan dengan mode dilindungi diaktifkan, AWS ParallelCluster memantau dan melacak kegagalan bootstrap node komputasi saat node komputasi sedang diluncurkan. Hal ini dilakukan untuk mendeteksi apakah kegagalan ini terjadi terus menerus.

Jika berikut ini terdeteksi dalam antrian (partisi), cluster memasuki status dilindungi:

1. Kegagalan bootstrap node komputasi berturut-turut terjadi terus menerus tanpa peluncuran node komputasi yang berhasil.

1. Jumlah kegagalan mencapai ambang batas yang telah ditentukan.

Setelah cluster memasuki status dilindungi, AWS ParallelCluster menonaktifkan antrian dengan kegagalan pada atau di atas ambang batas yang telah ditentukan.

Slurm modus cluster dilindungi ditambahkan dalam AWS ParallelCluster versi 3.0.0.

Anda dapat menggunakan mode terlindungi untuk mengurangi waktu dan sumber daya yang dihabiskan untuk siklus kegagalan bootstrap node komputasi.

## Parameter mode terlindungi
<a name="slurm-protected-mode-parameter-v3"></a>

**`protected_failure_count`**

`protected_failure_count`menentukan jumlah kegagalan berturut-turut dalam antrian (partisi) yang mengaktifkan status dilindungi cluster.

`protected_failure_count`Defaultnya adalah 10 dan mode terlindungi diaktifkan.

Jika `protected_failure_count` lebih besar dari nol, mode terlindungi diaktifkan.

Jika `protected_failure_count` kurang dari atau sama dengan nol, mode terlindungi dinonaktifkan.

Anda dapat mengubah `protected_failure_count` nilainya dengan menambahkan parameter di file `clustermgtd` konfigurasi yang terletak `/etc/parallelcluster/slurm_plugin/parallelcluster_clustermgtd.conf` di `HeadNode` file.

Anda dapat memperbarui parameter ini kapan saja dan Anda tidak perlu menghentikan armada komputasi untuk melakukannya. Jika peluncuran berhasil dalam antrian sebelum jumlah kegagalan mencapai`protected_failure_count`, hitungan kegagalan diatur ulang ke nol.

## Periksa status klaster dalam status terlindungi
<a name="slurm-protected-mode-status-v3"></a>

Saat klaster berada dalam status terlindungi, Anda dapat memeriksa status armada komputasi dan status node.

### Hitung status armada
<a name="slurm-protected-mode-compute-fleet-v3"></a>

Status armada komputasi berada `PROTECTED` dalam cluster yang berjalan dalam status dilindungi.

```
$ pcluster describe-compute-fleet --cluster-name <cluster-name> --region <region-id>
{
   "status": "PROTECTED",
   "lastStatusUpdatedTime": "2022-04-22T00:31:24.000Z"
}
```

### Status simpul
<a name="slurm-protected-mode-nodes-v3"></a>

Untuk mempelajari antrian (partisi) mana yang memiliki kegagalan bootstrap yang telah mengaktifkan status terlindungi, masuk ke cluster dan jalankan perintah. `sinfo` Partisi dengan kegagalan bootstrap pada atau di atas `protected_failure_count` berada dalam `INACTIVE` keadaan. Partisi tanpa kegagalan bootstrap pada atau di atas `protected_failure_count` berada dalam `UP` keadaan dan berfungsi seperti yang diharapkan.

`PROTECTED`status tidak berdampak pada menjalankan pekerjaan. Jika pekerjaan berjalan pada partisi dengan kegagalan bootstrap pada atau di atas`protected_failure_count`, partisi diatur ke `INACTIVE` setelah pekerjaan yang berjalan selesai.

Pertimbangkan status simpul yang ditunjukkan pada contoh berikut.

```
$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
queue1* inact infinite 10 down% queue1-dy-c5xlarge-[1-10]
queue1* inact infinite 3490 idle~ queue1-dy-c5xlarge-[11-3500]
queue2 up infinite 10 idle~ queue2-dy-c5xlarge-[1-10]
```

Partisi `queue1` adalah `INACTIVE` karena 10 kegagalan bootstrap node komputasi berturut-turut terdeteksi.

Instance di belakang node `queue1-dy-c5xlarge-[1-10]` diluncurkan tetapi gagal bergabung dengan cluster karena status yang tidak sehat.

Cluster dalam status dilindungi.

Partisi `queue2` tidak terpengaruh oleh kegagalan bootstrap di`queue1`. Itu di `UP` negara bagian dan masih bisa menjalankan pekerjaan.

## Cara menonaktifkan status yang dilindungi
<a name="slurm-protected-mode-exit-v3"></a>

Setelah kesalahan bootstrap diselesaikan, Anda dapat menjalankan perintah berikut untuk mengeluarkan cluster dari status yang dilindungi.

```
$ pcluster update-compute-fleet --cluster-name <cluster-name> \
  --region <region-id> \
  --status START_REQUESTED
```

## Kegagalan bootstrap yang mengaktifkan status dilindungi
<a name="slurm-protected-mode-failures-v3"></a>

Kesalahan bootstrap yang mengaktifkan status dilindungi dibagi lagi menjadi tiga jenis berikut. Untuk mengidentifikasi jenis dan masalah, Anda dapat memeriksa apakah log AWS ParallelCluster yang dihasilkan. Jika log dibuat, Anda dapat memeriksanya untuk detail kesalahan. Untuk informasi selengkapnya, lihat [Mengambil dan melestarikan log](troubleshooting-v3-get-logs.md).

1. **Kesalahan bootstrap yang menyebabkan instance berhenti sendiri**.

   Sebuah instance gagal di awal proses bootstrap, seperti instance yang berhenti sendiri karena kesalahan dalam skrip [`SlurmQueues`](Scheduling-v3.md#Scheduling-v3-SlurmQueues)\$1 [`CustomActions`](Scheduling-v3.md#Scheduling-v3-SlurmQueues-CustomActions)\$1 [`OnNodeStart`](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-CustomActions-OnNodeStart)\$1 [`OnNodeConfigured`](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-CustomActions-OnNodeConfigured).

   Untuk node dinamis, cari kesalahan yang mirip dengan berikut ini:

   ```
   Node bootstrap error: Node ... is in power up state without valid backing instance
   ```

   Untuk node statis, lihat di `clustermgtd` log (`/var/log/parallelcluster/clustermgtd`) untuk kesalahan yang mirip dengan berikut ini:

   ```
   Node bootstrap error: Node ... is in power up state without valid backing instance
   ```

1. **Node `resume_timeout` atau `node_replacement_timeout` kedaluwarsa.**

   Sebuah instance tidak dapat bergabung dengan cluster di dalam `resume_timeout` (untuk node dinamis) atau `node_replacement_timeout` (untuk node statis). Itu tidak berakhir sendiri sebelum batas waktu. Misalnya, jaringan tidak diatur dengan benar untuk cluster dan node diatur ke `DOWN` status oleh Slurm setelah batas waktu berakhir.

   Untuk node dinamis, cari kesalahan yang mirip dengan berikut ini:

   ```
   Node bootstrap error: Resume timeout expires for node
   ```

   Untuk node statis, lihat di `clustermgtd` log (`/var/log/parallelcluster/clustermgtd`) untuk kesalahan yang mirip dengan berikut ini:

   ```
   Node bootstrap error: Replacement timeout expires for node ... in replacement.
   ```

1. **Node gagal memeriksa kesehatan**.

   Instance di belakang node gagal pemeriksaan EC2 kesehatan Amazon atau pemeriksaan kesehatan acara terjadwal, dan node diperlakukan sebagai node kegagalan bootstrap. Dalam hal ini, instance berakhir karena alasan di luar kendali. AWS ParallelCluster

   Lihat di `clustermgtd` log (`/var/log/parallelcluster/clustermgtd`) untuk kesalahan yang mirip dengan berikut ini:

   ```
   Node bootstrap error: Node %s failed during bootstrap when performing health check.
   ```

1. **Node komputasi gagal Slurm pendaftaran**.

   Pendaftaran `slurmd` daemon dengan Slurm control daemon (`slurmctld`) gagal dan menyebabkan status node komputasi berubah ke status. `INVALID_REG` Salah dikonfigurasi Slurm node komputasi dapat menyebabkan kesalahan ini, seperti node terkomputasi yang dikonfigurasi dengan kesalahan spesifikasi node [`CustomSlurmSettings`](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-ComputeResources-CustomSlurmSettings)komputasi.

   Lihat di file `slurmctld` log (`/var/log/slurmctld.log`) pada node kepala, atau lihat di file `slurmd` log (`/var/log/slurmd.log`) dari node komputasi gagal untuk kesalahan yang mirip dengan berikut ini:

   ```
   Setting node %s to INVAL with reason: ...
   ```

## Cara men-debug mode yang dilindungi
<a name="slurm-protected-mode-debug-v3"></a>

Jika klaster Anda dalam status terlindungi, dan jika AWS ParallelCluster menghasilkan `clustermgtd` log dari `HeadNode` dan `cloud-init-output` log dari node komputasi yang bermasalah, maka Anda dapat memeriksa log untuk detail kesalahan. Untuk informasi selengkapnya tentang cara mengambil log, lihat[Mengambil dan melestarikan log](troubleshooting-v3-get-logs.md).

**`clustermgtd`log (`/var/log/parallelcluster/clustermgtd`) pada simpul kepala**

Pesan log menunjukkan partisi mana yang mengalami kegagalan bootstrap dan jumlah kegagalan bootstrap yang sesuai.

```
[slurm_plugin.clustermgtd:_handle_protected_mode_process] - INFO - Partitions  
bootstrap failure count: {'queue1': 2}, cluster will be set into protected mode if protected failure count reach threshold.
```

Di `clustermgtd` log, cari `Found the following bootstrap failure nodes` untuk menemukan node mana yang gagal di-bootstrap.

```
[slurm_plugin.clustermgtd:_handle_protected_mode_process] - WARNING - 
Found the following bootstrap failure nodes: (x2)  ['queue1-st-c5large-1(192.168.110.155)',  'broken-st-c5large-2(192.168.65.215)']
```

Di `clustermgtd` log, cari `Node bootstrap error` untuk menemukan alasan kegagalan.

```
[slurm_plugin.clustermgtd:_is_node_bootstrap_failure] - WARNING - Node bootstrap error: 
Node broken-st-c5large-2(192.168.65.215) is currently in  replacement and no backing instance
```

**`cloud-init-output`log (`/var/log/cloud-init-output.log`) pada node komputasi**

Setelah mendapatkan alamat IP pribadi node kegagalan bootstrap di `clustermgtd` log, Anda dapat menemukan log node komputasi yang sesuai dengan masuk ke node komputasi atau dengan mengikuti panduan [Mengambil dan melestarikan log](troubleshooting-v3-get-logs.md) untuk mengambil log. Dalam kebanyakan kasus, `/var/log/cloud-init-output` log dari node bermasalah menunjukkan langkah yang menyebabkan kegagalan bootstrap node komputasi.