

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Melihat kesalahan dalam inisialisasi node komputasi
<a name="troubleshooting-fc-v3-compute-node-initialization-v3"></a>

Bagian berikut memberikan tips pemecahan masalah ketika Anda melihat kesalahan dalam inisialisasi node komputasi. Ini termasuk kesalahan bootstrap, melihat kesalahan dalam log, dan ke mana harus pergi jika tidak ada skenario yang berlaku untuk situasi spesifik Anda.

**Topics**
+ [Melihat `Node bootstrap error` di `clustermgtd.log`](compute-node-initialization-bootstrap-error-v3.md)
+ [Saya mengonfigurasi reservasi kapasitas permintaan (ODCRs) atau Instans Cadangan zona](compute-node-initialization-odcr-v3.md)
+ [Melihat `An error occurred (VcpuLimitExceeded)` `slurm_resume.log` ketika saya gagal menjalankan pekerjaan, atau masuk`clustermgtd.log`, ketika saya gagal membuat cluster](compute-node-initialization-vpc-limit-v3.md)
+ [Melihat `An error occurred (InsufficientInstanceCapacity)` `slurm_resume.log` ketika saya gagal menjalankan pekerjaan, atau masuk`clustermgtd.log`, ketika saya gagal membuat cluster](compute-node-initialization-ice-failure-v3.md)
+ [Melihat node dalam `DOWN` keadaan dengan `Reason (Code:InsufficientInstanceCapacity)...`](compute-node-initialization-down-nodes-v3.md)
+ [Melihat `cannot change locale (en_US.utf-8) because it has an invalid name` di `slurm_resume.log`](compute-node-initialization-locale-v3.md)
+ [Tak satu pun dari skenario sebelumnya berlaku untuk situasi saya](compute-node-initialization-not-found-v3.md)

# Melihat `Node bootstrap error` di `clustermgtd.log`
<a name="compute-node-initialization-bootstrap-error-v3"></a>

Masalahnya terkait dengan node komputasi yang gagal bootstrap. Untuk informasi tentang cara men-debug masalah mode yang dilindungi klaster, lihat[Cara men-debug mode yang dilindungi](slurm-protected-mode-v3.md#slurm-protected-mode-debug-v3).

# Saya mengonfigurasi reservasi kapasitas permintaan (ODCRs) atau Instans Cadangan zona
<a name="compute-node-initialization-odcr-v3"></a>

## ODCRs yang mencakup instance yang memiliki beberapa antarmuka jaringan, seperti P4d, P4de, dan Trainium (Trn) AWS
<a name="compute-node-initialization-odcr-multi-ni-v3"></a>

Dalam file konfigurasi cluster, periksa apakah `HeadNode` ada di subnet publik dan node komputasi berada dalam subnet pribadi.

## ODCRs ditargetkan ODCRS
<a name="compute-node-initialization-odcr-targeted-v3"></a>

### Melihat `Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.` meskipun saya sudah memiliki `/opt/slurm/etc/pcluster/run_instances_overrides.json` tempat dengan mengikuti instruksi yang diberikan di [Luncurkan instans dengan Pemesanan Kapasitas Sesuai Permintaan (ODCR)](launch-instances-odcr-v3.md)
<a name="compute-node-initialization-odcr-targeted-noread-v3"></a>

Jika Anda menggunakan AWS ParallelCluster versi 3.1.1 hingga 3.2.1 dengan target ODCRs, dan Anda juga menggunakan [instance run override file JSON, mungkin saja Anda tidak memiliki file](launch-instances-odcr-v3.md) JSON yang diformat dengan benar. Anda bisa melihat kesalahan di`clustermgtd.log`, seperti berikut ini:

```
Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. 
Using default: {} in  /var/log/parallelcluster/clustermgtd.
```

Validasi bahwa format file JSON sudah benar dengan menjalankan yang berikut ini:

```
$ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq
```

### Melihat `Found RunInstances parameters override.` `clustermgtd.log` kapan pembuatan klaster gagal, atau `slurm_resume.log` saat menjalankan pekerjaan gagal
<a name="compute-node-initialization-odcr-targeted-override-v3"></a>

Jika Anda menggunakan [instance run override file JSON](launch-instances-odcr-v3.md), periksa apakah Anda benar mengatur nama antrian dan nama sumber daya komputasi dalam file. `/opt/slurm/etc/pcluster/run_instances_overrides.json`

### Melihat `An error occurred (InsufficientInstanceCapacity)` `slurm_resume.log` ketika saya gagal menjalankan pekerjaan, atau `clustermgtd.log` ketika saya gagal membuat cluster
<a name="compute-node-initialization-odcr-ii-capacity-v3"></a>

#### Menggunakan PG-ODCR (Placement Group ODCR)
<a name="compute-node-initialization-odcr-ii-pg-capacity-v3"></a>

Saat membuat ODCR dengan grup penempatan terkait, nama grup penempatan yang sama harus digunakan dalam file konfigurasi. Tetapkan [nama grup penempatan](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-Networking-PlacementGroup) yang sesuai dalam konfigurasi cluster.

#### Menggunakan Instans Cadangan Zonal
<a name="compute-node-initialization-odcr-ii-zonal-capacity-v3"></a>

Jika Anda menggunakan Instans Cadangan zona dengan`PlacementGroup`/`Enabled`to `true` dalam konfigurasi cluster, Anda mungkin melihat kesalahan, seperti berikut ini:

```
We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. 
You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.
```

Anda mungkin melihat ini karena Instans Cadangan zona tidak ditempatkan di UC (atau tulang belakang) yang sama, yang dapat menyebabkan kesalahan kapasitas (ICEs) tidak mencukupi saat menggunakan grup penempatan. Anda dapat memeriksa kasus ini dengan menonaktifkan pengaturan `PlacementGroup` Grup dalam konfigurasi cluster untuk menentukan apakah cluster dapat mengalokasikan instance.

# Melihat `An error occurred (VcpuLimitExceeded)` `slurm_resume.log` ketika saya gagal menjalankan pekerjaan, atau masuk`clustermgtd.log`, ketika saya gagal membuat cluster
<a name="compute-node-initialization-vpc-limit-v3"></a>

Periksa batas vCPU di akun Anda untuk jenis instans Amazon EC2 tertentu yang Anda gunakan. Jika Anda melihat nol atau CPUs kurang v dari yang Anda minta, mintalah peningkatan batas Anda. Untuk informasi tentang cara melihat batas saat ini dan meminta batas baru, lihat [kuota layanan Amazon EC2 di Panduan Pengguna](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-resource-limits.html) *Amazon* EC2.

# Melihat `An error occurred (InsufficientInstanceCapacity)` `slurm_resume.log` ketika saya gagal menjalankan pekerjaan, atau masuk`clustermgtd.log`, ketika saya gagal membuat cluster
<a name="compute-node-initialization-ice-failure-v3"></a>

Anda mengalami masalah kapasitas yang tidak mencukupi. Ikuti [https://aws.amazon.com/premiumsupport/knowledge-center/ec2-/](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/)untuk memecahkan masalah. insufficient-capacity-errors

# Melihat node dalam `DOWN` keadaan dengan `Reason (Code:InsufficientInstanceCapacity)...`
<a name="compute-node-initialization-down-nodes-v3"></a>

Anda mengalami masalah kapasitas yang tidak mencukupi. Ikuti [https://aws.amazon.com/premiumsupport/knowledge-center/ec2-/](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/)untuk memecahkan masalah. insufficient-capacity-errors Untuk informasi selengkapnya AWS ParallelCluster tentang mode fail-over kapasitas cepat tidak mencukupi, lihat. [Slurmcluster cepat tidak mencukupi kapasitas fail-over](slurm-short-capacity-fail-mode-v3.md)

# Melihat `cannot change locale (en_US.utf-8) because it has an invalid name` di `slurm_resume.log`
<a name="compute-node-initialization-locale-v3"></a>

Hal ini dapat terjadi jika Anda memiliki proses `yum` instalasi yang gagal yang meninggalkan pengaturan lokal dalam keadaan tidak konsisten. Misalnya, ini dapat disebabkan ketika pengguna menghentikan proses penginstalan.

**Untuk memverifikasi penyebabnya, lakukan tindakan berikut:**
+ Jalankan `su - pcluster-admin`.

  Shell menunjukkan kesalahan, seperti,`cannot change locale...no such file or directory`.
+ Jalankan `localedef --list`.

  Mengembalikan daftar kosong atau tidak berisi lokal default.
+ Periksa `yum` perintah terakhir dengan `yum history` dan`yum history info #ID`. Apakah ID terakhir memiliki`Return-Code: Success`?

  Jika ID terakhir tidak memiliki`Return-Code: Success`, skrip pasca-instal mungkin tidak berhasil berjalan.

Untuk memperbaiki masalah, coba bangun kembali lokal dengan. `yum reinstall glibc-all-langpacks` Setelah pembangunan kembali, `su - pcluster-admin` tidak akan menampilkan kesalahan atau peringatan jika masalah telah diperbaiki.

# Tak satu pun dari skenario sebelumnya berlaku untuk situasi saya
<a name="compute-node-initialization-not-found-v3"></a>

Untuk memecahkan masalah inisialisasi node komputasi, lihat. [Memecahkan masalah inisialisasi node](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-node-init)

Periksa untuk melihat apakah skenario Anda tercakup dalam [Masalah GitHub yang Diketahui](https://github.com/aws/aws-parallelcluster/wiki) di AWS ParallelCluster on GitHub.