Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris. # Memecahkan masalah metrik kesehatan klaster Metrik kesehatan cluster ditambahkan ke CloudWatch dasbor AWS ParallelCluster Amazon dimulai dengan AWS ParallelCluster versi 3.6.0. Di bagian berikut, Anda dapat mempelajari metrik kesehatan dasbor, dan tindakan yang dapat Anda lakukan untuk memecahkan masalah dan menyelesaikan masalah. **Topics** + [Melihat grafik **Kesalahan Penyediaan Instance**](#troubleshooting-v3-cluster-health-metrics-instance-provisioning) + [Melihat grafik **Kesalahan Instance Tidak Sehat**](#troubleshooting-v3-cluster-health-metrics-unhealthy-instance) + [Melihat grafik **Compute Fleet Idle Time**](#troubleshooting-v3-cluster-health-metrics-idle-time-errors) ## Melihat grafik **Kesalahan Penyediaan Instance** Jika Anda melihat nilai bukan nol dalam `Instance Provisioning Errors` grafik, berarti instans Amazon EC2 untuk mendukung node slurm gagal diluncurkan di API atau. `CreateFleet` `RunInstance` ### Melihat `IAMPolicyErrors` + **Apa yang terjadi?** Sejumlah instance gagal diluncurkan, yang disebabkan oleh izin yang tidak memadai dengan kode kesalahan. `UnauthorizedOperation` + **Bagaimana cara mengatasinya?** Jika Anda memiliki kustom yang dikonfigurasi [`InstanceRole`](HeadNode-v3.md#yaml-HeadNode-Iam-InstanceRole)atau [`InstanceProfile`](HeadNode-v3.md#yaml-HeadNode-Iam-InstanceProfile), periksa kebijakan IAM Anda dan verifikasi bahwa Anda menggunakan kredenal yang benar. Periksa `clustermgtd` file untuk rincian kesalahan node statis. Periksa `slurm_resume.log` file untuk rincian kesalahan node dinamis. Gunakan detail untuk mempelajari lebih lanjut tentang izin yang hilang yang harus ditambahkan. ### Melihat `VcpuLimitErrors` + **Apa yang terjadi?** AWS ParallelCluster gagal meluncurkan instance karena mencapai batas vCPU untuk jenis instans Amazon EC2 tertentu yang dikonfigurasi untuk node komputasi cluster. Akun AWS + **Bagaimana cara mengatasinya?** Periksa `VcpuLimitExceeded` kesalahan dalam `clustermgtd` file untuk node statis, dan periksa `slurm_resume.log` file untuk node dinamis untuk mendapatkan detail tambahan. Untuk mengatasi masalah ini, Anda dapat meminta peningkatan batas vCPU Anda. Untuk informasi selengkapnya tentang cara melihat batas saat ini dan meminta batas baru, lihat [kuota layanan Amazon Elastic Compute Cloud](https://docs.aws.amazon.com//AWSEC2/latest/UserGuide/ec2-resource-limits.html) di *Panduan Pengguna Amazon Elastic Compute Cloud untuk* Instans Linux. ### Melihat `VolumeLimitErrors` + **Apa yang terjadi?** Anda telah mencapai batas volume Amazon EBS pada Anda Akun AWS, dan AWS ParallelCluster tidak dapat meluncurkan instance dengan kode `InsufficientVolumeCapacity` kesalahan atau. `VolumeLimitExceeded` + **Bagaimana cara mengatasinya?** Periksa `clustermgtd` file untuk node statis, dan periksa `slurm_resume.log` file untuk node dinamis untuk mendapatkan detail batas volume tambahan. Untuk mengatasi masalah ini, Anda dapat menggunakan yang berbeda Wilayah AWS, membersihkan volume yang ada, atau menghubungi Pusat AWS Dukungan untuk mengirimkan permintaan guna meningkatkan batas volume Amazon EBS Anda. ### Melihat `InsufficientCapacityErrors` + **Apa yang terjadi?** AWS ParallelCluster tidak memiliki kapasitas yang cukup untuk meluncurkan instans Amazon EC2 ke node belakang. + **Bagaimana cara mengatasinya?** Periksa `clustermgtd` file untuk node statis, dan periksa `slurm_resume.log` file untuk node dinamis untuk mendapatkan detail kesalahan kapasitas yang tidak mencukupi. Untuk memecahkan masalah ini, ikuti panduan di [https://aws.amazon.com/premiumsupport/knowledge-center/ec2](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/) -/. insufficient-capacity-errors ### `OtherInstanceLaunchFailures` + **Apa yang terjadi?** Instans Amazon EC2 untuk mendukung node komputasi gagal diluncurkan dengan API atau. `CreateFleet` `RunInstance` + **Bagaimana cara mengatasinya?** Periksa `clustermgtd` file untuk node statis, dan periksa `slurm_resume.log` file untuk node dinamis untuk mendapatkan detail kesalahan. ## Melihat grafik **Kesalahan Instance Tidak Sehat** + **Apa yang terjadi?** Sejumlah instance komputasi diluncurkan tetapi kemudian dihentikan karena tidak sehat. + **Bagaimana cara mengatasinya?** Untuk informasi selengkapnya tentang pemecahan masalah node yang tidak sehat, lihat. [**Memecahkan masalah penggantian dan penghentian node yang tidak terduga**](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-unexpected-node-replacements-and-terminations) ### Melihat `InstanceBootstrapTimeoutError` + **Apa yang terjadi?** Sebuah instance tidak dapat bergabung dengan cluster di dalam `resume_timeout` (untuk node dinamis) atau `node_replacement_timeout` (untuk node statis). Hal ini dapat terjadi jika jaringan tidak dikonfigurasi dengan benar untuk node komputasi, atau dapat terjadi jika skrip kustom yang berjalan pada node komputasi membutuhkan waktu terlalu lama untuk diselesaikan. + **Bagaimana cara mengatasinya?** Untuk node dinamis, periksa `clustermgtd` log (`/var/log/parallelcluster/clustermgtd`) untuk alamat IP node komputasi dan kesalahan seperti berikut ini: ``` Node bootstrap error: Resume timeout expires for node ``` Untuk node statis, periksa `clustermgtd` log (`/var/log/parallelcluster/clustermgtd`) untuk alamat IP node komputasi dan kesalahan seperti berikut ini: ``` Node bootstrap error: Replacement timeout expires for node ... in replacement. ``` Untuk detail tambahan, periksa `/var/log/cloud-init-output.log` file untuk kesalahan. Anda dapat mengambil alamat IP node komputasi bermasalah dari file `clustermgtd` dan `slurm_resume` log. ### Melihat `EC2HealthCheckErrors` + **Apa yang terjadi?** Sebuah instans gagal dalam pemeriksaan kesehatan Amazon EC2. + **Bagaimana cara mengatasinya?** Untuk selengkapnya tentang cara memecahkan masalah ini, lihat [Memecahkan masalah instance](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/TroubleshootingInstances.html) dengan pemeriksaan status gagal. ### Melihat `ScheduledEventHealthCheckErrors` + **Apa yang terjadi?** Sebuah instans gagal dalam pemeriksaan kesehatan acara terjadwal Amazon EC2, dan itu tidak sehat. + **Bagaimana cara mengatasinya?** Untuk informasi tentang cara memecahkan masalah ini, lihat [Acara terjadwal untuk instance Anda](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/monitoring-instances-status-check_sched.html). ### Melihat `NoCorrespondingInstanceErrors` + **Apa yang terjadi?** AWS ParallelCluster tidak dapat menemukan instance yang mendukung node. Node kemungkinan telah dihentikan sendiri selama operasi bootstrap. [`SlurmQueues`](Scheduling-v3.md#Scheduling-v3-SlurmQueues)/[`CustomActions`](Scheduling-v3.md#Scheduling-v3-SlurmQueues-CustomActions)/[`OnNodeStart`](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-CustomActions-OnNodeStart)\$1 [`OnNodeConfigured`](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-CustomActions-OnNodeConfigured)skrip, atau kesalahan jaringan dapat menghasilkan`NoCorrespondingInstanceErrors`. + **Bagaimana cara mengatasinya?** Untuk detail tambahan, periksa `/var/log/cloud-init-output.log` node komputasi. ## Melihat grafik **Compute Fleet Idle Time** ### Melihat `MaxDynamicNodeIdleTime` yang secara signifikan lebih lama dari ambang **Idle Time Scaledown** + **Apa yang terjadi?** Instance Anda tidak berakhir dengan benar. `MaxDynamicNodeIdleTime`menunjukkan waktu maksimum dalam hitungan detik bahwa node dinamis, yang didukung oleh instans Amazon EC2, tidak berfungsi. Ambang batas **Idle Time Scaledown** berasal dari parameter konfigurasi cluster. [`ScaledownIdletime`](Scheduling-v3.md#yaml-Scheduling-SlurmSettings-ScaledownIdletime) Ketika node komputasi telah idle selama lebih dari detik **Idle Time Scaledown**, Slurm matikan node dan AWS ParallelCluster akhiri instance dukungan. Dalam hal ini, ada sesuatu yang mencegah penghentian instance. + **Bagaimana cara mengatasinya?** Untuk informasi lebih lanjut tentang masalah ini, lihat [**Mengganti, mengakhiri, atau mematikan instance dan node yang bermasalah**](troubleshooting-v3-scaling-issues.md#replacing-terminating-or-powering-down-problematic-instances-and-nodes-v3) di[Memecahkan masalah penskalaan](troubleshooting-v3-scaling-issues.md).