Mendeteksi masalah kesehatan node dan mengaktifkan perbaikan node otomatis - Amazon EKS

Bantu tingkatkan halaman ini

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Untuk berkontribusi pada panduan pengguna ini, pilih Edit halaman ini pada GitHub tautan yang terletak di panel kanan setiap halaman.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mendeteksi masalah kesehatan node dan mengaktifkan perbaikan node otomatis

Kesehatan node mengacu pada status operasional dan kemampuan node Kubernetes untuk menjalankan beban kerja secara efektif. Node yang sehat mempertahankan konektivitas jaringan yang diharapkan, memiliki sumber daya komputasi dan penyimpanan yang memadai, dan dapat berhasil menjalankan beban kerja tanpa gangguan.

Untuk membantu menjaga node yang sehat di kluster EKS, EKS menawarkan agen pemantauan node dan perbaikan node otomatis. Fitur-fitur ini secara otomatis diaktifkan dengan komputasi Mode Otomatis EKS. Anda juga dapat menggunakan perbaikan node otomatis dengan grup node terkelola EKS dan Karpenter, dan dapat menggunakan agen pemantauan simpul EKS dengan jenis komputasi EKS apa pun kecuali untuk Fargate. AWS Agen pemantauan simpul EKS dan perbaikan simpul otomatis paling efektif bila digunakan bersama, tetapi mereka juga dapat digunakan secara individual dalam kluster EKS.

penting

Agen pemantauan node dan perbaikan otomatis node hanya tersedia di Linux. Fitur-fitur ini tidak tersedia di Windows.

Agen pemantauan simpul

Agen pemantauan simpul EKS membaca log simpul untuk mendeteksi masalah kesehatan. Ini mem-parsing log untuk mendeteksi kegagalan dan memunculkan informasi status tentang status kesehatan node. Untuk setiap kategori masalah yang terdeteksi, agen menerapkan yang didedikasikan NodeCondition untuk node pekerja. Untuk informasi rinci tentang masalah kesehatan simpul yang terdeteksi oleh agen pemantau simpul EKS, lihatMendeteksi masalah kesehatan simpul dengan agen pemantauan simpul EKS.

Komputasi Mode Otomatis EKS mencakup agen pemantauan simpul. Untuk jenis komputasi EKS lainnya, Anda dapat menambahkan agen pemantauan node sebagai add-on EKS atau Anda dapat mengelolanya dengan perkakas Kubernetes seperti Helm. Untuk informasi selengkapnya, lihat Konfigurasikan agen pemantauan simpul.

Dengan agen pemantauan simpul EKS, kategori masalah kesehatan simpul berikut muncul sebagai kondisi simpul. Perhatikan,Ready,DiskPressure, dan MemoryPressure merupakan kondisi node Kubernetes standar yang muncul bahkan tanpa agen pemantauan node EKS.

Kondisi Node Deskripsi

AcceleratedHardwareReady

AcceleratedHardwareReady menunjukkan apakah perangkat keras yang dipercepat (GPU, Neuron) pada node berfungsi dengan benar.

ContainerRuntimeReady

ContainerRuntimeReady menunjukkan apakah runtime kontainer (containerd, dll.) berfungsi dengan benar dan dapat menjalankan kontainer.

DiskPressure

DiskPressure adalah kondisi Kubernetes standar yang menunjukkan node mengalami tekanan disk (ruang disk rendah atau I/O tinggi).

KernelReady

KernelReady menunjukkan apakah kernel berfungsi dengan benar tanpa kesalahan kritis, kepanikan, atau kelelahan sumber daya.

MemoryPressure

MemoryPressure adalah kondisi Kubernetes standar yang menunjukkan node mengalami tekanan memori (memori yang tersedia rendah).

NetworkingReady

NetworkingReady menunjukkan apakah tumpukan jaringan node berfungsi dengan benar (antarmuka, perutean, konektivitas).

StorageReady

StorageReady menunjukkan apakah subsistem penyimpanan node berfungsi dengan benar (disk, sistem file, I/O).

Siap

Ready adalah kondisi Kubernetes standar yang menunjukkan node sehat dan siap menerima pod.

Perbaikan simpul otomatis

Perbaikan node otomatis EKS terus memantau kesehatan node, bereaksi terhadap masalah yang terdeteksi, dan mengganti atau me-reboot node bila memungkinkan. Ini meningkatkan keandalan klaster dengan intervensi manual minimal dan membantu mengurangi waktu henti aplikasi.

Dengan sendirinya, perbaikan node otomatis EKS bereaksi terhadap Ready kondisi kubelet, objek node yang dihapus secara manual, dan instance grup node yang dikelola EKS yang gagal bergabung dengan cluster. Ketika perbaikan node otomatis EKS diaktifkan dengan agen pemantauan node diinstal, perbaikan node otomatis EKS bereaksi terhadap kondisi node tambahan:AcceleratedHardwareReady,,ContainerRuntimeReady, KernelReadyNetworkingReady, danStorageReady.

Perbaikan node otomatis EKS tidak bereaksi terhadap Kubernetes standarDiskPressure,MemoryPressure, atau PIDPressure kondisi node. Kondisi ini sering menunjukkan masalah dengan perilaku aplikasi, konfigurasi beban kerja, atau batasan sumber daya daripada kegagalan tingkat simpul, sehingga sulit untuk menentukan tindakan perbaikan default yang sesuai. Dalam skenario ini, beban kerja tunduk pada perilaku penggusuran tekanan node Kubernetes.

Untuk informasi lebih lanjut tentang perbaikan simpul otomatis EKS, lihatSecara otomatis memperbaiki node di kluster EKS.

Topik