Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Amazon EKS dan Kubernetes Container Insights dengan metrik observabilitas yang disempurnakan
<a name="Container-Insights-metrics-enhanced-EKS"></a>

Tabel berikut mencantumkan metrik dan dimensi yang dikumpulkan Container Insights dengan observabilitas yang disempurnakan untuk Amazon EKS dan Kubernetes. Metrik-metrik ini berada di namespace `ContainerInsights`. Untuk informasi selengkapnya, lihat [Metrik-metrik](cloudwatch_concepts.md#Metric).

Jika Anda tidak melihat Container Insights dengan metrik observabilitas yang disempurnakan di konsol, pastikan Anda telah menyelesaikan penyiapan Container Insights dengan peningkatan observabilitas. Metrik tidak muncul sebelum Wawasan Kontainer dengan observabilitas yang ditingkatkan telah disiapkan sepenuhnya. Untuk informasi selengkapnya, lihat [Menyiapkan Wawasan Kontainer](deploy-container-insights.md).

Jika Anda menggunakan versi 1.5.0 atau yang lebih baru dari add-on Amazon EKS atau versi 1.300035.0 CloudWatch agen, sebagian besar metrik yang tercantum dalam tabel berikut dikumpulkan untuk node Linux dan Windows. Lihat kolom **Nama Metrik** tabel untuk melihat metrik mana yang tidak dikumpulkan untuk Windows.

Dengan versi Container Insights sebelumnya yang memberikan metrik agregat di tingkat Cluster dan Service, metrik dikenakan biaya sebagai metrik kustom. Dengan Wawasan Kontainer yang memiliki kemampuan observabilitas yang ditingkatkan untuk Amazon EKS, metrik-metrik Wawasan Kontainer akan dikenakan biaya per observasi, bukan dibebankan per metrik yang disimpan atau log yang diserap. Untuk informasi selengkapnya tentang CloudWatch harga, lihat [ CloudWatchHarga Amazon](https://aws.amazon.com/cloudwatch/pricing/). 

**catatan**  
Di Windows, metrik jaringan seperti `pod_network_rx_bytes` dan tidak `pod_network_tx_bytes` dikumpulkan untuk wadah proses host.  
Pada klaster RedHat OpenShift on AWS (ROSA), metrik diskio seperti `node_diskio_io_serviced_total` dan tidak dikumpulkan. `node_diskio_io_service_bytes_total`


| Nama metrik | Dimensi | Deskripsi | 
| --- | --- | --- | 
|  `cluster_failed_node_count`  |  `ClusterName`  |  Jumlah simpul pekerja yang mengalami kegagalan dalam klaster. Sebuah simpul dianggap mengalami kegagalan jika mengalami *kondisi simpul* apa pun. Untuk informasi selengkapnya tentang hal itu, silakan lihat [Kondisi](https://kubernetes.io/docs/concepts/architecture/nodes/#condition) dalam dokumentasi Kubernetes.  | 
|  `cluster_node_count`  |  `ClusterName`  |  Jumlah total simpul pekerja yang ada di klaster.  | 
|  `namespace_number_of_running_pods`  |  `Namespace` `ClusterName` `ClusterName`  |  Jumlah pod yang berjalan untuk masing-masing namespace dalam sumber daya yang ditentukan oleh dimensi-dimensi yang sedang Anda gunakan.  | 
|  `node_cpu_limit`  |  `ClusterName`  `ClusterName`, `InstanceId`, `NodeName`   |  Jumlah maksimum unit CPU yang dapat ditetapkan untuk satu simpul tunggal dalam klaster ini.  | 
|  `node_cpu_reserved_capacity`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  Persentase unit CPU yang dicadangkan untuk komponen-komponen simpul, seperti kubelet, kube-proxy, dan Docker. Rumus: `node_cpu_request / node_cpu_limit`  `node_cpu_request` tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat [Bidang-bidang relevan dalam peristiwa log performa untuk Amazon EKS dan Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `node_cpu_usage_total`  |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`  |  Jumlah unit CPU yang sedang digunakan pada simpul di klaster.  | 
|  `node_cpu_utilization`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  Persentase total unit CPU yang sedang digunakan pada simpul di klaster. Rumus: `node_cpu_usage_total / node_cpu_limit`  | 
|  `node_filesystem_utilization`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  Persentase total kapasitas sistem file yang sedang digunakan pada satu simpul tunggal dalam klaster. Rumus: `node_filesystem_usage / node_filesystem_capacity`  `node_filesystem_usage` dan `node_filesystem_capacity` tidak akan dilaporkan secara langsung sebagai metrik, tetapi sebagai bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat [Bidang-bidang relevan dalam peristiwa log performa untuk Amazon EKS dan Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `node_memory_limit`  |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Jumlah memori maksimum, dalam byte, yang dapat ditetapkan ke satu simpul tunggal dalam klaster ini.  | 
|  `node_filesystem_inodes`  Ini tidak tersedia di Windows.  |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Jumlah total inode (yang digunakan dan tidak digunakan) pada sebuah simpul.  | 
|  `node_filesystem_inodes_free` Ini tidak tersedia di Windows.  |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Jumlah inode yang tidak digunakan pada sebuah simpul.  | 
|  `node_gpu_limit` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`  |  Jumlah total GPU yang tersedia di node.  | 
|  `node_gpu_usage_total` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`  |  Jumlah GPU yang digunakan oleh pod yang sedang berjalan pada node.  | 
|  `node_gpu_reserved_capacity` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`  | 
|  `node_memory_reserved_capacity`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  Persentase memori yang saat ini sedang digunakan pada simpul di klaster. Rumus: `node_memory_request / node_memory_limit`  `node_memory_request` tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat [Bidang-bidang relevan dalam peristiwa log performa untuk Amazon EKS dan Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `node_memory_utilization`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  Persentase memori yang saat ini sedang digunakan oleh simpul atau simpul-simpul tersebut. Ini adalah persentase penggunaan memori simpul yang dibagi dengan batasan memori simpul. Rumus: `node_memory_working_set / node_memory_limit`.   | 
|  `node_memory_working_set`  |  `ClusterName`  `ClusterName`, `InstanceId`, `NodeName`   |  Jumlah memori, dalam byte, yang sedang digunakan dalam serangkaian simpul dalam klaster.  | 
|  `node_network_total_bytes`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  Jumlah total byte per detik yang ditransmisikan dan diterima melalui jaringan untuk setiap simpul dalam sebuah klaster. Rumus: `node_network_rx_bytes + node_network_tx_bytes`  `node_network_rx_bytes` dan `node_network_tx_bytes` tidak akan dilaporkan secara langsung sebagai metrik, tetapi sebagai bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat [Bidang-bidang relevan dalam peristiwa log performa untuk Amazon EKS dan Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `node_number_of_running_containers`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  Jumlah kontainer yang sedang berjalan untuk setiap simpul dalam sebuah klaster.  | 
|  `node_number_of_running_pods`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  Jumlah pod yang sedang berjalan untuk setiap simpul dalam sebuah klaster.  | 
|  `node_status_allocatable_pods`   |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Jumlah pod yang dapat ditetapkan ke sebuah simpul berdasarkan sumber daya yang dapat dialokasikan, yang didefinisikan sebagai sisa kapasitas simpul setelah memperhitungkan reservasi daemon sistem dan ambang batas pengosongan keras.  | 
|  `node_status_capacity_pods`  |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Jumlah pod yang dapat ditetapkan ke sebuah simpul berdasarkan kapasitasnya.  | 
|  `node_status_condition_ready`   |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Menunjukkan apakah kondisi status node `Ready` benar untuk node Amazon EC2.  | 
|  `node_status_condition_memory_pressure`   |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Menunjukkan apakah kondisi status simpul dalam keadaan `MemoryPressure` benar.  | 
|  `node_status_condition_pid_pressure`   |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Menunjukkan apakah kondisi status simpul dalam keadaan `PIDPressure` benar.  | 
|  `node_status_condition_disk_pressure`   |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Menunjukkan apakah kondisi status simpul dalam keadaan `OutOfDisk` benar.  | 
|  `node_status_condition_unknown`   |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Menunjukkan apakah salah satu kondisi status simpul Unknown.  | 
|  `node_interface_network_rx_dropped`  |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Jumlah paket yang diterima dan kemudian dijatuhkan oleh sebuah antarmuka jaringan pada simpul.  | 
|  `node_interface_network_tx_dropped`  |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Jumlah paket yang akan ditransmisikan tetapi dijatuhkan oleh sebuah antarmuka jaringan pada simpul.  | 
|  `node_diskio_io_service_bytes_total`  Ini tidak tersedia di Windows atau di cluster ROSA.  |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Jumlah total byte yang ditransfer oleh semua I/O operasi pada node.  | 
|  `node_diskio_io_serviced_total` Ini tidak tersedia di Windows atau di cluster ROSA.  |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Jumlah total I/O operasi pada node.  | 
|  `pod_cpu_reserved_capacity`  |  `PodName`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  `ClusterName`, `Namespace`, `Service`   |  Kapasitas CPU yang dicadangkan untuk setiap pod dalam sebuah klaster. Rumus: `pod_cpu_request / node_cpu_limit`  `pod_cpu_request` tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat [Bidang-bidang relevan dalam peristiwa log performa untuk Amazon EKS dan Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `pod_cpu_utilization`  |  `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`   |  Persentase unit CPU yang sedang digunakan oleh pod. Rumus: `pod_cpu_usage_total / node_cpu_limit`  | 
|  `pod_cpu_utilization_over_pod_limit`  |  `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`   |  Persentase unit CPU yang sedang digunakan oleh pod relatif terhadap batas pod. Rumus: `pod_cpu_usage_total / pod_cpu_limit`  | 
|  `pod_memory_reserved_capacity`  |  `PodName`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  `ClusterName`, `Namespace`, `Service`   |  Persentase memori yang dicadangkan untuk pod. Rumus: `pod_memory_request / node_memory_limit`  `pod_memory_request` tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat [Bidang-bidang relevan dalam peristiwa log performa untuk Amazon EKS dan Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `pod_memory_utilization`  |  `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`   |  Persentase memori yang saat ini sedang digunakan oleh satu pod atau banyak pod. Rumus: `pod_memory_working_set / node_memory_limit`  | 
|  `pod_memory_utilization_over_pod_limit`  |  `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`   |  Persentase memori yang sedang digunakan oleh pod relatif terhadap batas pod. Jika ada kontainer di dalam pod yang tidak memiliki batas memori yang ditentukan, metrik ini tidak akan ditampilkan. Rumus: `pod_memory_working_set / pod_memory_limit`  | 
|  `pod_network_rx_bytes`  |  `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`   |  Jumlah byte per detik yang sedang diterima melalui jaringan oleh pod. Rumus: `sum(pod_interface_network_rx_bytes)`  `pod_interface_network_rx_bytes` tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat [Bidang-bidang relevan dalam peristiwa log performa untuk Amazon EKS dan Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `pod_network_tx_bytes`  |  `PodName`, `Namespace`, `ClusterName` `Namespace,` `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`   |  Jumlah byte per detik yang sedang ditransmisikan melalui jaringan oleh pod. Rumus: `sum(pod_interface_network_tx_bytes)`  `pod_interface_network_tx_bytes` tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat [Bidang-bidang relevan dalam peristiwa log performa untuk Amazon EKS dan Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `pod_cpu_request`   |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Permintaan CPU untuk pod. Rumus: `sum(container_cpu_request)`  `pod_cpu_request` tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat [Bidang-bidang relevan dalam peristiwa log performa untuk Amazon EKS dan Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `pod_memory_request`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Permintaan memori untuk pod. Rumus: `sum(container_memory_request)`  `pod_memory_request` tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat [Bidang-bidang relevan dalam peristiwa log performa untuk Amazon EKS dan Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `pod_cpu_limit`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Batas CPU yang ditentukan untuk kontainer-kontainer yang ada dalam pod. Jika ada kontainer di dalam pod yang tidak memiliki batas CPU yang ditentukan, metrik ini tidak akan ditampilkan.  Rumus: `sum(container_cpu_limit)`  `pod_cpu_limit` tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat [Bidang-bidang relevan dalam peristiwa log performa untuk Amazon EKS dan Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `pod_memory_limit`   |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Batas memori yang ditentukan untuk kontainer-kontainer yang ada dalam pod. Jika ada kontainer di dalam pod yang tidak memiliki batas memori yang ditentukan, metrik ini tidak akan ditampilkan.  Rumus: `sum(container_memory_limit)`  `pod_cpu_limit` tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat [Bidang-bidang relevan dalam peristiwa log performa untuk Amazon EKS dan Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `pod_status_failed`   |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Menunjukkan bahwa semua kontainer yang ada dalam pod telah dihentikan, dan setidaknya satu kontainer telah diakhiri dengan status bukan nol atau dihentikan oleh sistem.   | 
|  `pod_status_ready`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Menunjukkan bahwa semua kontainer yang ada dalam pod sudah siap, setelah mencapai kondisi `ContainerReady`.   | 
|  `pod_status_running`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Menunjukkan bahwa semua kontainer yang ada dalam pod sedang berjalan.   | 
|  `pod_status_scheduled`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Menunjukkan bahwa pod telah dijadwalkan untuk sebuah simpul.   | 
|  `pod_status_unknown`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Menunjukkan bahwa status pod tidak dapat diperoleh.   | 
|  `pod_status_pending`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Menunjukkan bahwa pod telah diterima oleh klaster tetapi satu atau beberapa kontainer belum siap.   | 
|  `pod_status_succeeded`   |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Menunjukkan bahwa semua kontainer yang ada dalam pod telah berhasil dihentikan dan tidak akan dimulai ulang.   | 
|  `pod_number_of_containers`   |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Melaporkan jumlah kontainer yang ditentukan dalam spesifikasi pod.   | 
|  `pod_number_of_running_containers`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Melaporkan jumlah kontainer yang ada dalam pod yang saat ini berada dalam status `Running`.   | 
|  `pod_container_status_terminated`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Melaporkan jumlah kontainer yang ada dalam pod yang berada dalam status `Terminated`.   | 
|  `pod_container_status_running`   |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Melaporkan jumlah kontainer yang ada dalam pod yang berada dalam status `Running`.   | 
|  `pod_container_status_waiting`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Melaporkan jumlah kontainer yang ada dalam pod yang berada dalam status `Waiting`.   | 
|  `pod_container_status_waiting_reason_crash_loop_back_off`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Melaporkan jumlah kontainer di pod yang tertunda karena `CrashLoopBackOff` kesalahan, di mana kontainer berulang kali gagal memulai.  | 
|  `pod_container_status_waiting_reason_create_container_config_error`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Melaporkan jumlah kontainer di pod yang tertunda dengan alasannya`CreateContainerConfigError`. Ini karena kesalahan saat membuat konfigurasi kontainer.  | 
|  `pod_container_status_waiting_reason_create_container_error`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Melaporkan jumlah kontainer di pod yang tertunda dengan alasan `CreateContainerError` karena kesalahan saat membuat wadah.  | 
|  `pod_container_status_waiting_reason_image_pull_error`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Melaporkan jumlah kontainer di pod yang tertunda karena`ErrImagePull`,`ImagePullBackOff`, atau`InvalidImageName`. Situasi ini karena kesalahan saat menarik gambar kontainer.  | 
|  `pod_container_status_waiting_reason_start_error`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Melaporkan jumlah kontainer di pod yang tertunda dengan alasannya `StartError` karena kesalahan saat memulai penampung.  | 
|  `pod_container_status_terminated_reason_oom_killed`   |  `ContainerName`, `FullPodName`, `PodName`, `Namespace`, `ClusterName` `ContainerName`, `PodName`, `Namespace`, `ClusterName` `ClusterName`  |  Menunjukkan sebuah pod dihentikan karena melebihi batas memori. Metrik ini hanya ditampilkan ketika masalah ini terjadi.  | 
|  `pod_interface_network_rx_dropped`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Jumlah paket yang diterima dan kemudian menghapus sebuah antarmuka jaringan untuk pod.   | 
|  `pod_interface_network_tx_dropped`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Jumlah paket yang seharusnya ditransmisikan tetapi dihapus untuk pod.   | 
| `pod_memory_working_set` |  `ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  | Memori dalam byte yang saat ini sedang digunakan oleh sebuah pod. | 
| `pod_cpu_usage_total` |  `ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  | Jumlah unit CPU yang digunakan oleh sebuah pod. | 
|  `container_cpu_utilization`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`  |  Persentase unit CPU yang sedang digunakan oleh kontainer. Rumus: `container_cpu_usage_total / node_cpu_limit`  `container_cpu_utilization` tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat [Bidang-bidang relevan dalam peristiwa log performa untuk Amazon EKS dan Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `container_cpu_utilization_over_container_limit`   |  `ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`  |  Persentase unit CPU yang sedang digunakan oleh kontainer relatif terhadap batas kontainer. Jika kontainer tidak memiliki batas CPU yang ditentukan, maka metrik ini tidak akan ditampilkan. Rumus: `container_cpu_usage_total / container_cpu_limit`  `container_cpu_utilization_over_container_limit` tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat [Bidang-bidang relevan dalam peristiwa log performa untuk Amazon EKS dan Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `container_memory_utilization`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`  |  Persentase unit memori yang sedang digunakan oleh kontainer. Rumus: `container_memory_working_set / node_memory_limit`  `container_memory_utilization` tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat [Bidang-bidang relevan dalam peristiwa log performa untuk Amazon EKS dan Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `container_memory_utilization_over_container_limit`    |  `ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`  |  Persentase unit memori yang sedang digunakan oleh kontainer relatif terhadap batas kontainer. Jika kontainer tidak memiliki batas memori yang ditentukan, maka metrik ini tidak akan ditampilkan. Rumus: `container_memory_working_set / container_memory_limit`  `container_memory_utilization_over_container_limit` tidak dilaporkan secara langsung sebagai sebuah metrik, tetapi merupakan sebuah bidang dalam peristiwa log performa. Untuk informasi selengkapnya, lihat [Bidang-bidang relevan dalam peristiwa log performa untuk Amazon EKS dan Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `container_memory_failures_total`  Ini tidak tersedia di Windows.  |  `ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`  |  Jumlah kegagalan alokasi memori yang dialami oleh kontainer.  | 
|  `pod_number_of_container_restarts`  |  PodName, `Namespace`, `ClusterName`  |  Jumlah total kontainer yang memulai ulang di sebuah pod.  | 
|  `service_number_of_running_pods`  |  Layanan, `Namespace`, `ClusterName` `ClusterName`  |  Jumlah pod yang menjalankan satu layanan atau banyak layanan di klaster.  | 
|  `replicas_desired`   |  `ClusterName` `PodName`, `Namespace`, `ClusterName`  |  Jumlah pod yang dikehendaki untuk beban kerja sebagaimana yang ditentukan dalam spesifikasi beban kerja.  | 
|  `replicas_ready`   |  `ClusterName` `PodName`, `Namespace`, `ClusterName`  |  Jumlah pod untuk sebuah beban kerja yang telah mencapai status siap.  | 
|  `status_replicas_available`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName`  |  Jumlah pod untuk sebuah beban kerja yang tersedia. Sebuah pod yang tersedia ketika sudah siap untuk `minReadySeconds` yang ditentukan dalam spesifikasi beban kerja.  | 
|  `status_replicas_unavailable`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName`  |  Jumlah pod untuk sebuah beban kerja yang tidak tersedia. Sebuah pod yang tersedia ketika sudah siap untuk `minReadySeconds` yang ditentukan dalam spesifikasi beban kerja. Pod tidak tersedia jika pod tersebut belum memenuhi kriteria ini.  | 
|  `apiserver_storage_objects`  |  `ClusterName` `ClusterName`, `resource`  |  Jumlah objek yang disimpan di etcd pada saat pemeriksaan terakhir.  | 
|  `apiserver_storage_db_total_size_in_bytes`  |  `ClusterName` `ClusterName`, `endpoint`  |  Ukuran total file database penyimpanan yang dialokasikan secara fisik dalam byte. Metrik ini bersifat eksperimental dan mungkin berubah dalam rilis Kubernetes di masa mendatang. Unit: Bita Statistik yang berarti: Jumlah, Rata-rata, Minimum, Maksimum  | 
|  `apiserver_request_total`  |  `ClusterName` `ClusterName`, `code`, `verb`  |  Jumlah total permintaan API yang dikirimkan ke server API Kubernetes.  | 
|  `apiserver_request_duration_seconds`  |  `ClusterName` `ClusterName`, `verb`  |  Latensi respons untuk permintaan API ke server API Kubernetes.  | 
|  `apiserver_admission_controller_admission_duration_seconds`  |  `ClusterName` `ClusterName`, `operation`  |  Latensi pengendali penerimaan, dalam satuan detik. Pengendali penerimaan adalah kode yang mencegat permintaan ke server API Kubernetes.  | 
|  `rest_client_request_duration_seconds`   |  `ClusterName` `ClusterName`, `operation`  |  Latensi respons yang dialami oleh klien yang memanggil server API Kubernetes. Metrik ini bersifat eksperimental dan dapat berubah pada rilis Kubernetes di masa mendatang.  | 
|  `rest_client_requests_total`   |  `ClusterName` `ClusterName`, `code`, `method`  |  Jumlah total permintaan API yang dikirimkan ke server API Kubernetes yang dibuat oleh klien. Metrik ini bersifat eksperimental dan dapat berubah pada rilis Kubernetes di masa mendatang.  | 
|  `etcd_request_duration_seconds`   |  `ClusterName` `ClusterName`, `operation`  |  Latensi respons panggilan API ke Etcd. Metrik ini bersifat eksperimental dan dapat berubah pada rilis Kubernetes di masa mendatang.  | 
|  `apiserver_storage_size_bytes`   |  `ClusterName` `ClusterName`, `endpoint`  |  Ukuran file basis data penyimpanan yang dialokasikan secara fisik, dalam satuan byte. Metrik ini bersifat eksperimental dan dapat berubah pada rilis Kubernetes di masa mendatang.  | 
|  `apiserver_longrunning_requests`  |  `ClusterName` `ClusterName`, `resource`  |  Jumlah permintaan aktif yang berjalan lama yang dikirimkan ke server API Kubernetes.  | 
|  `apiserver_current_inflight_requests`  |  `ClusterName` `ClusterName`, `request_kind`  |  Jumlah permintaan yang sedang diproses oleh server API Kubernetes.  | 
|  `apiserver_admission_webhook_admission_duration_seconds`  |  `ClusterName` `ClusterName`, `name`  |  Latensi webhook penerimaan, dalam satuan detik. Webhook penerimaan adalah callback HTTP yang menerima permintaan penerimaan dan melakukan sesuatu dengannya.  | 
|  `apiserver_admission_step_admission_duration_seconds`   |  `ClusterName` `ClusterName`, `operation`  |  Latensi sub-langkah penerimaan, dalam satuan detik.  | 
|  `apiserver_requested_deprecated_apis`   |  `ClusterName` `ClusterName`, `group`  |  Jumlah permintaan yang tidak digunakan lagi di server API APIs Kubernetes.  | 
|  `apiserver_request_total_5xx`  |  `ClusterName` `ClusterName`, `code`, `verb`  |  Jumlah permintaan yang dikirimkan ke server API Kubernetes yang direspon dengan kode respons HTTP 5XX.  | 
|  `apiserver_storage_list_duration_seconds`   |  `ClusterName` `ClusterName`, `resource`  |  Latensi respons objek daftar dari Dll. Metrik ini bersifat eksperimental dan dapat berubah pada rilis Kubernetes di masa mendatang.  | 
|  `apiserver_flowcontrol_request_concurrency_limit`   |  `ClusterName` `ClusterName`, `priority_level`  |  Jumlah thread yang digunakan oleh permintaan yang sedang dijalankan di subsistem API Priority and Fairness.  | 
|  `apiserver_flowcontrol_rejected_requests_total`   |  `ClusterName` `ClusterName`, `reason`  |  Jumlah permintaan yang ditolak oleh subsistem API Priority dan Fairness. Metrik ini bersifat eksperimental dan dapat berubah pada rilis Kubernetes di masa mendatang.  | 
|  `apiserver_current_inqueue_requests`   |  `ClusterName` `ClusterName`, `request_kind`  |  Jumlah permintaan yang diantrekan oleh server API Kubernetes. Metrik ini bersifat eksperimental dan dapat berubah pada rilis Kubernetes di masa mendatang.  | 

## Metrik GPU NVIDIA
<a name="Container-Insights-metrics-EKS-GPU"></a>

Dimulai dengan versi `1.300034.0` CloudWatch agen, Container Insights dengan peningkatan observabilitas untuk Amazon EKS mengumpulkan metrik GPU NVIDIA dari beban kerja EKS secara default. CloudWatch Agen harus diinstal menggunakan versi add-on CloudWatch Observability EKS `v1.3.0-eksbuild.1` atau yang lebih baru. Untuk informasi selengkapnya, lihat [Instal CloudWatch agen dengan add-on Amazon CloudWatch Observability EKS atau bagan Helm](install-CloudWatch-Observability-EKS-addon.md). Metrik GPU NVIDIA yang dikumpulkan tercantum dalam tabel di bagian ini. 

Agar Container Insights mengumpulkan metrik GPU NVIDIA, Anda harus memenuhi prasyarat berikut:
+ Anda harus menggunakan Container Insights dengan observabilitas yang ditingkatkan untuk Amazon EKS, dengan versi add-on Amazon CloudWatch Observability EKS atau yang lebih baru. `v1.3.0-eksbuild.1`
+ [Plugin perangkat NVIDIA untuk Kubernetes](https://github.com/NVIDIA/k8s-device-plugin) harus diinstal di cluster.
+ [Toolkit kontainer NVIDIA](https://github.com/NVIDIA/nvidia-container-toolkit) harus diinstal pada node cluster. Misalnya, akselerasi Amazon EKS AMIs yang dioptimalkan dibangun dengan komponen yang diperlukan.

Anda dapat memilih untuk tidak mengumpulkan metrik GPU NVIDIA dengan menyetel `accelerated_compute_metrics` opsi di file konfigurasi CloudWatch agen awal ke. `false` Untuk informasi selengkapnya dan contoh konfigurasi opt-out, lihat. [(Opsional) Konfigurasi tambahan](install-CloudWatch-Observability-EKS-addon.md#install-CloudWatch-Observability-EKS-addon-configuration)


| Nama metrik | Dimensi | Deskripsi | 
| --- | --- | --- | 
|  `container_gpu_memory_total` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`  |  Ukuran buffer frame total, dalam byte, pada GPU yang dialokasikan ke wadah.  | 
|  `container_gpu_memory_used` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`  |  Byte frame buffer yang digunakan pada GPU (s) dialokasikan ke container.  | 
|  `container_gpu_memory_utilization` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`  |  Persentase frame buffer yang digunakan dari GPU (s) dialokasikan ke wadah.  | 
|  `container_gpu_power_draw` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`  |  Penggunaan daya dalam watt GPU dialokasikan ke wadah.  | 
|  `container_gpu_temperature` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`  |  Suhu dalam derajat celcius dari GPU (s) dialokasikan ke wadah.  | 
|  `container_gpu_utilization` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`  |  Persentase pemanfaatan GPU yang dialokasikan ke wadah.  | 
|  `container_gpu_tensor_core_utilization` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`  |  Persentase pemanfaatan inti tensor pada GPU yang dialokasikan ke wadah.  | 
|  `node_gpu_memory_total` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`  |  Ukuran buffer frame total, dalam byte, pada GPU yang dialokasikan ke node.  | 
|  `node_gpu_memory_used` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`  |  Byte frame buffer yang digunakan pada GPU yang dialokasikan ke node.  | 
|  `node_gpu_memory_utilization` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`  |  Persentase frame buffer yang digunakan pada GPU yang dialokasikan ke node.  | 
|  `node_gpu_power_draw` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`  |  Penggunaan daya dalam watt GPU dialokasikan ke node.  | 
|  `node_gpu_temperature` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`  |  Suhu dalam derajat celcius dari GPU (s) dialokasikan ke node.  | 
|  `node_gpu_utilization` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`  |  Persentase pemanfaatan GPU yang dialokasikan ke node.  | 
|  `node_gpu_tensor_core_utilization` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`  |  Persentase pemanfaatan inti tensor pada GPU yang dialokasikan ke node.  | 
|  `pod_gpu_memory_total` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`  |  Ukuran buffer frame total, dalam byte, pada GPU yang dialokasikan ke pod.  | 
|  `pod_gpu_memory_used` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`  |  Byte frame buffer yang digunakan pada GPU yang dialokasikan ke pod.  | 
|  `pod_gpu_memory_utilization` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`  |  Persentase frame buffer yang digunakan dari GPU yang dialokasikan ke pod.  | 
|  `pod_gpu_power_draw` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`  |  Penggunaan daya dalam watt GPU dialokasikan ke pod.  | 
|  `pod_gpu_temperature` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`  |  Suhu dalam derajat Celcius dari GPU (s) dialokasikan ke pod.  | 
|  `pod_gpu_utilization` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`  |  Persentase pemanfaatan GPU yang dialokasikan ke pod.  | 
|  `pod_gpu_tensor_core_utilization` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`  |  Persentase pemanfaatan inti tensor pada GPU yang dialokasikan ke pod.  | 

### Pemantauan GPU terperinci
<a name="Container-Insights-detailed-GPU-monitoring"></a>

Dimulai dengan `1.300062.0` versi CloudWatch agen, Container Insights dengan peningkatan observabilitas untuk Amazon EKS mendukung pemantauan GPU terperinci dengan interval pengumpulan sub-menit. Ini mengatasi kesenjangan pemantauan untuk beban kerja inferensi pembelajaran mesin berdurasi pendek yang mungkin benar-benar terlewatkan oleh interval pengumpulan standar. CloudWatch Agen harus diinstal menggunakan versi add-on CloudWatch Observability EKS `v4.7.0-eksbuild.1` atau yang lebih baru. Untuk informasi selengkapnya, lihat [Instal CloudWatch agen dengan add-on Amazon CloudWatch Observability EKS atau bagan Helm](install-CloudWatch-Observability-EKS-addon.md).

Secara default, metrik GPU dikumpulkan dan dicerna pada interval 60 detik. Dengan pemantauan terperinci diaktifkan, CloudWatch agen mengumpulkan metrik GPU pada interval sub-menit (minimal 1 detik), tetapi metrik masih tertelan pada interval 1 menit. CloudWatch Namun, Anda dapat menanyakan agregasi statistik (seperti minimum, maksimum, dan persentil seperti p90) dari titik data sub-menit dalam setiap periode 1 menit, memberikan data pemanfaatan GPU yang akurat dan pengoptimalan sumber daya yang lebih baik.

#### Konfigurasi
<a name="Container-Insights-detailed-GPU-monitoring-configuration"></a>

Untuk mengaktifkan pemantauan GPU terperinci, perbarui konfigurasi CloudWatch agen Anda untuk menyertakan `accelerated_compute_gpu_metrics_collection_interval` parameter di `kubernetes` bagian, seperti pada contoh berikut.

```
{  
    "logs": {  
        "metrics_collected": {  
            "kubernetes": {  
                "cluster_name": "MyCluster",  
                "enhanced_container_insights": true,  
                "accelerated_compute_metrics": true,  
                "accelerated_compute_gpu_metrics_collection_interval": 1  
            }  
        }  
    }  
}
```

`accelerated_compute_gpu_metrics_collection_interval`Parameter menerima nilai dalam hitungan detik, dengan nilai minimum 1 detik. Mengaturnya untuk `1` mengaktifkan interval pengumpulan 1 detik. Jika parameter ini tidak ditentukan, interval default 60 detik digunakan.

Untuk petunjuk konfigurasi lengkap, lihat[Menyiapkan CloudWatch agen untuk mengumpulkan metrik klaster](Container-Insights-setup-metrics.md).

## AWS Metrik neuron untuk AWS Trainium dan Inferensia AWS
<a name="Container-Insights-metrics-EKS-Neuron"></a>

Dimulai dengan versi `1.300036.0` CloudWatch agen, Container Insights dengan peningkatan observabilitas untuk Amazon EKS mengumpulkan metrik komputasi yang dipercepat dari akselerator AWS Trainium dan AWS Inferentia secara default. CloudWatch Agen harus diinstal menggunakan versi add-on CloudWatch Observability EKS `v1.5.0-eksbuild.1` atau yang lebih baru. Untuk informasi selengkapnya tentang add-on, lihat[Instal CloudWatch agen dengan add-on Amazon CloudWatch Observability EKS atau bagan Helm](install-CloudWatch-Observability-EKS-addon.md). Untuk informasi lebih lanjut tentang AWS Trainium, lihat [AWS Trainium](https://aws.amazon.com/machine-learning/trainium/). Untuk informasi lebih lanjut tentang AWS Inferensia, lihat [AWS Inferensia](https://aws.amazon.com/machine-learning/inferentia/).

Agar Container Insights dapat mengumpulkan metrik AWS Neuron, Anda harus memenuhi prasyarat berikut:
+ Anda harus menggunakan Container Insights dengan observabilitas yang ditingkatkan untuk Amazon EKS, dengan versi add-on Amazon CloudWatch Observability EKS atau yang lebih baru. `v1.5.0-eksbuild.1`
+ [Driver Neuron](https://awsdocs-neuron.readthedocs-hosted.com/en/latest/general/setup/neuron-setup/pytorch/neuronx/ubuntu/torch-neuronx-ubuntu22.html#setup-torch-neuronx-ubuntu22) harus diinstal pada node cluster.
+ [Plugin perangkat Neuron](https://awsdocs-neuron.readthedocs-hosted.com/en/latest/containers/kubernetes-getting-started.html) harus diinstal pada cluster. Misalnya, akselerasi Amazon EKS AMIs yang dioptimalkan dibangun dengan komponen yang diperlukan.

Metrik yang dikumpulkan tercantum dalam tabel di bagian ini. Metrik dikumpulkan untuk AWS Trainium, AWS Inferentia, dan Inferentia2. AWS 

 CloudWatch Agen mengumpulkan metrik ini dari [monitor Neuron](https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html) dan melakukan korelasi sumber daya Kubernetes yang diperlukan untuk mengirimkan metrik di tingkat pod dan kontainer


| Nama metrik | Dimensi | Deskripsi | 
| --- | --- | --- | 
|  `container_neuroncore_utilization` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`  |  NeuronCore pemanfaatan, selama periode ditangkap NeuronCore dialokasikan ke wadah. Unit: Persen  | 
|  `container_neuroncore_memory_usage_constants` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`  |  Jumlah memori perangkat yang digunakan untuk konstanta selama pelatihan oleh NeuronCore yang dialokasikan ke wadah (atau bobot selama inferensi). Unit: Bita  | 
|  `container_neuroncore_memory_usage_model_code` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`  |  Jumlah memori perangkat yang digunakan untuk kode yang dapat dieksekusi model oleh NeuronCore yang dialokasikan ke wadah. Unit: Bita  | 
|  `container_neuroncore_memory_usage_model_shared_scratchpad` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`  |  Jumlah memori perangkat yang digunakan untuk scratchpad yang dibagi dari model oleh NeuronCore yang dialokasikan ke wadah. Wilayah memori ini disediakan untuk model. Unit: Bita  | 
|  `container_neuroncore_memory_usage_runtime_memory` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`  |  Jumlah memori perangkat yang digunakan untuk runtime Neuron oleh NeuronCore dialokasikan ke wadah. Unit: Bita  | 
|  `container_neuroncore_memory_usage_tensors` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`  |  Jumlah memori perangkat yang digunakan untuk tensor oleh NeuronCore dialokasikan ke wadah. Unit: Bita  | 
|  `container_neuroncore_memory_usage_total` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`  |  Jumlah total memori yang digunakan oleh NeuronCore dialokasikan ke wadah. Unit: Bita  | 
|  `container_neurondevice_hw_ecc_events_total` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`  |  Jumlah peristiwa ECC yang dikoreksi dan tidak dikoreksi untuk SRAM on-chip dan memori perangkat perangkat Neuron pada node. Unit: Jumlah  | 
|  `pod_neuroncore_utilization` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`  |   NeuronCore Pemanfaatan selama periode yang ditangkap dari NeuronCore dialokasikan ke pod. Unit: Persen  | 
|  `pod_neuroncore_memory_usage_constants` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`  |  Jumlah memori perangkat yang digunakan untuk konstanta selama pelatihan oleh NeuronCore yang dialokasikan ke pod (atau bobot selama inferensi). Unit: Bita  | 
|  `pod_neuroncore_memory_usage_model_code` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`  |  Jumlah memori perangkat yang digunakan untuk kode executable model oleh NeuronCore yang dialokasikan ke pod. Unit: Bita  | 
|  `pod_neuroncore_memory_usage_model_shared_scratchpad` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`  |  Jumlah memori perangkat yang digunakan untuk scratchpad yang dibagi dari model oleh NeuronCore yang dialokasikan ke pod. Wilayah memori ini disediakan untuk model. Unit: Bita  | 
|  `pod_neuroncore_memory_usage_runtime_memory` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`  |  Jumlah memori perangkat yang digunakan untuk runtime Neuron oleh NeuronCore dialokasikan ke pod. Unit: Bita  | 
|  `pod_neuroncore_memory_usage_tensors` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`  |  Jumlah memori perangkat yang digunakan untuk tensor oleh NeuronCore dialokasikan ke pod. Unit: Bita  | 
|  `pod_neuroncore_memory_usage_total` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`  |  Jumlah total memori yang digunakan oleh NeuronCore dialokasikan ke pod. Unit: Bita  | 
|  `pod_neurondevice_hw_ecc_events_total` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`  |  Jumlah peristiwa ECC yang dikoreksi dan tidak dikoreksi untuk SRAM on-chip dan memori perangkat perangkat Neuron yang dialokasikan ke pod. Unit: Bita  | 
|  `node_neuroncore_utilization` |  `ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`  |   NeuronCore Pemanfaatan selama periode yang ditangkap dari NeuronCore dialokasikan ke node. Unit: Persen  | 
|  `node_neuroncore_memory_usage_constants` |  `ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`  |  Jumlah memori perangkat yang digunakan untuk konstanta selama pelatihan oleh NeuronCore yang dialokasikan ke node (atau bobot selama inferensi). Unit: Bita  | 
|  `node_neuroncore_memory_usage_model_code` |  `ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`  |  Jumlah memori perangkat yang digunakan untuk kode executable model oleh NeuronCore yang dialokasikan ke node. Unit: Bita  | 
|  `node_neuroncore_memory_usage_model_shared_scratchpad` |  `ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`  |  Jumlah memori perangkat yang digunakan untuk scratchpad yang dibagikan dari model oleh NeuronCore yang dialokasikan ke node. Ini adalah wilayah memori yang disediakan untuk model. Unit: Bita  | 
|  `node_neuroncore_memory_usage_runtime_memory` |  `ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`  |  Jumlah memori perangkat yang digunakan untuk runtime Neuron oleh NeuronCore yang dialokasikan ke node. Unit: Bita  | 
|  `node_neuroncore_memory_usage_tensors` |  `ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`  |  Jumlah memori perangkat yang digunakan untuk tensor oleh NeuronCore yang dialokasikan ke node. Unit: Bita  | 
|  `node_neuroncore_memory_usage_total` |  `ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`  |  Jumlah total memori yang digunakan oleh NeuronCore yang dialokasikan ke node. Unit: Bita  | 
|  `node_neuron_execution_errors_total` |  `ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName`  |  Jumlah total kesalahan eksekusi pada node. Ini dihitung oleh CloudWatch agen dengan menggabungkan kesalahan dari jenis berikut:`generic`,,,`numerical`, `transient``model`, `runtime` dan `hardware` Unit: Jumlah  | 
|  `node_neurondevice_runtime_memory_used_bytes` |  `ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName`  |  Total penggunaan memori perangkat Neuron dalam byte pada node. Unit: Bita  | 
| `node_neuron_execution_latency` |  `ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName`  |  Dalam hitungan detik, latensi untuk eksekusi pada node diukur dengan runtime Neuron. Unit: Detik  | 
| `node_neurondevice_hw_ecc_events_total` |  `ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `NodeName`, `NeuronDevice`  |  Jumlah peristiwa ECC yang dikoreksi dan tidak dikoreksi untuk SRAM on-chip dan memori perangkat perangkat Neuron pada node. Unit: Jumlah  | 

## AWS Metrik Elastic Fabric Adapter (EFA)
<a name="Container-Insights-metrics-EFA"></a>

Dimulai dengan versi `1.300037.0` CloudWatch agen, Container Insights dengan peningkatan observabilitas untuk Amazon EKS mengumpulkan metrik AWS Elastic Fabric Adapter (EFA) dari cluster Amazon EKS di instans Linux. CloudWatch Agen harus diinstal menggunakan versi add-on CloudWatch Observability EKS `v1.5.2-eksbuild.1` atau yang lebih baru. Untuk informasi selengkapnya tentang add-on, lihat[Instal CloudWatch agen dengan add-on Amazon CloudWatch Observability EKS atau bagan Helm](install-CloudWatch-Observability-EKS-addon.md). Untuk informasi lebih lanjut tentang Adaptor Kain AWS Elastis, lihat [Adaptor Kain Elastis](https://aws.amazon.com/hpc/efa/).

Agar Container Insights mengumpulkan metrik adaptor Kain AWS Elastis, Anda harus memenuhi prasyarat berikut:
+ Anda harus menggunakan Container Insights dengan observabilitas yang ditingkatkan untuk Amazon EKS, dengan versi add-on Amazon CloudWatch Observability EKS atau yang lebih baru. `v1.5.2-eksbuild.1`
+ Plugin perangkat EFA harus diinstal pada cluster. Untuk informasi lebih lanjut, lihat [aws-efa-k8 s-device-plugin](https://github.com/aws/eks-charts/tree/master/stable/aws-efa-k8s-device-plugin) di GitHub.

Metrik yang dikumpulkan tercantum dalam tabel berikut. 


| Nama metrik | Dimensi | Deskripsi | 
| --- | --- | --- | 
|  `container_efa_rx_bytes` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`   |  Jumlah byte per detik yang diterima oleh perangkat EFA yang dialokasikan ke wadah. Satuan: Byte/Detik  | 
|  `container_efa_tx_bytes` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`   |  Jumlah byte per detik yang ditransmisikan oleh perangkat EFA yang dialokasikan ke wadah. Satuan: Byte/Detik  | 
|  `container_efa_rx_dropped` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`   |  Jumlah paket yang diterima dan kemudian dijatuhkan oleh perangkat EFA yang dialokasikan ke wadah. Satuan: Hitung/Detik  | 
|  `container_efa_rdma_read_bytes` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`   |  Jumlah byte per detik yang diterima menggunakan operasi baca akses memori langsung jarak jauh oleh perangkat EFA yang dialokasikan ke wadah. Satuan: Byte/Detik  | 
|  `container_efa_rdma_write_bytes` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`   |  Jumlah byte per detik yang ditransmisikan menggunakan operasi baca akses memori langsung jarak jauh oleh perangkat EFA yang dialokasikan ke wadah. Satuan: Byte/Detik  | 
|  `container_efa_rdma_write_recv_bytes` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`   |  Jumlah byte per detik yang diterima selama operasi tulis akses memori langsung jarak jauh oleh perangkat EFA yang dialokasikan ke wadah. Satuan: Byte/Detik  | 
|  `pod_efa_rx_bytes` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`  |  Jumlah byte per detik yang diterima oleh perangkat EFA yang dialokasikan ke pod. Satuan: Byte/Detik  | 
|  `pod_efa_tx_bytes` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`  |  Jumlah byte per detik yang ditransmisikan oleh perangkat EFA yang dialokasikan ke pod. Satuan: Byte/Detik  | 
|  `pod_efa_rx_dropped` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`  |  Jumlah paket yang diterima dan kemudian dijatuhkan oleh perangkat EFA yang dialokasikan ke pod. Satuan: Hitung/Detik  | 
|  `pod_efa_rdma_read_bytes` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`  |  Jumlah byte per detik yang diterima menggunakan operasi baca akses memori langsung jarak jauh oleh perangkat EFA yang dialokasikan ke pod. Satuan: Byte/Detik  | 
|  `pod_efa_rdma_write_bytes` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`  |  Jumlah byte per detik yang ditransmisikan menggunakan operasi baca akses memori langsung jarak jauh oleh perangkat EFA yang dialokasikan ke pod. Satuan: Byte/Detik  | 
|  `pod_efa_rdma_write_recv_bytes` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`  |  Jumlah byte per detik yang diterima selama operasi penulisan akses memori langsung jarak jauh oleh perangkat EFA yang dialokasikan ke pod. Satuan: Byte/Detik  | 
|  `node_efa_rx_bytes` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`  |  Jumlah byte per detik yang diterima oleh perangkat EFA yang dialokasikan ke node. Satuan: Byte/Detik  | 
|  `node_efa_tx_bytes` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`  |  Jumlah byte per detik yang ditransmisikan oleh perangkat EFA yang dialokasikan ke node. Satuan: Byte/Detik  | 
|  `node_efa_rx_dropped` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`  |  Jumlah paket yang diterima dan kemudian dijatuhkan oleh perangkat EFA yang dialokasikan ke node. Satuan: Hitung/Detik  | 
|  `node_efa_rdma_read_bytes` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`  |  Jumlah byte per detik yang diterima menggunakan operasi baca akses memori langsung jarak jauh oleh perangkat EFA yang dialokasikan ke node. Satuan: Byte/Detik  | 
|  `node_efa_rdma_write_bytes` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`  |  Jumlah byte per detik yang ditransmisikan menggunakan operasi baca akses memori langsung jarak jauh oleh perangkat EFA yang dialokasikan ke pod. Satuan: Byte/Detik  | 
|  `node_efa_rdma_write_recv_bytes` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`  |  Jumlah byte per detik yang diterima selama operasi penulisan akses memori langsung jarak jauh oleh perangkat EFA yang dialokasikan ke node. Satuan: Byte/Detik  | 

## Amazon SageMaker AI HyperPod metrik
<a name="Container-Insights-metrics-Sagemaker-HyperPod"></a>

Dimulai dengan versi `v2.0.1-eksbuild.1` add-on CloudWatch Observability EKS, Container Insights dengan peningkatan observabilitas untuk Amazon EKS secara otomatis Amazon SageMaker AI HyperPod mengumpulkan metrik dari kluster Amazon EKS. Untuk informasi selengkapnya tentang add-on, lihat[Instal CloudWatch agen dengan add-on Amazon CloudWatch Observability EKS atau bagan Helm](install-CloudWatch-Observability-EKS-addon.md). Untuk informasi lebih lanjut tentang Amazon SageMaker AI HyperPod, lihat [Amazon SageMaker AI HyperPod](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks.html).

Metrik yang dikumpulkan tercantum dalam tabel berikut. 


| Nama metrik | Dimensi | Deskripsi | 
| --- | --- | --- | 
|  `hyperpod_node_health_status_unschedulable` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`  |  Menunjukkan jika sebuah node diberi label sebagai `Unschedulable` oleh Amazon SageMaker AI HyperPod. Ini berarti bahwa node menjalankan pemeriksaan kesehatan mendalam dan tidak tersedia untuk menjalankan beban kerja. Unit: Jumlah  | 
|  `hyperpod_node_health_status_schedulable` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`  |  Menunjukkan jika sebuah node diberi label sebagai `Schedulable` oleh Amazon SageMaker AI HyperPod. Ini berarti bahwa node telah lulus pemeriksaan kesehatan dasar atau pemeriksaan kesehatan mendalam dan tersedia untuk menjalankan beban kerja. Unit: Jumlah  | 
|  `hyperpod_node_health_status_unschedulable_pending_replacement` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`  |  Menunjukkan jika sebuah node diberi label sebagai `UnschedulablePendingReplacement` oleh HyperPod. Ini berarti bahwa node telah gagal dalam pemeriksaan kesehatan atau pemeriksaan agen pemantauan kesehatan dan memerlukan penggantian. Jika pemulihan node otomatis diaktifkan, node akan secara otomatis diganti oleh Amazon SageMaker AI HyperPod. Unit: Jumlah  | 
|  `hyperpod_node_health_status_unschedulable_pending_reboot` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`  |  Menunjukkan jika sebuah node diberi label sebagai `UnschedulablePendingReboot` oleh Amazon SageMaker AI HyperPod. Ini berarti bahwa node menjalankan pemeriksaan kesehatan mendalam dan memerlukan reboot. Jika pemulihan node otomatis diaktifkan, node akan secara otomatis reboot oleh. Amazon SageMaker AI HyperPod Unit: Jumlah  | 

## Metrik NVMe driver Amazon EBS
<a name="Container-Insights-metrics-EBS"></a>

Dimulai dengan versi ` 1.300056.0` CloudWatch agen, Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS secara otomatis mengumpulkan metrik driver Amazon NVMe EBS dari kluster Amazon EKS di instans Linux. CloudWatch Agen harus diinstal menggunakan versi add-on CloudWatch Observability Amazon EKS `4.1.0` atau yang lebih baru. Untuk informasi selengkapnya tentang add-on, lihat[Instal CloudWatch agen dengan add-on Amazon CloudWatch Observability EKS atau bagan Helm](install-CloudWatch-Observability-EKS-addon.md). Untuk informasi selengkapnya tentang Amazon EBS, lihat statistik [performa terperinci Amazon EBS](https://docs.aws.amazon.com/ebs/latest/userguide/nvme-detailed-performance-stats.html).

Agar Container Insights mengumpulkan metrik NVMe driver Amazon EBS, Anda harus memenuhi prasyarat berikut:
+ Anda harus menggunakan Container Insights dengan observabilitas yang ditingkatkan untuk Amazon EKS, dengan versi add-on CloudWatch `4.1.0` Observability Amazon EKS atau yang lebih baru.
+ `1.42.0`Add-on driver EBS CSI atau bagan Helm harus diinstal pada cluster dengan metrik diaktifkan.
  + Untuk mengaktifkan metrik saat Anda menggunakan add-on driver Amazon EBS CSI, gunakan opsi berikut saat Anda membuat atau memperbarui add-on. `--configuration-values '{ "node": { "enableMetrics": true } }'`
  + Untuk mengaktifkan metrik jika Anda menggunakan bagan Helm, gunakan opsi berikut saat Anda membuat atau memperbarui add-on. `--set node.enableMetrics=true`

Metrik yang dikumpulkan tercantum dalam tabel berikut. 


| Nama metrik | Dimensi | Deskripsi | 
| --- | --- | --- | 
|  `node_diskio_ebs_total_read_ops` |  `ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`  | Jumlah total operasi baca yang selesai. | 
|  `node_diskio_ebs_total_write_ops` |  `ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`  | Jumlah total operasi penulisan yang diselesaikan. | 
|  `node_diskio_ebs_total_read_bytes` |  `ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`  | Jumlah total byte baca yang ditransfer. | 
|  `node_diskio_ebs_total_write_bytes` |  `ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`  | Jumlah total byte tulis yang ditransfer. | 
|  `node_diskio_ebs_total_read_time` |  `ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`  | Total waktu yang dihabiskan, dalam mikrodetik, oleh semua operasi baca yang diselesaikan. | 
|  `node_diskio_ebs_total_write_time` |  `ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`  | Total waktu yang dihabiskan, dalam mikrodetik, oleh semua operasi penulisan yang diselesaikan. | 
|  `node_diskio_ebs_volume_performance_exceeded_iops` |  `ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`  | Total waktu, dalam mikrodetik, permintaan IOPS melebihi kinerja IOPS yang disediakan volume. | 
|  `node_diskio_ebs_volume_performance_exceeded_tp` |  `ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`  | Total waktu, dalam mikrodetik, permintaan throughput melebihi kinerja throughput yang disediakan volume. | 
|  `node_diskio_ebs_ec2_instance_performance_exceeded_iops` |  `ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`  | Total waktu, dalam mikrodetik, volume EBS melebihi kinerja IOPS maksimum instans Amazon EC2 yang terpasang. | 
|  `node_diskio_ebs_ec2_instance_performance_exceeded_tp` |  `ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`  | Total waktu, dalam mikrodetik, volume EBS melebihi kinerja throughput maksimum instans Amazon EC2 yang terpasang. | 
|  `node_diskio_ebs_volume_queue_length` |  `ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`  | Jumlah operasi baca dan tulis yang menunggu untuk diselesaikan. |