

# Amazon EKS 및 Kubernetes Container Insights 지표
<a name="Container-Insights-metrics-EKS"></a>

아래 표에는 Container Insights가 Amazon EKS 및 쿠버네티스용으로 수집하는 지표 및 측정 기준이 나와 있습니다. 이러한 지표는 `ContainerInsights` 네임스페이스에 있습니다. 자세한 내용은 [Metrics](cloudwatch_concepts.md#Metric) 섹션을 참조하세요.

콘솔에 Container Insights 지표가 보이지 않는 경우, Container Insights 설정을 완료했는지 확인합니다. Container Insights 설정이 완료되기 전에는 지표가 나타나지 않습니다. 자세한 내용은 [Container Insights 설정](deploy-container-insights.md) 섹션을 참조하세요.


| 지표 이름 | 측정 기준 | 설명 | 
| --- | --- | --- | 
|  `cluster_failed_node_count`  |  `ClusterName`  |  클러스터의 실패한 작업자 노드의 숫자입니다. **‘노드 조건’ 문제를 겪고 있는 경우 노드가 실패한 것으로 간주됩니다. 자세한 내용은 Kubernetes 설명서에서 [조건](https://kubernetes.io/docs/concepts/architecture/nodes/#condition)을 참조하세요.  | 
|  `cluster_node_count`  |  `ClusterName`  |  클러스터의 작업자 노드의 총 숫자입니다.  | 
|  `namespace_number_of_running_pods`  |  `Namespace` `ClusterName` `ClusterName`  |  사용 중인 측정기준에서 지정한 리소스의 네임스페이스당 실행 중인 Pod 숫자입니다.  | 
|  `node_cpu_limit`  |  `ClusterName`   |  클러스터에서 단일 노드에 할당할 수 있는 최대 CPU 단위 숫자입니다.  | 
|  `node_cpu_reserved_capacity`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  kubelet, kube-proxy, Docker 등 노드 구성 요소에 예약된 CPU 단위의 비율입니다. 공식: `node_cpu_request / node_cpu_limit`  `node_cpu_request`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 [Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드](Container-Insights-reference-performance-entries-EKS.md) 섹션을 참조하세요.   | 
|  `node_cpu_usage_total`  |  `ClusterName`  |  클러스터의 노드에서 사용 중인 CPU 단위의 숫자입니다.  | 
|  `node_cpu_utilization`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  클러스터의 노드에서 사용 중인 CPU 단위의 총 백분율입니다. 공식: `node_cpu_usage_total / node_cpu_limit`  | 
|  `node_gpu_limit` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`  |  노드에서 사용 가능한 총 GPU 수.  | 
|  `node_gpu_usage_total` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`  |  노드에서 실행 중인 포드가 사용하는 GPU 수.  | 
|  `node_gpu_reserved_capacity` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`  |  노드에서 현재 예약된 GPU의 백분율. 수식은 `node_gpu_request / node_gpu_limit`입니다.  `node_gpu_request`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 [Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드](Container-Insights-reference-performance-entries-EKS.md) 섹션을 참조하세요.   | 
|  `node_filesystem_utilization`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  클러스터에서 노드에 사용하는 파일 시스템 용량의 총 백분율입니다. 공식: `node_filesystem_usage / node_filesystem_capacity`  `node_filesystem_usage` 및 `node_filesystem_capacity`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 [Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드](Container-Insights-reference-performance-entries-EKS.md) 섹션을 참조하세요.   | 
|  `node_memory_limit`  |  `ClusterName`  |  클러스터에서 단일 노드로 할당될 수 있는 최대 메모리의 양(바이트)입니다.  | 
|  `node_memory_reserved_capacity`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  클러스터의 노드에서 현재 사용 중인 메모리의 비율입니다. 공식: `node_memory_request / node_memory_limit`  `node_memory_request`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 [Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드](Container-Insights-reference-performance-entries-EKS.md) 섹션을 참조하세요.   | 
|  `node_memory_utilization`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  한 개 또는 여러 개의 노드에서 현재 사용 중인 메모리의 비율입니다. 노드 메모리 사용량을 노드 메모리 제한으로 나눈 백분율입니다. 공식: `node_memory_working_set / node_memory_limit`입니다.  | 
|  `node_memory_working_set`  |  `ClusterName`   |  클러스터의 노드 작업 세트에서 사용하는 메모리의 양(바이트)입니다.  | 
|  `node_network_total_bytes`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  클러스터에서 노드당 네트워크를 통해 전송 및 수신된 초당 바이트의 합계 수치입니다. 공식: `node_network_rx_bytes + node_network_tx_bytes`  `node_network_rx_bytes` 및 `node_network_tx_bytes`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 [Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드](Container-Insights-reference-performance-entries-EKS.md) 섹션을 참조하세요.   | 
|  `node_number_of_running_containers`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  클러스터에서 노드당 실행 중인 컨테이너의 숫자입니다.  | 
|  `node_number_of_running_pods`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  클러스터에서 노드당 실행 중인 Pod 숫자입니다.  | 
|  `pod_cpu_reserved_capacity`  |  `PodName`, `Namespace`, `ClusterName` `ClusterName`  |  클러스터에서 Pod별로 예약된 CPU 용량입니다. 공식: `pod_cpu_request / node_cpu_limit`  `pod_cpu_request`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 [Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드](Container-Insights-reference-performance-entries-EKS.md) 섹션을 참조하세요.   | 
|  `pod_cpu_utilization`  |  `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName`  |  Pod에서 사용 중인 CPU 단위의 비율입니다. 공식: `pod_cpu_usage_total / node_cpu_limit`  | 
|  `pod_cpu_utilization_over_pod_limit`  |  `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName`  |  포드 제한을 기준으로 포드에서 사용 중인 CPU 단위의 백분율입니다. 공식: `pod_cpu_usage_total / pod_cpu_limit`  | 
|  `pod_gpu_request` |  `ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `FullPodName`, `Namespace`, `PodName`  |  포드에 대한 GPU 요청. 이 값은 항상 `pod_gpu_limit`와 같아야 합니다.  | 
|  `pod_gpu_limit` |  `ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `FullPodName`, `Namespace`, `PodName`  |  노드의 포드에 할당할 수 있는 최대 GPU 수.  | 
|  `pod_gpu_usage_total` |  `ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `FullPodName`, `Namespace`, `PodName`  |  포드에 할당되는 GPU 수.  | 
|  `pod_gpu_reserved_capacity` |  `ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `FullPodName`, `Namespace`, `PodName`  |  포드에 대해 현재 예약된 GPU의 백분율. 수식은 pod\$1gpu\$1request / node\$1gpu\$1reserved\$1capacity입니다.  | 
|  `pod_memory_reserved_capacity`  |  `PodName`, `Namespace`, `ClusterName` `ClusterName`  |  포드에 예약된 메모리의 비율입니다. 공식: `pod_memory_request / node_memory_limit`  `pod_memory_request`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 [Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드](Container-Insights-reference-performance-entries-EKS.md) 섹션을 참조하세요.   | 
|  `pod_memory_utilization`  |  `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName`  |  한 개 또는 여러 개의 Pod에서 현재 사용 중인 메모리의 비율입니다. 공식: `pod_memory_working_set / node_memory_limit`  | 
|  `pod_memory_utilization_over_pod_limit`  |  `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName`  |  포드 제한을 기준으로 포드에서 사용 중인 메모리의 백분율입니다. 포드의 컨테이너에 메모리 제한이 정의되지 않은 경우 이 지표는 표시되지 않습니다. 공식: `pod_memory_working_set / pod_memory_limit`  | 
|  `pod_network_rx_bytes`  |  `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName`  |  Pod에서 네트워크를 통해 수신 중인 초당 바이트 수입니다. 공식: `sum(pod_interface_network_rx_bytes)`  `pod_interface_network_rx_bytes`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 [Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드](Container-Insights-reference-performance-entries-EKS.md) 섹션을 참조하세요.   | 
|  `pod_network_tx_bytes`  |  `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName`  |  Pod에서 네트워크를 통해 전송 중인 초당 바이트 수입니다. 공식: `sum(pod_interface_network_tx_bytes)`  `pod_interface_network_tx_bytes`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 [Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드](Container-Insights-reference-performance-entries-EKS.md) 섹션을 참조하세요.   | 
|  `pod_number_of_container_restarts`  |  `PodName`, `Namespace`, `ClusterName`  |  Pod의 컨테이너 재시작 총 횟수입니다.  | 
|  `service_number_of_running_pods`  |  `Service`, `Namespace`, `ClusterName` `ClusterName`  |  클러스터에서 단일 또는 복수의 서비스를 실행하는 Pod의 숫자입니다.  | 

## Kueue 지표
<a name="Container-Insights-metrics-Kueue"></a>

CloudWatch Observability EKS 추가 기능의 `v2.4.0-eksbuild.1` 버전부터는 Container Insights for Amazon EKS는 Amazon EKS 클러스터에서 Kueue 지표를 자동으로 수집합니다. 추가 기능에 대한 자세한 내용은 [Amazon CloudWatch Observability EKS 추가 기능 또는 헬름 차트를 사용하여 CloudWatch 에이전트 설치](install-CloudWatch-Observability-EKS-addon.md) 섹션을 참조하세요.

지표 활성화에 대한 자세한 내용을 보려면 [Kueue 지표 활성화](install-CloudWatch-Observability-EKS-addon.md#enable-Kueue-metrics) 섹션을 참조하여 지표를 활성화합니다.

Kueue 지표 목록은 다음 표에 나와 있습니다. 이러한 지표는 다음 CloudWatch의 `ContainerInsights/Prometheus` 네임스페이스에 게시됩니다. 이러한 지표 중 일부는 다음과 같은 차원을 사용합니다.
+ `ClusterQueue`는 ClusterQueue의 이름입니다.
+ `Status`의 가능한 값은 `active` 및 `inadmissible`입니다.
+ `Reason`의 가능한 값은 `Preempted`, `PodsReadyTimeout`, `AdmissionCheck`, `ClusterQueueStopped`, `InactiveWorkload`입니다.
+ `Flavor`는 참조된 flavor입니다.
+ `Resource`는 `cpu`, `memory`, `gpu` 등과 같은 클러스터 컴퓨터 리소스를 참조합니다.


| 지표 이름 | 측정 기준 | 설명 | 
| --- | --- | --- | 
|  `kueue_pending_workloads` |  `ClusterName`, `ClusterQueue`, `Status` `ClusterName`, `ClusterQueue` `ClusterName`, `Status` `ClusterName`  |  보류 중인 워크로드 수입니다.  | 
|  `kueue_evicted_workloads_total` |  `ClusterName`, `ClusterQueue`, `Reason` `ClusterName`, `ClusterQueue` `ClusterName`, `Reason` `ClusterName`  |  제거된 총 워크로드의 수입니다.  | 
|  `kueue_admitted_active_workloads` |  `ClusterName`, `ClusterQueue` `ClusterName`  |  활성(일시 중지되지 않고 완료되지 않음) 상태인 허용된 워크로드 수입니다.  | 
|  `kueue_cluster_queue_resource_usage` |  `ClusterName`, `ClusterQueue`, `Resource`, `Flavor` `ClusterName`, `ClusterQueue`, `Resource` `ClusterName`, `ClusterQueue`, `Flavor` `ClusterName`, `ClusterQueue` `ClusterName`  |  ClusterQueue의 총 리소스 사용량을 보고합니다.  | 
|  `kueue_cluster_queue_nominal_quota` |  `ClusterName`, `ClusterQueue`, `Resource`, `Flavor` `ClusterName`, `ClusterQueue`, `Resource` `ClusterName`, `ClusterQueue`, `Flavor` `ClusterName`, `ClusterQueue` `ClusterName`  |  ClusterQueue의 리소스 할당량을 보고합니다.  | 