

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Container Insights per Amazon EKS e Kubernetes con metriche di osservabilità migliorata
<a name="Container-Insights-metrics-enhanced-EKS"></a>

Le tabelle seguenti elencano le metriche e le dimensioni raccolte da Container Insights con osservabilità migliorata per Amazon EKS e Kubernetes. Tali metriche si trovano nel namespace `ContainerInsights`. Per ulteriori informazioni, consulta [Metriche](cloudwatch_concepts.md#Metric).

Se nella console non viene visualizzata alcuna metrica di Container Insights con osservabilità migliorata, assicurati di aver completato la configurazione di Container Insights con osservabilità migliorata. Le metriche vengono visualizzate solo dopo aver completato la configurazione di Container Insights con osservabilità migliorata. Per ulteriori informazioni, consulta [Configurazione di Container Insights](deploy-container-insights.md).

Se utilizzi la versione 1.5.0 o successiva del componente aggiuntivo Amazon EKS o la versione 1.300035.0 dell' CloudWatch agente, la maggior parte delle metriche elencate nella tabella seguente viene raccolta per i nodi Linux e Windows. Consulta la colonna **Nome della metrica** nella tabella per vedere quali metriche non vengono raccolte per Windows.

Con la versione precedente di Container Insights, che offre metriche aggregate a livello di cluster e di servizio, le metriche vengono fatturate come metriche personalizzate. Con Approfondimenti sui container con osservabilità migliorata per Amazon EKS, i parametri di Approfondimenti sui container vengono addebitati per osservazione anziché per parametro archiviato o log importato. Per ulteriori informazioni sui CloudWatch prezzi, consulta la pagina [ CloudWatchdei prezzi di Amazon](https://aws.amazon.com/cloudwatch/pricing/). 

**Nota**  
In Windows, le metriche di rete come `pod_network_rx_bytes` e `pod_network_tx_bytes` non vengono raccolte per i container dei processi host.  
Nei cluster RedHat OpenShift on AWS (ROSA), le metriche diskio come `node_diskio_io_serviced_total` e `node_diskio_io_service_bytes_total` non vengono raccolte.


| Nome parametro | Dimensioni | Description | 
| --- | --- | --- | 
|  `cluster_failed_node_count`  |  `ClusterName`  |  Il numero di nodi di lavoro non riusciti nel cluster. Un nodo è considerato non riuscito se risente delle *condizioni del nodo*. Per ulteriori informazioni, consulta [Conditions](https://kubernetes.io/docs/concepts/architecture/nodes/#condition) (Condizioni) nella documentazione Kubernetes.  | 
|  `cluster_node_count`  |  `ClusterName`  |  Il numero totale di nodi di lavoro nel cluster.  | 
|  `namespace_number_of_running_pods`  |  `Namespace` `ClusterName` `ClusterName`  |  Il numero di pod in esecuzione per spazio dei nomi nella risorsa specificata dalle dimensioni in uso.  | 
|  `node_cpu_limit`  |  `ClusterName`  `ClusterName`, `InstanceId`, `NodeName`   |  Il numero massimo di unità di CPU che può essere assegnato a un singolo nodo nel cluster corrente.  | 
|  `node_cpu_reserved_capacity`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  La percentuale di unità CPU riservate per i componenti del nodo, ad esempio kubelet, kube-proxy e Docker. Formula: `node_cpu_request / node_cpu_limit`  `node_cpu_request` non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta [Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `node_cpu_usage_total`  |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`  |  Il numero di unità di CPU in uso sui nodi del cluster.  | 
|  `node_cpu_utilization`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  La percentuale totale delle unità di CPU in uso sui nodi del cluster. Formula: `node_cpu_usage_total / node_cpu_limit`  | 
|  `node_filesystem_utilization`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  La percentuale totale della capacità del file system in uso sui nodi del cluster. Formula: `node_filesystem_usage / node_filesystem_capacity`  `node_filesystem_usage` e `node_filesystem_capacity` non vengono riportati direttamente come parametri, ma sono campi nei log eventi delle prestazioni. Per ulteriori informazioni, consulta [Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `node_memory_limit`  |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  La quantità massima di memoria, espressa in byte, che può essere assegnata a un singolo nodo nel cluster corrente.  | 
|  `node_filesystem_inodes`  Non è disponibile su Windows.  |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Il numero totale di inode (utilizzati e inutilizzati) su un nodo.  | 
|  `node_filesystem_inodes_free` Non è disponibile su Windows.  |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Il numero di inode inutilizzati su un nodo.  | 
|  `node_gpu_limit` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`  |  Il numero totale di GPU disponibili sul nodo.  | 
|  `node_gpu_usage_total` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`  |  Il numero di GPU utilizzate dai pod in esecuzione sul nodo.  | 
|  `node_gpu_reserved_capacity` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`  | 
|  `node_memory_reserved_capacity`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  La percentuale di memoria attualmente utilizzata sui nodi del cluster. Formula: `node_memory_request / node_memory_limit`  `node_memory_request` non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta [Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `node_memory_utilization`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  La percentuale di memoria attualmente utilizzata dal nodo o dai nodi. È la percentuale di utilizzo della memoria del nodo rispetto alla limitazione di memoria del nodo. Formula: `node_memory_working_set / node_memory_limit`.   | 
|  `node_memory_working_set`  |  `ClusterName`  `ClusterName`, `InstanceId`, `NodeName`   |  La quantità di memoria, espressa in byte, in uso nel working set dei nodi del cluster.  | 
|  `node_network_total_bytes`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  Il numero totale di byte al secondo trasmessi e ricevuti tramite la rete per nodo in un cluster. Formula: `node_network_rx_bytes + node_network_tx_bytes`  `node_network_rx_bytes` e `node_network_tx_bytes` non vengono riportati direttamente come parametri, ma sono campi nei log eventi delle prestazioni. Per ulteriori informazioni, consulta [Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `node_number_of_running_containers`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  Il numero di container in esecuzione per nodo in un cluster.  | 
|  `node_number_of_running_pods`  |  `NodeName`, `ClusterName`, `InstanceId` `ClusterName`  |  Il numero di pod in esecuzione per nodo in un cluster.  | 
|  `node_status_allocatable_pods`   |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Il numero di pod che è possibile assegnare a un nodo in base alle relative risorse allocabili, definito come la parte restante della capacità di un nodo dopo aver tenuto conto delle prenotazioni dei daemon di sistema e delle soglie di espulsione forzata.  | 
|  `node_status_capacity_pods`  |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Il numero di pod che possono essere assegnati a un nodo in base alla sua capacità.  | 
|  `node_status_condition_ready`   |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Indica se la condizione dello stato del nodo `Ready` è true per i nodi Amazon EC2.  | 
|  `node_status_condition_memory_pressure`   |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Indica se la condizione dello stato del nodo `MemoryPressure` è vera.  | 
|  `node_status_condition_pid_pressure`   |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Indica se la condizione dello stato del nodo `PIDPressure` è vera.  | 
|  `node_status_condition_disk_pressure`   |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Indica se la condizione dello stato del nodo `OutOfDisk` è vera.  | 
|  `node_status_condition_unknown`   |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Indica se una qualsiasi delle condizioni di stato del nodo è sconosciuta.  | 
|  `node_interface_network_rx_dropped`  |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Il numero di pacchetti ricevuti e successivamente annullati da questa interfaccia di rete sul nodo.  | 
|  `node_interface_network_tx_dropped`  |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Il numero di pacchetti che dovevano essere trasmessi ma che sono stati annullati da un'interfaccia di rete sul nodo.  | 
|  `node_diskio_io_service_bytes_total`  Non è disponibile su Windows o sui cluster ROSA.  |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Il numero totale di byte trasferiti da tutte le I/O operazioni sul nodo.  | 
|  `node_diskio_io_serviced_total` Non è disponibile su Windows o sui cluster ROSA.  |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`   |  Il numero totale di I/O operazioni sul nodo.  | 
|  `pod_cpu_reserved_capacity`  |  `PodName`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  `ClusterName`, `Namespace`, `Service`   |  La capacità della CPU riservata per pod in un cluster. Formula: `pod_cpu_request / node_cpu_limit`  `pod_cpu_request` non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta [Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `pod_cpu_utilization`  |  `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`   |  La percentuale di unità CPU utilizzate dai pod. Formula: `pod_cpu_usage_total / node_cpu_limit`  | 
|  `pod_cpu_utilization_over_pod_limit`  |  `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`   |  La percentuale di unità CPU utilizzata dai pod relativa al limite di pod. Formula: `pod_cpu_usage_total / pod_cpu_limit`  | 
|  `pod_memory_reserved_capacity`  |  `PodName`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  `ClusterName`, `Namespace`, `Service`   |  La percentuale di memoria riservata per i pod. Formula: `pod_memory_request / node_memory_limit`  `pod_memory_request` non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta [Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `pod_memory_utilization`  |  `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`   |  La percentuale di memoria attualmente utilizzata dal pod o dai pod. Formula: `pod_memory_working_set / node_memory_limit`  | 
|  `pod_memory_utilization_over_pod_limit`  |  `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`   |  La percentuale di memoria utilizzata dai pod relativa al limite di pod. Se uno qualsiasi dei container nel pod non ha un limite di memoria definito, questo parametro non viene visualizzato. Formula: `pod_memory_working_set / pod_memory_limit`  | 
|  `pod_network_rx_bytes`  |  `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`   |  Il numero di byte al secondo ricevuti sulla rete dal pod. Formula: `sum(pod_interface_network_rx_bytes)`  `pod_interface_network_rx_bytes` non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta [Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `pod_network_tx_bytes`  |  `PodName`, `Namespace`, `ClusterName` `Namespace,` `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`   |  Il numero di byte al secondo trasmessi sulla rete dal pod. Formula: `sum(pod_interface_network_tx_bytes)`  `pod_interface_network_tx_bytes` non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta [Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `pod_cpu_request`   |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Le richieste della CPU per il pod. Formula: `sum(container_cpu_request)`  `pod_cpu_request` non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta [Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `pod_memory_request`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Le richieste di memoria per il pod. Formula: `sum(container_memory_request)`  `pod_memory_request` non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta [Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `pod_cpu_limit`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Il limite di CPU definito per i container nel pod. Se uno qualsiasi dei container nel pod non ha un limite di CPU definito, questo parametro non viene visualizzato.  Formula: `sum(container_cpu_limit)`  `pod_cpu_limit` non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta [Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `pod_memory_limit`   |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Il limite di memoria definito per i container nel pod. Se uno qualsiasi dei container nel pod non ha un limite di memoria definito, questo parametro non viene visualizzato.  Formula: `sum(container_memory_limit)`  `pod_cpu_limit` non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta [Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `pod_status_failed`   |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Indica che tutti i container nel pod sono terminati e che almeno un container è terminato con uno stato diverso da zero o è stato terminato dal sistema.   | 
|  `pod_status_ready`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Indica che tutti i container nel pod sono pronti, dopo aver raggiunto la condizione `ContainerReady`.   | 
|  `pod_status_running`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Indica che tutti i container nel pod sono in esecuzione.   | 
|  `pod_status_scheduled`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Indica che il pod è stato pianificato su un nodo.   | 
|  `pod_status_unknown`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Indica che lo stato del pod non può essere ottenuto.   | 
|  `pod_status_pending`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Indica che il pod è stato accettato dal cluster ma uno o più container non sono ancora pronti.   | 
|  `pod_status_succeeded`   |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Indica che tutti i container nel pod sono stati terminati correttamente e non verranno riavviati.   | 
|  `pod_number_of_containers`   |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Riporta il numero di container definito nella specifica del pod.   | 
|  `pod_number_of_running_containers`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Riporta il numero di container nel pod che si trovano attualmente nello stato `Running`.   | 
|  `pod_container_status_terminated`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Riporta il numero di container nel pod che si trovano nello stato `Terminated`.   | 
|  `pod_container_status_running`   |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Riporta il numero di container nel pod che si trovano nello stato `Running`.   | 
|  `pod_container_status_waiting`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Riporta il numero di container nel pod che si trovano nello stato `Waiting`.   | 
|  `pod_container_status_waiting_reason_crash_loop_back_off`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Riporta il numero di container nel pod che si trovano in sospeso a causa di un errore `CrashLoopBackOff`, nel caso in cui un container non si avvia ripetutamente.  | 
|  `pod_container_status_waiting_reason_create_container_config_error`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Riporta il numero di container nel pod che si trovano in sospeso con il motivo `CreateContainerConfigError`. Ciò è dovuto a un errore durante la creazione della configurazione del container.  | 
|  `pod_container_status_waiting_reason_create_container_error`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Riporta il numero di container nel pod che si trovano in sospeso con il motivo `CreateContainerError` a causa di un errore durante la creazione del container.  | 
|  `pod_container_status_waiting_reason_image_pull_error`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Riporta il numero di container nel pod che si trovano in sospeso a causa di `ErrImagePull`, `ImagePullBackOff` o `InvalidImageName`. Queste situazioni sono dovute a un errore durante l'estrazione dell'immagine del container.  | 
|  `pod_container_status_waiting_reason_start_error`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Riporta il numero di container nel pod che si trovano in sospeso con il motivo `StartError` a causa di un errore durante l'avvio del container.  | 
|  `pod_container_status_terminated_reason_oom_killed`   |  `ContainerName`, `FullPodName`, `PodName`, `Namespace`, `ClusterName` `ContainerName`, `PodName`, `Namespace`, `ClusterName` `ClusterName`  |  Indica che un pod è stato terminato per il superamento del limite di memoria. Questa metrica viene visualizzata solo quando si verifica questo problema.  | 
|  `pod_interface_network_rx_dropped`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Il numero di pacchetti ricevuti e successivamente annullati da un'interfaccia di rete per il pod.   | 
|  `pod_interface_network_tx_dropped`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  |  Il numero di pacchetti che dovevano essere trasmessi ma che sono stati annullati per il pod.   | 
| `pod_memory_working_set` |  `ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  | La memoria in byte attualmente utilizzata da un pod. | 
| `pod_cpu_usage_total` |  `ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`  | Il numero di unità CPU utilizzate da un pod. | 
|  `container_cpu_utilization`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`  |  La percentuale di unità CPU utilizzate dal container. Formula: `container_cpu_usage_total / node_cpu_limit`  `container_cpu_utilization` non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta [Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `container_cpu_utilization_over_container_limit`   |  `ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`  |  La percentuale di unità CPU utilizzate dal container in rapporto al limite del container. Se il container non ha un limite di CPU definito, questo parametro non viene visualizzato. Formula: `container_cpu_usage_total / container_cpu_limit`  `container_cpu_utilization_over_container_limit` non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta [Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `container_memory_utilization`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`  |  La percentuale di unità di memoria utilizzate dal container. Formula: `container_memory_working_set / node_memory_limit`  `container_memory_utilization` non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta [Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `container_memory_utilization_over_container_limit`    |  `ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`  |  La percentuale di unità di memoria utilizzate dal container in rapporto al limite del container. Se il container non ha un limite di memoria definito, questo parametro non viene visualizzato. Formula: `container_memory_working_set / container_memory_limit`  `container_memory_utilization_over_container_limit` non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta [Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes](Container-Insights-reference-performance-entries-EKS.md).    | 
|  `container_memory_failures_total`  Non è disponibile su Windows.  |  `ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`  |  Il numero di errori di allocazione della memoria riscontrati dal container.  | 
|  `pod_number_of_container_restarts`  |  PodName, `Namespace`, `ClusterName`  |  Il numero totale di riavvii del container in un pod.  | 
|  `service_number_of_running_pods`  |  Service, `Namespace`, `ClusterName` `ClusterName`  |  Il numero di pod che eseguono il servizio o i servizi nel cluster.  | 
|  `replicas_desired`   |  `ClusterName` `PodName`, `Namespace`, `ClusterName`  |  Il numero di pod desiderato per un carico di lavoro come definito nella specifica del carico di lavoro.  | 
|  `replicas_ready`   |  `ClusterName` `PodName`, `Namespace`, `ClusterName`  |  Il numero di pod per un carico di lavoro che hanno raggiunto lo stato pronto.  | 
|  `status_replicas_available`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName`  |  Il numero di pod disponibili per un carico di lavoro. Un pod è disponibile quando è pronto per il tempo `minReadySeconds` definito nella specifica del carico di lavoro.  | 
|  `status_replicas_unavailable`  |  `ClusterName` `PodName`, `Namespace`, `ClusterName`  |  Il numero di pod non disponibili per un carico di lavoro. Un pod è disponibile quando è pronto per il tempo `minReadySeconds` definito nella specifica del carico di lavoro. I pod non sono disponibili se non soddisfano questo criterio.  | 
|  `apiserver_storage_objects`  |  `ClusterName` `ClusterName`, `resource`  |  Il numero di oggetti memorizzati in etcd al momento dell'ultimo controllo.  | 
|  `apiserver_storage_db_total_size_in_bytes`  |  `ClusterName` `ClusterName`, `endpoint`  |  Dimensione totale del file del database di archiviazione allocato fisicamente, espressa in byte. Questa metrica è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes. Unità: byte Statistiche significative: somma, media, minimo, massimo  | 
|  `apiserver_request_total`  |  `ClusterName` `ClusterName`, `code`, `verb`  |  Il numero totale di richieste API al server API Kubernetes.  | 
|  `apiserver_request_duration_seconds`  |  `ClusterName` `ClusterName`, `verb`  |  Latenza di risposta per le richieste API al server API Kubernetes.  | 
|  `apiserver_admission_controller_admission_duration_seconds`  |  `ClusterName` `ClusterName`, `operation`  |  Latenza del controller di ammissione in secondi. Un controller di ammissione è un codice che intercetta le richieste al server API Kubernetes.  | 
|  `rest_client_request_duration_seconds`   |  `ClusterName` `ClusterName`, `operation`  |  Latenza di risposta riscontrata dai client che chiamano il server API Kubernetes. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes.  | 
|  `rest_client_requests_total`   |  `ClusterName` `ClusterName`, `code`, `method`  |  Il numero totale di richieste API al server API Kubernetes effettuate dai client. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes.  | 
|  `etcd_request_duration_seconds`   |  `ClusterName` `ClusterName`, `operation`  |  Latenza di risposta delle chiamate API a Etcd. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes.  | 
|  `apiserver_storage_size_bytes`   |  `ClusterName` `ClusterName`, `endpoint`  |  Dimensione del file del database di archiviazione allocato fisicamente, espressa in byte. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes.  | 
|  `apiserver_longrunning_requests`  |  `ClusterName` `ClusterName`, `resource`  |  Il numero di richieste attive di lunga durata al server API Kubernetes.  | 
|  `apiserver_current_inflight_requests`  |  `ClusterName` `ClusterName`, `request_kind`  |  Il numero di richieste che il server API Kubernetes sta elaborando.  | 
|  `apiserver_admission_webhook_admission_duration_seconds`  |  `ClusterName` `ClusterName`, `name`  |  Latenza del webhook di ammissione in secondi. I webhook di ammissione sono callback HTTP che ricevono le richieste di ammissione e le utilizzano a uno scopo.  | 
|  `apiserver_admission_step_admission_duration_seconds`   |  `ClusterName` `ClusterName`, `operation`  |  Latenza delle fasi secondarie di ammissione in secondi.  | 
|  `apiserver_requested_deprecated_apis`   |  `ClusterName` `ClusterName`, `group`  |  Numero di richieste da dichiarare obsolete APIs sul server API Kubernetes.  | 
|  `apiserver_request_total_5xx`  |  `ClusterName` `ClusterName`, `code`, `verb`  |  Il numero di richieste al server API Kubernetes a cui è stata data risposta con un codice di risposta HTTP 5XX.  | 
|  `apiserver_storage_list_duration_seconds`   |  `ClusterName` `ClusterName`, `resource`  |  Latenza di risposta dell'elencazione degli oggetti da Etc. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes.  | 
|  `apiserver_flowcontrol_request_concurrency_limit`   |  `ClusterName` `ClusterName`, `priority_level`  |  Il numero di thread utilizzati dalle richieste attualmente in esecuzione nel sottosistema API Priority and Fairness.  | 
|  `apiserver_flowcontrol_rejected_requests_total`   |  `ClusterName` `ClusterName`, `reason`  |  Il numero di richieste rifiutate dal sottosistema API Priority and Fairness. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes.  | 
|  `apiserver_current_inqueue_requests`   |  `ClusterName` `ClusterName`, `request_kind`  |  Il numero di richieste in coda messe in coda dal server API Kubernetes. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes.  | 

## Metriche della GPU NVIDIA
<a name="Container-Insights-metrics-EKS-GPU"></a>

A partire dalla versione `1.300034.0` dell' CloudWatch agente, Container Insights con osservabilità migliorata per Amazon EKS raccoglie per impostazione predefinita le metriche delle GPU NVIDIA dai carichi di lavoro EKS. L' CloudWatch agente deve essere installato utilizzando la versione aggiuntiva CloudWatch Observability EKS o successiva. `v1.3.0-eksbuild.1` Per ulteriori informazioni, consulta [Installa l' CloudWatch agente con il componente aggiuntivo Amazon CloudWatch Observability EKS o il grafico Helm](install-CloudWatch-Observability-EKS-addon.md). Le metriche della GPU NVIDIA raccolte vengono elencate nella tabella in questa sezione. 

Affinché Container Insights raccolga le metriche della GPU NVIDIA, è necessario soddisfare i seguenti prerequisiti:
+ Devi utilizzare Container Insights con osservabilità migliorata per Amazon EKS, con la versione `v1.3.0-eksbuild.1` aggiuntiva Amazon CloudWatch Observability EKS o successiva.
+ [Il plug-in del dispositivo NVIDIA per Kubernetes](https://github.com/NVIDIA/k8s-device-plugin) deve essere installato nel cluster.
+ [Il kit di strumenti per container NVIDIA](https://github.com/NVIDIA/nvidia-container-toolkit) deve essere installato sui nodi del cluster. Ad esempio, gli Amazon EKS optimized accelerated AMIs sono costruiti con i componenti necessari.

Puoi scegliere di non raccogliere i parametri della GPU NVIDIA impostando l'`accelerated_compute_metrics`opzione nel file di configurazione dell'agente beginn su. CloudWatch `false` Per ulteriori informazioni e un esempio di configurazione di disattivazione (opt-out), consulta [(Facoltativo) Configurazione aggiuntiva](install-CloudWatch-Observability-EKS-addon.md#install-CloudWatch-Observability-EKS-addon-configuration).


| Nome parametro | Dimensioni | Description | 
| --- | --- | --- | 
|  `container_gpu_memory_total` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`  |  La dimensione totale del frame buffer, in byte, sulle GPU allocate al container.  | 
|  `container_gpu_memory_used` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`  |  I byte del frame buffer utilizzati sulle GPU allocate al container.  | 
|  `container_gpu_memory_utilization` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`  |  La percentuale di frame buffer utilizzata delle GPU allocate al container.  | 
|  `container_gpu_power_draw` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`  |  Il consumo energetico espresso in watt delle GPU allocate al container.  | 
|  `container_gpu_temperature` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`  |  La temperatura in gradi Celsius delle GPU allocate al container.  | 
|  `container_gpu_utilization` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`  |  La percentuale di utilizzo delle GPU allocate al container.  | 
|  `container_gpu_tensor_core_utilization` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`  |  La percentuale di utilizzo dei core tensoriali sulle GPU allocate al contenitore.  | 
|  `node_gpu_memory_total` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`  |  La dimensione totale del frame buffer, in byte, sulle GPU allocate al nodo.  | 
|  `node_gpu_memory_used` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`  |  I byte del frame buffer utilizzati sulle GPU allocate al nodo.  | 
|  `node_gpu_memory_utilization` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`  |  La percentuale del frame buffer utilizzata sulle GPU allocate al nodo.  | 
|  `node_gpu_power_draw` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`  |  Il consumo energetico espresso in watt delle GPU allocate al nodo.  | 
|  `node_gpu_temperature` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`  |  La temperatura in gradi Celsius delle GPU allocate al nodo.  | 
|  `node_gpu_utilization` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`  |  La percentuale di utilizzo delle GPU allocate al nodo.  | 
|  `node_gpu_tensor_core_utilization` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`  |  La percentuale di utilizzo dei core tensoriali sulle GPU allocate al nodo.  | 
|  `pod_gpu_memory_total` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`  |  La dimensione totale del frame buffer, in byte, sulle GPU allocate al pod.  | 
|  `pod_gpu_memory_used` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`  |  I byte del frame buffer utilizzati sulle GPU allocate al pod.  | 
|  `pod_gpu_memory_utilization` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`  |  La percentuale di frame buffer utilizzata delle GPU allocate al pod.  | 
|  `pod_gpu_power_draw` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`  |  Il consumo energetico espresso in watt delle GPU allocate al pod.  | 
|  `pod_gpu_temperature` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`  |  La temperatura in gradi Celsius delle GPU allocate al pod.  | 
|  `pod_gpu_utilization` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`  |  La percentuale di utilizzo delle GPU allocate al pod.  | 
|  `pod_gpu_tensor_core_utilization` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`  |  La percentuale di utilizzo dei core tensoriali sulle GPU allocate al pod.  | 

### Monitoraggio dettagliato della GPU
<a name="Container-Insights-detailed-GPU-monitoring"></a>

A partire dalla versione `1.300062.0` dell' CloudWatch agente, Container Insights con osservabilità migliorata per Amazon EKS supporta il monitoraggio dettagliato della GPU con intervalli di raccolta inferiori al minuto. Ciò colma le lacune di monitoraggio per i carichi di lavoro di inferenza di apprendimento automatico di breve durata che potrebbero essere completamente ignorate dagli intervalli di raccolta standard. L' CloudWatch agente deve essere installato utilizzando la versione aggiuntiva CloudWatch Observability EKS o successiva. `v4.7.0-eksbuild.1` Per ulteriori informazioni, consulta [Installa l' CloudWatch agente con il componente aggiuntivo Amazon CloudWatch Observability EKS o il grafico Helm](install-CloudWatch-Observability-EKS-addon.md).

Per impostazione predefinita, le metriche della GPU vengono raccolte e inserite a intervalli di 60 secondi. Con il monitoraggio dettagliato abilitato, l' CloudWatch agente raccoglie le metriche della GPU a intervalli inferiori al minuto (minimo 1 secondo), ma le metriche vengono comunque inserite a intervalli di 1 minuto. CloudWatch Tuttavia, puoi interrogare le aggregazioni statistiche (come minimo, massimo e percentili come p90) dei punti dati inferiori al minuto entro ogni periodo di 1 minuto, fornendo dati accurati sull'utilizzo della GPU e una migliore ottimizzazione delle risorse.

#### Configurazione
<a name="Container-Insights-detailed-GPU-monitoring-configuration"></a>

Per abilitare il monitoraggio dettagliato della GPU, aggiorna la configurazione CloudWatch dell'agente per includere il parametro nella sezione, come nell'`accelerated_compute_gpu_metrics_collection_interval`esempio seguente. `kubernetes`

```
{  
    "logs": {  
        "metrics_collected": {  
            "kubernetes": {  
                "cluster_name": "MyCluster",  
                "enhanced_container_insights": true,  
                "accelerated_compute_metrics": true,  
                "accelerated_compute_gpu_metrics_collection_interval": 1  
            }  
        }  
    }  
}
```

Il `accelerated_compute_gpu_metrics_collection_interval` parametro accetta valori in secondi, con un valore minimo di 1 secondo. Impostandolo per `1` abilitare intervalli di raccolta di 1 secondo. Se questo parametro non è specificato, viene utilizzato l'intervallo predefinito di 60 secondi.

Per istruzioni complete sulla configurazione, vedere. [Configurazione dell' CloudWatch agente per raccogliere le metriche del cluster](Container-Insights-setup-metrics.md)

## AWS Metriche neuronali per AWS Trainium e Inferentia AWS
<a name="Container-Insights-metrics-EKS-Neuron"></a>

A partire dalla versione `1.300036.0` dell' CloudWatch agente, Container Insights con osservabilità migliorata per Amazon EKS raccoglie per impostazione predefinita i parametri di elaborazione accelerata dagli AWS acceleratori Trainium e AWS Inferentia. L' CloudWatch agente deve essere installato utilizzando la versione aggiuntiva Observability EKS o successiva. CloudWatch `v1.5.0-eksbuild.1` Per ulteriori informazioni sul componente aggiuntivo, consulta [Installa l' CloudWatch agente con il componente aggiuntivo Amazon CloudWatch Observability EKS o il grafico Helm](install-CloudWatch-Observability-EKS-addon.md). Per ulteriori informazioni su AWS Trainium, consulta [AWS Trainium](https://aws.amazon.com/machine-learning/trainium/). [Per ulteriori informazioni su AWS Inferentia, vedere Inferentia.AWS](https://aws.amazon.com/machine-learning/inferentia/)

Affinché Container Insights raccolga le metriche di AWS Neuron, è necessario soddisfare i seguenti prerequisiti:
+ Devi utilizzare Container Insights con osservabilità migliorata per Amazon EKS, con la versione `v1.5.0-eksbuild.1` aggiuntiva Amazon CloudWatch Observability EKS o successiva.
+ Il [driver Neuron](https://awsdocs-neuron.readthedocs-hosted.com/en/latest/general/setup/neuron-setup/pytorch/neuronx/ubuntu/torch-neuronx-ubuntu22.html#setup-torch-neuronx-ubuntu22) deve essere installato sui nodi del cluster.
+ Il [plug-in del dispositivo Neuron](https://awsdocs-neuron.readthedocs-hosted.com/en/latest/containers/kubernetes-getting-started.html) deve essere installato sul cluster. Ad esempio, gli Amazon EKS optimized accelerated AMIs sono costruiti con i componenti necessari.

Le metriche raccolte vengono elencate nella tabella in questa sezione. Le metriche vengono raccolte per AWS Trainium, AWS Inferentia e Inferentia2. AWS 

L' CloudWatch agente raccoglie queste metriche dal [monitor Neuron](https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html) ed esegue la necessaria correlazione delle risorse Kubernetes per fornire le metriche a livello di pod e container


| Nome parametro | Dimensioni | Description | 
| --- | --- | --- | 
|  `container_neuroncore_utilization` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`  |  NeuronCore utilizzo, durante il periodo di acquisizione, del materiale allocato al contenitore. NeuronCore Unità: percentuale  | 
|  `container_neuroncore_memory_usage_constants` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`  |  La quantità di memoria del dispositivo utilizzata per le costanti durante l'addestramento da parte del NeuronCore che viene allocata al contenitore (o i pesi durante l'inferenza). Unità: byte  | 
|  `container_neuroncore_memory_usage_model_code` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`  |  La quantità di memoria del dispositivo utilizzata per il codice eseguibile dei modelli da NeuronCore che viene allocata al contenitore. Unità: byte  | 
|  `container_neuroncore_memory_usage_model_shared_scratchpad` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`  |  La quantità di memoria del dispositivo utilizzata per lo scratchpad condiviso dai modelli dal NeuronCore che viene allocata al contenitore. Questa regione di memoria è riservata ai modelli. Unità: byte  | 
|  `container_neuroncore_memory_usage_runtime_memory` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`  |  La quantità di memoria del dispositivo utilizzata per il runtime Neuron da quella NeuronCore allocata al contenitore. Unità: byte  | 
|  `container_neuroncore_memory_usage_tensors` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`  |  La quantità di memoria del dispositivo utilizzata per i tensori da quella NeuronCore allocata al contenitore. Unità: byte  | 
|  `container_neuroncore_memory_usage_total` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`  |  La quantità totale di memoria utilizzata dall' NeuronCore allocato al contenitore. Unità: byte  | 
|  `container_neurondevice_hw_ecc_events_total` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`  |  Il numero di eventi ECC corretti e non corretti nella SRAM su chip e nella memoria del dispositivo per il dispositivo Neuron presente sul nodo. Unità: numero  | 
|  `pod_neuroncore_utilization` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`  |  L' NeuronCore utilizzo durante il periodo di acquisizione dell' NeuronCoreallocazione al pod. Unità: percentuale  | 
|  `pod_neuroncore_memory_usage_constants` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`  |  La quantità di memoria del dispositivo utilizzata per le costanti durante l'addestramento da the NeuronCore che viene allocata al pod (o i pesi durante l'inferenza). Unità: byte  | 
|  `pod_neuroncore_memory_usage_model_code` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`  |  La quantità di memoria del dispositivo utilizzata per il codice eseguibile dei modelli da NeuronCore che viene allocata al pod. Unità: byte  | 
|  `pod_neuroncore_memory_usage_model_shared_scratchpad` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`  |  La quantità di memoria del dispositivo utilizzata per lo scratchpad condiviso dai modelli dal NeuronCore che viene allocata al pod. Questa regione di memoria è riservata ai modelli. Unità: byte  | 
|  `pod_neuroncore_memory_usage_runtime_memory` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`  |  La quantità di memoria del dispositivo utilizzata per il runtime di Neuron dall'area NeuronCore allocata al pod. Unità: byte  | 
|  `pod_neuroncore_memory_usage_tensors` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`  |  La quantità di memoria del dispositivo utilizzata per i tensori da quella NeuronCore allocata al pod. Unità: byte  | 
|  `pod_neuroncore_memory_usage_total` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`  |  La quantità totale di memoria utilizzata dal file NeuronCore allocato al pod. Unità: byte  | 
|  `pod_neurondevice_hw_ecc_events_total` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`  |  Il numero di eventi ECC corretti e non corretti nella SRAM su chip e nella memoria del dispositivo per il dispositivo Neuron allocato a un pod. Unità: byte  | 
|  `node_neuroncore_utilization` |  `ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`  |  L' NeuronCore utilizzo durante il periodo di acquisizione dell' NeuronCoreallocazione al nodo. Unità: percentuale  | 
|  `node_neuroncore_memory_usage_constants` |  `ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`  |  La quantità di memoria del dispositivo utilizzata per le costanti durante l'addestramento da the NeuronCore che viene allocata al nodo (o i pesi durante l'inferenza). Unità: byte  | 
|  `node_neuroncore_memory_usage_model_code` |  `ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`  |  La quantità di memoria del dispositivo utilizzata per il codice eseguibile dei modelli da NeuronCore che viene allocata al nodo. Unità: byte  | 
|  `node_neuroncore_memory_usage_model_shared_scratchpad` |  `ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`  |  La quantità di memoria del dispositivo utilizzata per lo scratchpad condiviso dai modelli dal NeuronCore che viene allocata al nodo. Questa è una regione di memoria riservata ai modelli. Unità: byte  | 
|  `node_neuroncore_memory_usage_runtime_memory` |  `ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`  |  La quantità di memoria del dispositivo utilizzata per il runtime di Neuron da NeuronCore that viene allocata al nodo. Unità: byte  | 
|  `node_neuroncore_memory_usage_tensors` |  `ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`  |  La quantità di memoria del dispositivo utilizzata per i tensori da NeuronCore that viene allocata al nodo. Unità: byte  | 
|  `node_neuroncore_memory_usage_total` |  `ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`  |  La quantità totale di memoria utilizzata da NeuronCore that viene allocata al nodo. Unità: byte  | 
|  `node_neuron_execution_errors_total` |  `ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName`  |  Il numero totale di errori di esecuzione sul nodo. Viene calcolata dall' CloudWatch agente aggregando gli errori dei seguenti tipi:`generic`,,`numerical`, `transient``model`, e `runtime` `hardware` Unità: numero  | 
|  `node_neurondevice_runtime_memory_used_bytes` |  `ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName`  |  L'utilizzo totale della memoria del dispositivo Neuron in byte sul nodo. Unità: byte  | 
| `node_neuron_execution_latency` |  `ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName`  |  La latenza, espressa in secondi, per un'esecuzione sul nodo misurata dal runtime di Neuron. Unità: secondi  | 
| `node_neurondevice_hw_ecc_events_total` |  `ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `NodeName`, `NeuronDevice`  |  Il numero di eventi ECC corretti e non corretti nella SRAM su chip e nella memoria del dispositivo per il dispositivo Neuron presente sul nodo. Unità: numero  | 

## AWS Metriche Elastic Fabric Adapter (EFA)
<a name="Container-Insights-metrics-EFA"></a>

A partire dalla versione `1.300037.0` dell' CloudWatch agente, Container Insights con osservabilità migliorata per Amazon EKS raccoglie i parametri AWS Elastic Fabric Adapter (EFA) dai cluster Amazon EKS su istanze Linux. L' CloudWatch agente deve essere installato utilizzando la versione aggiuntiva CloudWatch Observability EKS o successiva. `v1.5.2-eksbuild.1` Per ulteriori informazioni sul componente aggiuntivo, consulta [Installa l' CloudWatch agente con il componente aggiuntivo Amazon CloudWatch Observability EKS o il grafico Helm](install-CloudWatch-Observability-EKS-addon.md). Per ulteriori informazioni su AWS Elastic Fabric Adapter, consulta [Elastic Fabric Adapter](https://aws.amazon.com/hpc/efa/).

Affinché Container Insights raccolga le metriche dell'adattatore AWS Elastic Fabric, devi soddisfare i seguenti prerequisiti:
+ Devi utilizzare Container Insights con osservabilità migliorata per Amazon EKS, con la versione `v1.5.2-eksbuild.1` aggiuntiva Amazon CloudWatch Observability EKS o successiva.
+ Il plug-in del dispositivo EFA deve essere installato sul cluster. [Per ulteriori informazioni, consulta aws-efa-k 8 su. s-device-plugin](https://github.com/aws/eks-charts/tree/master/stable/aws-efa-k8s-device-plugin) GitHub

Le metriche raccolte sono elencate nella tabella seguente. 


| Nome parametro | Dimensioni | Description | 
| --- | --- | --- | 
|  `container_efa_rx_bytes` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`   |  Il numero di byte al secondo ricevuti dai dispositivi EFA allocati al container. Unità: byte/secondo  | 
|  `container_efa_tx_bytes` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`   |  Il numero di byte al secondo trasmessi dai dispositivi EFA allocati al container. Unità: byte/secondo  | 
|  `container_efa_rx_dropped` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`   |  Il numero di pacchetti ricevuti e poi persi dai dispositivi EFA allocati al container. Unità: numero al secondo  | 
|  `container_efa_rdma_read_bytes` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`   |  Il numero di byte al secondo ricevuti utilizzando le operazioni di lettura con accesso diretto alla memoria remota dai dispositivi EFA allocati al container. Unità: byte/secondo  | 
|  `container_efa_rdma_write_bytes` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`   |  Il numero di byte al secondo trasmessi utilizzando le operazioni di lettura con accesso diretto alla memoria remota dai dispositivi EFA allocati al container. Unità: byte/secondo  | 
|  `container_efa_rdma_write_recv_bytes` |  `ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`   |  Il numero di byte al secondo ricevuti durante le operazioni di scrittura con accesso diretto alla memoria remota dai dispositivi EFA allocati al container. Unità: byte/secondo  | 
|  `pod_efa_rx_bytes` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`  |  Il numero di byte al secondo ricevuti dai dispositivi EFA allocati al pod. Unità: byte/secondo  | 
|  `pod_efa_tx_bytes` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`  |  Il numero di byte al secondo trasmessi dai dispositivi EFA allocati al pod. Unità: byte/secondo  | 
|  `pod_efa_rx_dropped` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`  |  Il numero di pacchetti ricevuti e poi persi dai dispositivi EFA allocati al pod. Unità: numero al secondo  | 
|  `pod_efa_rdma_read_bytes` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`  |  Il numero di byte al secondo ricevuti utilizzando le operazioni di lettura con accesso diretto alla memoria remota dai dispositivi EFA allocati al pod. Unità: byte/secondo  | 
|  `pod_efa_rdma_write_bytes` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`  |  Il numero di byte al secondo trasmessi utilizzando le operazioni di lettura con accesso diretto alla memoria remota dai dispositivi EFA allocati al pod. Unità: byte/secondo  | 
|  `pod_efa_rdma_write_recv_bytes` |  `ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`  |  Il numero di byte al secondo ricevuti durante le operazioni di scrittura con accesso diretto alla memoria remota dai dispositivi EFA allocati al pod. Unità: byte/secondo  | 
|  `node_efa_rx_bytes` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`  |  Il numero di byte al secondo ricevuti dai dispositivi EFA allocati al nodo. Unità: byte/secondo  | 
|  `node_efa_tx_bytes` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`  |  Il numero di byte al secondo trasmessi dai dispositivi EFA allocati al nodo. Unità: byte/secondo  | 
|  `node_efa_rx_dropped` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`  |  Il numero di pacchetti ricevuti e poi persi dai dispositivi EFA allocati al nodo. Unità: numero al secondo  | 
|  `node_efa_rdma_read_bytes` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`  |  Il numero di byte al secondo ricevuti utilizzando le operazioni di lettura con accesso diretto alla memoria remota dai dispositivi EFA allocati al nodo. Unità: byte/secondo  | 
|  `node_efa_rdma_write_bytes` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`  |  Il numero di byte al secondo trasmessi utilizzando le operazioni di lettura con accesso diretto alla memoria remota dai dispositivi EFA allocati al pod. Unità: byte/secondo  | 
|  `node_efa_rdma_write_recv_bytes` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`  |  Il numero di byte al secondo ricevuti durante le operazioni di scrittura con accesso diretto alla memoria remota dai dispositivi EFA allocati al nodo. Unità: byte/secondo  | 

## Amazon SageMaker AI HyperPod metriche
<a name="Container-Insights-metrics-Sagemaker-HyperPod"></a>

A partire dalla versione `v2.0.1-eksbuild.1` del componente aggiuntivo CloudWatch Observability EKS, Container Insights con osservabilità migliorata per Amazon EKS raccoglie automaticamente le metriche Amazon SageMaker AI HyperPod dai cluster Amazon EKS. Per ulteriori informazioni sul componente aggiuntivo, consulta [Installa l' CloudWatch agente con il componente aggiuntivo Amazon CloudWatch Observability EKS o il grafico Helm](install-CloudWatch-Observability-EKS-addon.md). Per ulteriori informazioni su, consulta. Amazon SageMaker AI HyperPod [Amazon SageMaker AI HyperPod](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks.html)

Le metriche raccolte sono elencate nella tabella seguente. 


| Nome parametro | Dimensioni | Description | 
| --- | --- | --- | 
|  `hyperpod_node_health_status_unschedulable` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`  |  Indica se un nodo è etichettato come `Unschedulable` da Amazon SageMaker AI HyperPod. Ciò significa che il nodo sta eseguendo controlli dell'integrità approfonditi e non è disponibile per l'esecuzione di carichi di lavoro. Unità: numero  | 
|  `hyperpod_node_health_status_schedulable` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`  |  Indica se un nodo è etichettato come da`Schedulable`. Amazon SageMaker AI HyperPod Ciò significa che il nodo ha superato i controlli dell'integrità di base o approfonditi ed è disponibile per l'esecuzione di carichi di lavoro. Unità: numero  | 
|  `hyperpod_node_health_status_unschedulable_pending_replacement` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`  |  Indica se un nodo è etichettato come da`UnschedulablePendingReplacement`. HyperPod Ciò significa che il nodo non ha superato i controlli dell'integrità approfonditi o i controlli degli agenti di monitoraggio dell'integrità e deve essere sostituito. Se il ripristino automatico del nodo è abilitato, il nodo verrà automaticamente sostituito da Amazon SageMaker AI HyperPod. Unità: numero  | 
|  `hyperpod_node_health_status_unschedulable_pending_reboot` |  `ClusterName` `ClusterName`, `InstanceId`, `NodeName`  |  Indica se un nodo è etichettato come `UnschedulablePendingReboot` da Amazon SageMaker AI HyperPod. Ciò significa che il nodo sta eseguendo controlli dell'integrità approfonditi e richiede un riavvio. Se il ripristino automatico del nodo è abilitato, il nodo verrà riavviato automaticamente da. Amazon SageMaker AI HyperPod Unità: numero  | 

## Parametri dei NVMe driver Amazon EBS
<a name="Container-Insights-metrics-EBS"></a>

A partire dalla versione ` 1.300056.0` dell' CloudWatch agente, Container Insights con osservabilità migliorata per Amazon EKS raccoglie automaticamente i parametri dei NVMe driver Amazon EBS dai cluster Amazon EKS su istanze Linux. L' CloudWatch agente deve essere installato utilizzando la versione del componente aggiuntivo CloudWatch Observability Amazon EKS `4.1.0` o successiva. Per ulteriori informazioni sul componente aggiuntivo, consulta [Installa l' CloudWatch agente con il componente aggiuntivo Amazon CloudWatch Observability EKS o il grafico Helm](install-CloudWatch-Observability-EKS-addon.md). Per ulteriori informazioni su Amazon EBS, consulta [Statistiche dettagliate sulle prestazioni di Amazon EBS](https://docs.aws.amazon.com/ebs/latest/userguide/nvme-detailed-performance-stats.html).

Affinché Container Insights raccolga i parametri dei NVMe driver di Amazon EBS, devi soddisfare i seguenti prerequisiti:
+ Devi utilizzare Container Insights con osservabilità migliorata per Amazon EKS, con il componente aggiuntivo CloudWatch Observability Amazon EKS o versione `4.1.0` successiva.
+ Il componente aggiuntivo del driver CSI EBS `1.42.0` o il grafico Helm devono essere installati sul cluster con le metriche abilitate.
  + Per abilitare le metriche quando utilizzi il componente aggiuntivo Amazon EBS CSI, utilizza la seguente opzione quando crei o aggiorni il componente aggiuntivo. `--configuration-values '{ "node": { "enableMetrics": true } }'`
  + Per abilitare le metriche se usi il grafico Helm, utilizza la seguente opzione quando crei o aggiorni il componente aggiuntivo. `--set node.enableMetrics=true`

Le metriche raccolte sono elencate nella tabella seguente. 


| Nome parametro | Dimensioni | Description | 
| --- | --- | --- | 
|  `node_diskio_ebs_total_read_ops` |  `ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`  | Il numero di operazioni di lettura completate. | 
|  `node_diskio_ebs_total_write_ops` |  `ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`  | Il numero di operazioni di scrittura completate. | 
|  `node_diskio_ebs_total_read_bytes` |  `ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`  | Il numero totale di byte letti trasferiti. | 
|  `node_diskio_ebs_total_write_bytes` |  `ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`  | Il numero totale di byte scritti trasferiti. | 
|  `node_diskio_ebs_total_read_time` |  `ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`  | Il tempo totale impiegato, in microsecondi, da tutte le operazioni di lettura completate. | 
|  `node_diskio_ebs_total_write_time` |  `ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`  | Il tempo totale impiegato, in microsecondi, da tutte le operazioni di scrittura completate. | 
|  `node_diskio_ebs_volume_performance_exceeded_iops` |  `ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`  | Il tempo totale, in microsecondi, durante il quale la richiesta di IOPS ha superato le prestazioni di capacità di IOPS allocata del volume. | 
|  `node_diskio_ebs_volume_performance_exceeded_tp` |  `ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`  | Il tempo totale, in microsecondi, durante il quale la richiesta di throughput ha superato le prestazioni di throughput allocato del volume. | 
|  `node_diskio_ebs_ec2_instance_performance_exceeded_iops` |  `ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`  | Il tempo totale, in microsecondi, durante il quale il volume EBS ha superato le prestazioni di IOPS massime dell'istanza Amazon EC2 collegata. | 
|  `node_diskio_ebs_ec2_instance_performance_exceeded_tp` |  `ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`  | Il tempo totale, in microsecondi, durante il quale il volume EBS ha superato le prestazioni di throughput massime dell'istanza Amazon EC2 collegata. | 
|  `node_diskio_ebs_volume_queue_length` |  `ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`  | Il numero di operazioni di lettura e scrittura in attesa di completamento. | 