

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# CloudWatch Metriche per Multi-Model le implementazioni degli endpoint
<a name="multi-model-endpoint-cloudwatch-metrics"></a>

Amazon SageMaker AI fornisce parametri per gli endpoint in modo da poter monitorare la frequenza di accesso alla cache, il numero di modelli caricati e i tempi di attesa dei modelli per il caricamento, il download e il caricamento su un endpoint multimodello. Alcune metriche sono diverse per gli endpoint multimodello basati su CPU e GPU, pertanto le sezioni seguenti descrivono i CloudWatch parametri Amazon che puoi utilizzare per ogni tipo di endpoint multimodello.

**Per ulteriori informazioni sulle metriche, consulta **Multi-Model Endpoint Model Loading Metrics e Endpoint Model** Instance Metrics in. Multi-Model ** [Metriche di Amazon SageMaker AI in Amazon CloudWatch](monitoring-cloudwatch.md) Per-model le metriche non sono supportate. 

## CloudWatch metriche per endpoint multimodello supportati da CPU
<a name="multi-model-endpoint-cloudwatch-metrics-cpu"></a>

Puoi monitorare i seguenti parametri sugli endpoint a più modelli basati su CPU.

Il `AWS/SageMaker` namespace include il seguente modello di caricamento delle metriche dalle chiamate a. [ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html)

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)*Amazon CloudWatch API* Reference.

**Multi-Model Metriche di caricamento del modello di endpoint**


| Metrica | Description | 
| --- | --- | 
| ModelLoadingWaitTime  | L'intervallo di tempo in cui una richiesta di invocazione ha atteso il download o il caricamento del modello di destinazione o entrambi per eseguire l'inferenza. <br />Unità: microsecondi <br />Statistiche valide: media, somma, minimo, massimo, numero di esempi  | 
| ModelUnloadingTime  | L'intervallo di tempo necessario per scaricare il modello tramite la chiamata API `UnloadModel` del container. <br />Unità: microsecondi <br />Statistiche valide: media, somma, minimo, massimo, numero di esempi  | 
| ModelDownloadingTime | L'intervallo di tempo impiegato per scaricare il modello da Amazon Simple Storage Service (Amazon S3).<br />Unità: microsecondi<br />Statistiche valide: media, somma, minimo, massimo, numero di esempi  | 
| ModelLoadingTime  | L'intervallo di tempo necessario per caricare il modello tramite la chiamata API `LoadModel` del container.<br />Unità: microsecondi <br />Statistiche valide: media, somma, minimo, massimo, numero di esempi  | 
| ModelCacheHit  | Numero di richieste `InvokeEndpoint` inviate all'endpoint a più modelli per cui il modello è già stato caricato.<br />La statistica media mostra il rapporto tra richieste per le quali il modello è già stato caricato.<br />Unità: nessuna<br />Statistiche valide: media, somma, numero di esempi | 

**Dimensioni per le metriche di caricamento del Multi-Model modello di endpoint**


| Dimensione | Description | 
| --- | --- | 
| EndpointName, VariantName | Filtra i parametri di invocazione dell'endpoint per il valore `ProductionVariant` dell'endpoint e della variante specificati. | 

Gli spazi dei nomi `/aws/sagemaker/Endpoints` includono i seguenti parametri di istanza dalle chiamate a [ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html).

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)*Amazon CloudWatch API* Reference.

**Multi-Model Metriche delle istanze del modello di endpoint**


| Metrica | Description | 
| --- | --- | 
| LoadedModelCount  | Numero di modelli caricati nei container dell'endpoint a più modelli. Questo parametro viene emesso per istanza.<br />La statistica media con un periodo di 1 minuto indica il numero medio di modelli caricati per istanza.<br />La statistica somma indica il numero totale di modelli caricati in tutte le istanze dell'endpoint.<br />I modelli tracciati da questo parametro non sono necessariamente univoci perché un modello potrebbe essere caricato in più container dell'endpoint.<br />Unità: nessuna<br />Statistiche valide: media, somma, minimo, massimo, numero di esempi | 
| CPUUtilization  | La somma dell'utilizzo di ogni singolo core della CPU. L'utilizzo della CPU di ciascun core è compreso tra 0 e 100. Ad esempio, se ci sono quattro CPU, il `CPUUtilization` va da 0% a 400%.<br />Per le varianti dell'endpoint, il valore è la somma dell'utilizzo delle CPU dei container principali e supplementari sull'istanza.<br />Unità: percentuale | 
| MemoryUtilization | Percentuale di memoria utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%.<br />Per le varianti dell'endpoint, il valore è la somma dell'utilizzo di memoria dei container principali e supplementari sull'istanza.<br />Unità: percentuale | 
| DiskUtilization | Percentuale di spazio su disco utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%.<br />Per le varianti dell'endpoint, il valore è la somma dell'utilizzo dello spazio su disco dei container principali e supplementari sull'istanza.<br />Unità: percentuale | 

## CloudWatch metriche per le implementazioni di endpoint multimodello con GPU
<a name="multi-model-endpoint-cloudwatch-metrics-gpu"></a>

Puoi monitorare i seguenti parametri sugli endpoint a più modelli basati su GPU.

Il `AWS/SageMaker` namespace include il seguente modello di caricamento delle metriche dalle chiamate a. [ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html)

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)*Amazon CloudWatch API* Reference.

**Multi-Model Metriche di caricamento del modello di endpoint**


| Metrica | Description | 
| --- | --- | 
| ModelLoadingWaitTime  | L'intervallo di tempo in cui una richiesta di invocazione ha atteso il download o il caricamento del modello di destinazione o entrambi per eseguire l'inferenza. <br />Unità: microsecondi <br />Statistiche valide: media, somma, minimo, massimo, numero di esempi  | 
| ModelUnloadingTime  | L'intervallo di tempo necessario per scaricare il modello tramite la chiamata API `UnloadModel` del container. <br />Unità: microsecondi <br />Statistiche valide: media, somma, minimo, massimo, numero di esempi  | 
| ModelDownloadingTime | L'intervallo di tempo impiegato per scaricare il modello da Amazon Simple Storage Service (Amazon S3).<br />Unità: microsecondi<br />Statistiche valide: media, somma, minimo, massimo, numero di esempi  | 
| ModelLoadingTime  | L'intervallo di tempo necessario per caricare il modello tramite la chiamata API `LoadModel` del container.<br />Unità: microsecondi <br />Statistiche valide: media, somma, minimo, massimo, numero di esempi  | 
| ModelCacheHit  | Numero di richieste `InvokeEndpoint` inviate all'endpoint a più modelli per cui il modello è già stato caricato.<br />La statistica media mostra il rapporto tra richieste per le quali il modello è già stato caricato.<br />Unità: nessuna<br />Statistiche valide: media, somma, numero di esempi | 

**Dimensioni per le metriche di caricamento del Multi-Model modello di endpoint**


| Dimensione | Description | 
| --- | --- | 
| EndpointName, VariantName | Filtra i parametri di invocazione dell'endpoint per il valore `ProductionVariant` dell'endpoint e della variante specificati. | 

Gli spazi dei nomi `/aws/sagemaker/Endpoints` includono i seguenti parametri di istanza dalle chiamate a [ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html).

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)*Amazon CloudWatch API* Reference.

**Multi-Model Metriche delle istanze del modello di endpoint**


| Metrica | Description | 
| --- | --- | 
| LoadedModelCount  | Numero di modelli caricati nei container dell'endpoint a più modelli. Questo parametro viene emesso per istanza.<br />La statistica media con un periodo di 1 minuto indica il numero medio di modelli caricati per istanza.<br />La statistica somma indica il numero totale di modelli caricati in tutte le istanze dell'endpoint.<br />I modelli tracciati da questo parametro non sono necessariamente univoci perché un modello potrebbe essere caricato in più container dell'endpoint.<br />Unità: nessuna<br />Statistiche valide: media, somma, minimo, massimo, numero di esempi | 
| CPUUtilization  | La somma dell'utilizzo di ogni singolo core della CPU. L'utilizzo della CPU di ciascun core è compreso tra 0 e 100. Ad esempio, se ci sono quattro CPU, il `CPUUtilization` va da 0% a 400%.<br />Per le varianti dell'endpoint, il valore è la somma dell'utilizzo delle CPU dei container principali e supplementari sull'istanza.<br />Unità: percentuale | 
| MemoryUtilization | Percentuale di memoria utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%.<br />Per le varianti dell'endpoint, il valore è la somma dell'utilizzo di memoria dei container principali e supplementari sull'istanza.<br />Unità: percentuale | 
| GPUUtilization | Percentuale di unità GPU utilizzata dai container su un'istanza. Il valore può essere compreso tra 0 e 100 ed è moltiplicato per il numero di GPU. Ad esempio, se ci sono quattro GPU, il `GPUUtilization` va da 0% a 400%.<br />Per le varianti dell'endpoint, il valore è la somma dell'utilizzo delle GPU dei container principali e supplementari sull'istanza.<br />Unità: percentuale | 
| GPUMemoryUtilization | Percentuale di memoria GPU utilizzata dai container su un'istanza. Il valore varia da 0 a 100 ed è moltiplicato per il numero di GPU. Ad esempio, se ci sono quattro GPU, il `GPUMemoryUtilization` va da 0% a 400%.<br />Per le varianti dell'endpoint, il valore è la somma dell'utilizzo di memoria GPU dei container principali e supplementari sull'istanza.<br />Unità: percentuale | 
| DiskUtilization | Percentuale di spazio su disco utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%.<br />Per le varianti dell'endpoint, il valore è la somma dell'utilizzo dello spazio su disco dei container principali e supplementari sull'istanza.<br />Unità: percentuale | 