View a markdown version of this page

CloudWatch Metriche per Multi-Model le implementazioni degli endpoint - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

CloudWatch Metriche per Multi-Model le implementazioni degli endpoint

Amazon SageMaker AI fornisce parametri per gli endpoint in modo da poter monitorare la frequenza di accesso alla cache, il numero di modelli caricati e i tempi di attesa dei modelli per il caricamento, il download e il caricamento su un endpoint multimodello. Alcune metriche sono diverse per gli endpoint multimodello basati su CPU e GPU, pertanto le sezioni seguenti descrivono i CloudWatch parametri Amazon che puoi utilizzare per ogni tipo di endpoint multimodello.

Per ulteriori informazioni sulle metriche, consulta Multi-Model Endpoint Model Loading Metrics e Endpoint Model Instance Metrics in. Multi-Model Metriche di Amazon SageMaker AI in Amazon CloudWatch Per-model le metriche non sono supportate.

CloudWatch metriche per endpoint multimodello supportati da CPU

Puoi monitorare i seguenti parametri sugli endpoint a più modelli basati su CPU.

Il AWS/SageMaker namespace include il seguente modello di caricamento delle metriche dalle chiamate a. InvokeEndpoint

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta GetMetricStatisticsAmazon CloudWatch API Reference.

Multi-Model Metriche di caricamento del modello di endpoint

Metrica Description
ModelLoadingWaitTime

L'intervallo di tempo in cui una richiesta di invocazione ha atteso il download o il caricamento del modello di destinazione o entrambi per eseguire l'inferenza.

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelUnloadingTime

L'intervallo di tempo necessario per scaricare il modello tramite la chiamata API UnloadModel del container.

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelDownloadingTime

L'intervallo di tempo impiegato per scaricare il modello da Amazon Simple Storage Service (Amazon S3).

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelLoadingTime

L'intervallo di tempo necessario per caricare il modello tramite la chiamata API LoadModel del container.

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelCacheHit

Numero di richieste InvokeEndpoint inviate all'endpoint a più modelli per cui il modello è già stato caricato.

La statistica media mostra il rapporto tra richieste per le quali il modello è già stato caricato.

Unità: nessuna

Statistiche valide: media, somma, numero di esempi

Dimensioni per le metriche di caricamento del Multi-Model modello di endpoint

Dimensione Description
EndpointName, VariantName

Filtra i parametri di invocazione dell'endpoint per il valore ProductionVariant dell'endpoint e della variante specificati.

Gli spazi dei nomi /aws/sagemaker/Endpoints includono i seguenti parametri di istanza dalle chiamate a InvokeEndpoint.

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta GetMetricStatisticsAmazon CloudWatch API Reference.

Multi-Model Metriche delle istanze del modello di endpoint

Metrica Description
LoadedModelCount

Numero di modelli caricati nei container dell'endpoint a più modelli. Questo parametro viene emesso per istanza.

La statistica media con un periodo di 1 minuto indica il numero medio di modelli caricati per istanza.

La statistica somma indica il numero totale di modelli caricati in tutte le istanze dell'endpoint.

I modelli tracciati da questo parametro non sono necessariamente univoci perché un modello potrebbe essere caricato in più container dell'endpoint.

Unità: nessuna

Statistiche valide: media, somma, minimo, massimo, numero di esempi

CPUUtilization

La somma dell'utilizzo di ogni singolo core della CPU. L'utilizzo della CPU di ciascun core è compreso tra 0 e 100. Ad esempio, se ci sono quattro CPU, il CPUUtilization va da 0% a 400%.

Per le varianti dell'endpoint, il valore è la somma dell'utilizzo delle CPU dei container principali e supplementari sull'istanza.

Unità: percentuale

MemoryUtilization

Percentuale di memoria utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%.

Per le varianti dell'endpoint, il valore è la somma dell'utilizzo di memoria dei container principali e supplementari sull'istanza.

Unità: percentuale

DiskUtilization

Percentuale di spazio su disco utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%.

Per le varianti dell'endpoint, il valore è la somma dell'utilizzo dello spazio su disco dei container principali e supplementari sull'istanza.

Unità: percentuale

CloudWatch metriche per le implementazioni di endpoint multimodello con GPU

Puoi monitorare i seguenti parametri sugli endpoint a più modelli basati su GPU.

Il AWS/SageMaker namespace include il seguente modello di caricamento delle metriche dalle chiamate a. InvokeEndpoint

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta GetMetricStatisticsAmazon CloudWatch API Reference.

Multi-Model Metriche di caricamento del modello di endpoint

Metrica Description
ModelLoadingWaitTime

L'intervallo di tempo in cui una richiesta di invocazione ha atteso il download o il caricamento del modello di destinazione o entrambi per eseguire l'inferenza.

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelUnloadingTime

L'intervallo di tempo necessario per scaricare il modello tramite la chiamata API UnloadModel del container.

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelDownloadingTime

L'intervallo di tempo impiegato per scaricare il modello da Amazon Simple Storage Service (Amazon S3).

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelLoadingTime

L'intervallo di tempo necessario per caricare il modello tramite la chiamata API LoadModel del container.

Unità: microsecondi

Statistiche valide: media, somma, minimo, massimo, numero di esempi

ModelCacheHit

Numero di richieste InvokeEndpoint inviate all'endpoint a più modelli per cui il modello è già stato caricato.

La statistica media mostra il rapporto tra richieste per le quali il modello è già stato caricato.

Unità: nessuna

Statistiche valide: media, somma, numero di esempi

Dimensioni per le metriche di caricamento del Multi-Model modello di endpoint

Dimensione Description
EndpointName, VariantName

Filtra i parametri di invocazione dell'endpoint per il valore ProductionVariant dell'endpoint e della variante specificati.

Gli spazi dei nomi /aws/sagemaker/Endpoints includono i seguenti parametri di istanza dalle chiamate a InvokeEndpoint.

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta GetMetricStatisticsAmazon CloudWatch API Reference.

Multi-Model Metriche delle istanze del modello di endpoint

Metrica Description
LoadedModelCount

Numero di modelli caricati nei container dell'endpoint a più modelli. Questo parametro viene emesso per istanza.

La statistica media con un periodo di 1 minuto indica il numero medio di modelli caricati per istanza.

La statistica somma indica il numero totale di modelli caricati in tutte le istanze dell'endpoint.

I modelli tracciati da questo parametro non sono necessariamente univoci perché un modello potrebbe essere caricato in più container dell'endpoint.

Unità: nessuna

Statistiche valide: media, somma, minimo, massimo, numero di esempi

CPUUtilization

La somma dell'utilizzo di ogni singolo core della CPU. L'utilizzo della CPU di ciascun core è compreso tra 0 e 100. Ad esempio, se ci sono quattro CPU, il CPUUtilization va da 0% a 400%.

Per le varianti dell'endpoint, il valore è la somma dell'utilizzo delle CPU dei container principali e supplementari sull'istanza.

Unità: percentuale

MemoryUtilization

Percentuale di memoria utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%.

Per le varianti dell'endpoint, il valore è la somma dell'utilizzo di memoria dei container principali e supplementari sull'istanza.

Unità: percentuale

GPUUtilization

Percentuale di unità GPU utilizzata dai container su un'istanza. Il valore può essere compreso tra 0 e 100 ed è moltiplicato per il numero di GPU. Ad esempio, se ci sono quattro GPU, il GPUUtilization va da 0% a 400%.

Per le varianti dell'endpoint, il valore è la somma dell'utilizzo delle GPU dei container principali e supplementari sull'istanza.

Unità: percentuale

GPUMemoryUtilization

Percentuale di memoria GPU utilizzata dai container su un'istanza. Il valore varia da 0 a 100 ed è moltiplicato per il numero di GPU. Ad esempio, se ci sono quattro GPU, il GPUMemoryUtilization va da 0% a 400%.

Per le varianti dell'endpoint, il valore è la somma dell'utilizzo di memoria GPU dei container principali e supplementari sull'istanza.

Unità: percentuale

DiskUtilization

Percentuale di spazio su disco utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%.

Per le varianti dell'endpoint, il valore è la somma dell'utilizzo dello spazio su disco dei container principali e supplementari sull'istanza.

Unità: percentuale