CloudWatch metriche per endpoint multimodello supportati da CPU CloudWatch metriche per le implementazioni di endpoint multimodello con GPU

CloudWatch Metriche per Multi-Model le implementazioni degli endpoint

Amazon SageMaker AI fornisce parametri per gli endpoint in modo da poter monitorare la frequenza di accesso alla cache, il numero di modelli caricati e i tempi di attesa dei modelli per il caricamento, il download e il caricamento su un endpoint multimodello. Alcune metriche sono diverse per gli endpoint multimodello basati su CPU e GPU, pertanto le sezioni seguenti descrivono i CloudWatch parametri Amazon che puoi utilizzare per ogni tipo di endpoint multimodello.

Per ulteriori informazioni sulle metriche, consulta Multi-Model Endpoint Model Loading Metrics e Endpoint Model Instance Metrics in. Multi-Model Metriche di Amazon SageMaker AI in Amazon CloudWatch Per-model le metriche non sono supportate.

CloudWatch metriche per endpoint multimodello supportati da CPU

Puoi monitorare i seguenti parametri sugli endpoint a più modelli basati su CPU.

Il AWS/SageMaker namespace include il seguente modello di caricamento delle metriche dalle chiamate a. InvokeEndpoint

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta GetMetricStatisticsAmazon CloudWatch API Reference.

Multi-Model Metriche di caricamento del modello di endpoint

Metrica	Description
`ModelLoadingWaitTime`	L'intervallo di tempo in cui una richiesta di invocazione ha atteso il download o il caricamento del modello di destinazione o entrambi per eseguire l'inferenza. Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi
`ModelUnloadingTime`	L'intervallo di tempo necessario per scaricare il modello tramite la chiamata API `UnloadModel` del container. Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi
`ModelDownloadingTime`	L'intervallo di tempo impiegato per scaricare il modello da Amazon Simple Storage Service (Amazon S3). Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi
`ModelLoadingTime`	L'intervallo di tempo necessario per caricare il modello tramite la chiamata API `LoadModel` del container. Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi
`ModelCacheHit`	Numero di richieste `InvokeEndpoint` inviate all'endpoint a più modelli per cui il modello è già stato caricato. La statistica media mostra il rapporto tra richieste per le quali il modello è già stato caricato. Unità: nessuna Statistiche valide: media, somma, numero di esempi

Dimensioni per le metriche di caricamento del Multi-Model modello di endpoint

Dimensione	Description
`EndpointName, VariantName`	Filtra i parametri di invocazione dell'endpoint per il valore `ProductionVariant` dell'endpoint e della variante specificati.

Gli spazi dei nomi /aws/sagemaker/Endpoints includono i seguenti parametri di istanza dalle chiamate a InvokeEndpoint.

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta GetMetricStatisticsAmazon CloudWatch API Reference.

Multi-Model Metriche delle istanze del modello di endpoint

Metrica	Description
`LoadedModelCount`	Numero di modelli caricati nei container dell'endpoint a più modelli. Questo parametro viene emesso per istanza. La statistica media con un periodo di 1 minuto indica il numero medio di modelli caricati per istanza. La statistica somma indica il numero totale di modelli caricati in tutte le istanze dell'endpoint. I modelli tracciati da questo parametro non sono necessariamente univoci perché un modello potrebbe essere caricato in più container dell'endpoint. Unità: nessuna Statistiche valide: media, somma, minimo, massimo, numero di esempi
`CPUUtilization`	La somma dell'utilizzo di ogni singolo core della CPU. L'utilizzo della CPU di ciascun core è compreso tra 0 e 100. Ad esempio, se ci sono quattro CPU, il `CPUUtilization` va da 0% a 400%. Per le varianti dell'endpoint, il valore è la somma dell'utilizzo delle CPU dei container principali e supplementari sull'istanza. Unità: percentuale
`MemoryUtilization`	Percentuale di memoria utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%. Per le varianti dell'endpoint, il valore è la somma dell'utilizzo di memoria dei container principali e supplementari sull'istanza. Unità: percentuale
`DiskUtilization`	Percentuale di spazio su disco utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%. Per le varianti dell'endpoint, il valore è la somma dell'utilizzo dello spazio su disco dei container principali e supplementari sull'istanza. Unità: percentuale

CloudWatch metriche per le implementazioni di endpoint multimodello con GPU

Puoi monitorare i seguenti parametri sugli endpoint a più modelli basati su GPU.

Il AWS/SageMaker namespace include il seguente modello di caricamento delle metriche dalle chiamate a. InvokeEndpoint

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta GetMetricStatisticsAmazon CloudWatch API Reference.

Multi-Model Metriche di caricamento del modello di endpoint

Metrica	Description
`ModelLoadingWaitTime`	L'intervallo di tempo in cui una richiesta di invocazione ha atteso il download o il caricamento del modello di destinazione o entrambi per eseguire l'inferenza. Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi
`ModelUnloadingTime`	L'intervallo di tempo necessario per scaricare il modello tramite la chiamata API `UnloadModel` del container. Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi
`ModelDownloadingTime`	L'intervallo di tempo impiegato per scaricare il modello da Amazon Simple Storage Service (Amazon S3). Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi
`ModelLoadingTime`	L'intervallo di tempo necessario per caricare il modello tramite la chiamata API `LoadModel` del container. Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi
`ModelCacheHit`	Numero di richieste `InvokeEndpoint` inviate all'endpoint a più modelli per cui il modello è già stato caricato. La statistica media mostra il rapporto tra richieste per le quali il modello è già stato caricato. Unità: nessuna Statistiche valide: media, somma, numero di esempi

Dimensioni per le metriche di caricamento del Multi-Model modello di endpoint

Dimensione	Description
`EndpointName, VariantName`	Filtra i parametri di invocazione dell'endpoint per il valore `ProductionVariant` dell'endpoint e della variante specificati.

Gli spazi dei nomi /aws/sagemaker/Endpoints includono i seguenti parametri di istanza dalle chiamate a InvokeEndpoint.

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta GetMetricStatisticsAmazon CloudWatch API Reference.

Multi-Model Metriche delle istanze del modello di endpoint

Metrica	Description
`LoadedModelCount`	Numero di modelli caricati nei container dell'endpoint a più modelli. Questo parametro viene emesso per istanza. La statistica media con un periodo di 1 minuto indica il numero medio di modelli caricati per istanza. La statistica somma indica il numero totale di modelli caricati in tutte le istanze dell'endpoint. I modelli tracciati da questo parametro non sono necessariamente univoci perché un modello potrebbe essere caricato in più container dell'endpoint. Unità: nessuna Statistiche valide: media, somma, minimo, massimo, numero di esempi
`CPUUtilization`	La somma dell'utilizzo di ogni singolo core della CPU. L'utilizzo della CPU di ciascun core è compreso tra 0 e 100. Ad esempio, se ci sono quattro CPU, il `CPUUtilization` va da 0% a 400%. Per le varianti dell'endpoint, il valore è la somma dell'utilizzo delle CPU dei container principali e supplementari sull'istanza. Unità: percentuale
`MemoryUtilization`	Percentuale di memoria utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%. Per le varianti dell'endpoint, il valore è la somma dell'utilizzo di memoria dei container principali e supplementari sull'istanza. Unità: percentuale
`GPUUtilization`	Percentuale di unità GPU utilizzata dai container su un'istanza. Il valore può essere compreso tra 0 e 100 ed è moltiplicato per il numero di GPU. Ad esempio, se ci sono quattro GPU, il `GPUUtilization` va da 0% a 400%. Per le varianti dell'endpoint, il valore è la somma dell'utilizzo delle GPU dei container principali e supplementari sull'istanza. Unità: percentuale
`GPUMemoryUtilization`	Percentuale di memoria GPU utilizzata dai container su un'istanza. Il valore varia da 0 a 100 ed è moltiplicato per il numero di GPU. Ad esempio, se ci sono quattro GPU, il `GPUMemoryUtilization` va da 0% a 400%. Per le varianti dell'endpoint, il valore è la somma dell'utilizzo di memoria GPU dei container principali e supplementari sull'istanza. Unità: percentuale
`DiskUtilization`	Percentuale di spazio su disco utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%. Per le varianti dell'endpoint, il valore è la somma dell'utilizzo dello spazio su disco dei container principali e supplementari sull'istanza. Unità: percentuale

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Sicurezza

Imposta il comportamento di SageMaker memorizzazione nella cache del modello di endpoint multimodello AI