

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Allarmi e log per il monitoraggio delle metriche da endpoint asincroni
<a name="async-inference-monitor"></a>

Puoi monitorare SageMaker AI utilizzando Amazon CloudWatch, che raccoglie i dati non elaborati e li elabora trasformandoli in metriche leggibili quasi in tempo reale. Con Amazon CloudWatch, puoi accedere alle informazioni storiche per una prospettiva migliore sulle prestazioni del servizio o dell'applicazione Web. Per ulteriori informazioni su Amazon CloudWatch, consulta [Che cos'è Amazon CloudWatch?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html)

## Monitoraggio con CloudWatch
<a name="async-inference-monitor-cloudwatch"></a>

I parametri riportati di seguito sono un elenco esaustivo di parametri per gli endpoint asincroni e si trovano nello spazio dei nomi `AWS/SageMaker`. Qualsiasi parametro non elencato di seguito non viene pubblicato se l'endpoint è abilitato per l'inferenza asincrona. Tali parametri includono (ma non sono limitati a):
+ Latenza generale
+ Invocazioni
+ InvocationsPerInstance

### Parametri degli endpoint comuni
<a name="async-inference-monitor-cloudwatch-common"></a>

Questi parametri sono gli stessi pubblicati oggi per gli endpoint in tempo reale. Per ulteriori informazioni su altre metriche in Amazon CloudWatch, consulta [Monitor SageMaker AI with Amazon CloudWatch](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html).


| Nome parametro | Descrizione | Unità/statistiche | 
| --- | --- | --- | 
| `Invocation4XXErrors` | Numero di richieste in cui il modello ha restituito un codice di risposta HTTP 4xx. Per ogni risposta 4xx, viene inviato 1; altrimenti, viene inviato 0. | Unità: nessunaStatistiche valide: Average, Sum | 
| `Invocation5XXErrors` | Numero di richieste InvokeEndpoint in cui il modello ha restituito un codice di risposta HTTP 5xx. Per ogni risposta 5xx, viene inviato 1; altrimenti, viene inviato 0. | Unità: nessunaStatistiche valide: Average, Sum | 
| `ModelLatency` | L’intervallo di tempo impiegato da un modello per rispondere come mostrato in SageMaker AI. Questo intervallo include il tempo per le comunicazioni locali impiegato per inviare la richiesta e recuperare la risposta dal container di un modello e il tempo richiesto per completare l'inferenza nel container. | Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi | 

### Parametri degli endpoint di inferenza asincrona
<a name="async-inference-monitor-cloudwatch-async"></a>

Questi parametri sono pubblicati per gli endpoint abilitati all'inferenza asincrona. I parametri seguenti sono pubblicati con la dimensione `EndpointName`.


| Nome parametro | Descrizione | Unità/statistiche | 
| --- | --- | --- | 
| `ApproximateBacklogSize` | Il numero di elementi in coda per un endpoint che sono attualmente in fase di elaborazione o che devono ancora essere elaborati. | Unità: numero Statistiche valide: medio, massimo, minimo  | 
| `ApproximateBacklogSizePerInstance` | Numero di elementi nella coda diviso per il numero di istanze dietro un endpoint. Questo parametri viene utilizzato principalmente per configurare il dimensionamento automatico delle applicazioni per un endpoint abilitato alla modalità asincrona. | Unità: numeroStatistiche valide: medio, massimo, minimo | 
| `ApproximateAgeOfOldestRequest` | Permanenza della richiesta più vecchia in coda. | Unità: secondiStatistiche valide: medio, massimo, minimo | 
| `HasBacklogWithoutCapacity` | Il valore di questo parametro è `1` quando ci sono richieste in coda ma non ci sono istanze dietro l'endpoint. Il valore è `0` in tutti gli altri momenti. Puoi utilizzare questo parametro per scalare automaticamente l'endpoint da zero istanze dopo aver ricevuto una nuova richiesta in coda. | Unità: numeroStatistiche valide: media | 

I parametri seguenti sono pubblicati con le dimensioni `EndpointName` e `VariantName`.


| Nome parametro | Descrizione | Unità/statistiche | 
| --- | --- | --- | 
| `RequestDownloadFailures` | Quando si verifica un errore di inferenza a causa di un problema durante il download della richiesta da Amazon S3. | Unità: numeroStatistiche valide: somma | 
| `ResponseUploadFailures` | Quando si verifica un errore di inferenza a causa di un problema durante il caricamento della risposta su Amazon S3. | Unità: numeroStatistiche valide: somma | 
| `NotificationFailures` | Quando si verifica un problema di pubblicazione delle notifiche. | Unità: numeroStatistiche valide: somma | 
| `RequestDownloadLatency` | Tempo totale per scaricare il payload di richiesta. | Unità: microsecondiStatistiche valide: media, somma, minimo, massimo, numero di esempi | 
| `ResponseUploadLatency` | Tempo totale per caricare il payload di risposta. | Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi | 
| `ExpiredRequests` | Numero di richieste in coda che non riescono a causa del raggiungimento del TTL della richiesta specificata. | Unità: numeroStatistiche valide: somma | 
| `InvocationFailures` | Se una chiamata fallisce per qualsiasi motivo. | Unità: numeroStatistiche valide: somma | 
| `InvocationsProcesssed` | Numero di chiamate asincrone elaborate dall'endpoint. | Unità: numeroStatistiche valide: somma | 
| `TimeInBacklog` | Tempo totale in cui la richiesta è rimasta in coda prima dell'elaborazione. Questo non include il tempo di elaborazione effettivo (ad esempio tempo di download, tempo di caricamento, latenza del modello). | Unità: millisecondiStatistiche valide: media, somma, minimo, massimo, numero di esempi | 
| `TotalProcessingTime` | L’ora in cui la richiesta di inferenza è stata ricevuta da SageMaker AI fino al termine dell’elaborazione della richiesta. Ciò include il tempo di arretrato e il tempo necessario per caricare e inviare eventuali notifiche di risposta. | Unità: millisecondiStatistiche valide: media, somma, minimo, massimo, numero di esempi | 

Amazon SageMaker Asynchronous Inference include anche parametri a livello di host. Per informazioni sulle metriche a livello di host, consulta [SageMaker AI Jobs and Endpoint Metrics](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html#cloudwatch-metrics-jobs).

## Log
<a name="async-inference-monitor-logs"></a>

Oltre ai [Registri dei log dei container](https://docs.aws.amazon.com/sagemaker/latest/dg/logging-cloudwatch.html) pubblicati su Amazon CloudWatch nel tuo account, ottieni anche un nuovo log della piattaforma per tracciare ed eseguire il debugging delle richieste di inferenza.

I nuovi log vengono pubblicati nel gruppo di log endpoint:

```
/aws/sagemaker/Endpoints/[EndpointName]
```

Il nome del flusso di log è composto da: 

```
[production-variant-name]/[instance-id]/data-log.
```

Le righe di registro contengono l'ID di inferenza della richiesta in modo che gli errori possano essere facilmente mappati su una particolare richiesta.