

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Alarmes e logs para rastrear métricas de endpoints assíncronos
<a name="async-inference-monitor"></a>

Você pode monitorar a SageMaker IA usando a Amazon CloudWatch, que coleta dados brutos e os processa em métricas legíveis, quase em tempo real. Com a Amazon CloudWatch, você pode acessar informações históricas e ter uma perspectiva melhor sobre o desempenho de seu aplicativo ou serviço da web. Para obter mais informações sobre a Amazon CloudWatch, consulte [O que é a Amazon CloudWatch?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html)

## Monitoramento com CloudWatch
<a name="async-inference-monitor-cloudwatch"></a>

As métricas abaixo são uma lista completa de métricas para endpoints assíncronos e estão no namespace `AWS/SageMaker`. Qualquer métrica não listada abaixo não será publicada se o endpoint estiver habilitado para inferência assíncrona. Essas métricas incluem (mas não estão limitadas a):
+ OverheadLatency
+ Invocations
+ InvocationsPerInstance

### Métricas gerais de endpoint
<a name="async-inference-monitor-cloudwatch-common"></a>

Essas métricas são as mesmas publicadas hoje para endpoints em tempo real. Para obter mais informações sobre outras métricas na Amazon CloudWatch, consulte [Monitorar SageMaker IA com a Amazon CloudWatch](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html).


| Nome da métrica | Description | Unit/Stats | 
| --- | --- | --- | 
| `Invocation4XXErrors` | O número de solicitações em que o modelo retornou um código de resposta HTTP 4xx. Para cada resposta 4xx, 1 é enviado; caso contrário, 0 é enviado. | Unidades: nenhuma<br />Estatísticas válidas: média e soma | 
| `Invocation5XXErrors` | O número de InvokeEndpoint solicitações em que o modelo retornou um código de resposta HTTP 5xx. Para cada resposta 5xx, 1 é enviado; caso contrário, 0 é enviado. | Unidades: nenhuma<br />Estatísticas válidas: média e soma | 
| `ModelLatency` | O intervalo de tempo gasto por um modelo para responder conforme visualizado pela SageMaker IA. Esse intervalo inclui os tempos de comunicação locais necessários para enviar a solicitação e buscar a resposta do contêiner de um modelo, bem como o tempo gasto para concluir a inferência no contêiner. | Unidade: microssegundos<br />Estatísticas válidas: média, soma, mín., máx., contagem de amostras | 

### Métricas de endpoint de inferência assíncrona
<a name="async-inference-monitor-cloudwatch-async"></a>

Essas métricas são publicadas para endpoints habilitados para inferência assíncrona. Todas as métricas a seguir são publicadas com uma dimensão `EndpointName`.


| Nome da métrica | Description | Unit/Stats | 
| --- | --- | --- | 
| `ApproximateBacklogSize` | O número de itens na fila de um endpoint que estão sendo processados no momento ou que ainda precisam ser processados. | Unidades: contagem<br />Estatísticas válidas: média, máx. e mín. | 
| `ApproximateBacklogSizePerInstance` | Número de itens na fila dividido pelo número de instâncias atrás de um endpoint. Essa métrica é usada principalmente para configurar o ajuste de escala automático de aplicações para um endpoint habilitado para assíncrono. | Unidades: contagem<br />Estatísticas válidas: média, máx. e mín. | 
| `ApproximateAgeOfOldestRequest` | Idade da solicitação mais antiga na fila. | Unidades: segundos<br />Estatísticas válidas: média, máx. e mín. | 
| `HasBacklogWithoutCapacity` | O valor dessa métrica é `1` quando há solicitações na fila, mas nenhuma instância atrás do endpoint. O valor é `0` em todos os outros momentos. Você pode usar essa métrica para escalar automaticamente seu endpoint a partir de zero instâncias ao receber uma nova solicitação na fila. | Unidade: contagem<br />Estatística válida: média | 

Todas as métricas a seguir são publicadas com as dimensões `EndpointName` e `VariantName`.


| Nome da métrica | Description | Unit/Stats | 
| --- | --- | --- | 
| `RequestDownloadFailures` | Quando ocorre uma falha de inferência devido a um problema no download da solicitação do Amazon S3. | Unidades: contagem<br />Estatística válida: soma | 
| `ResponseUploadFailures` | Quando ocorre uma falha de inferência devido a um problema no upload da resposta para o Amazon S3. | Unidades: contagem<br />Estatística válida: soma | 
| `NotificationFailures` | Quando ocorreu um problema ao publicar notificações. | Unidades: contagem<br />Estatística válida: soma | 
| `RequestDownloadLatency` | Tempo total para fazer download da carga útil da solicitação. | Unidade: microssegundos<br />Estatísticas válidas: média, soma, mín., máx., contagem de amostras | 
| `ResponseUploadLatency` | Tempo total para carregar a carga útil da resposta. | Unidade: microssegundos<br />Estatísticas válidas: média, soma, mín., máx., contagem de amostras | 
| `ExpiredRequests` | Número de solicitações na fila com falha devido ao alcance da TTL de solicitação especificada. | Unidades: contagem<br />Estatística válida: soma | 
| `InvocationFailures` | Se uma invocação falhar por qualquer motivo. | Unidades: contagem<br />Estatística válida: soma | 
| `InvocationsProcesssed` | Número de invocações assíncronas processadas pelo endpoint. | Unidades: contagem<br />Estatística válida: soma | 
| `TimeInBacklog` | Tempo total em que a solicitação ficou na fila antes de ser processada. Isso não inclui o tempo real de processamento (ou seja, tempo de download, tempo de upload, latência do modelo). | Unidade: milissegundos<br />Estatísticas válidas: média, soma, mín., máx., contagem de amostras | 
| `TotalProcessingTime` | O momento em que a solicitação de inferência foi recebida pela SageMaker IA até o momento em que o processamento da solicitação foi concluído. Isso inclui o tempo no backlog e o tempo para carregar e enviar notificações de resposta, se houver. | Unidade: milissegundos<br />Estatísticas válidas: média, soma, mín., máx., contagem de amostras | 

O Amazon SageMaker Asynchronous Inference também inclui métricas em nível de host. Para obter informações sobre métricas em nível de host, consulte [SageMaker AI Jobs and Endpoint](https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html#cloudwatch-metrics-jobs) Metrics.

## Logs
<a name="async-inference-monitor-logs"></a>

Além dos [registros de contêiner do modelo](https://docs.aws.amazon.com/sagemaker/latest/dg/logging-cloudwatch.html) que são publicados CloudWatch na Amazon em sua conta, você também recebe um novo registro de plataforma para rastrear e depurar solicitações de inferência.

Os novos logs são publicados no Grupo de logs do Endpoint:

```
/aws/sagemaker/Endpoints/{{[EndpointName]}}
```

O nome do fluxo de logs consiste de: 

```
{{[production-variant-name]}}/{{[instance-id]}}/data-log.
```

Linhas de log contêm a ID de inferência da solicitação para que os erros possam ser facilmente mapeados para uma solicitação específica.