

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Logs e métricas de pipeline de inferência
<a name="inference-pipeline-logs-metrics"></a>

O monitoramento é importante para manter a confiabilidade, a disponibilidade e o desempenho dos recursos de SageMaker IA da Amazon. Para monitorar e solucionar problemas de desempenho do pipeline de inferência, use CloudWatch registros e mensagens de erro da Amazon. Para obter informações sobre as ferramentas de monitoramento que a SageMaker IA fornece, consulte[Monitoramento AWS recursos na Amazon SageMaker AI](monitoring-overview.md).

## Use métricas para monitorar Multi-container modelos
<a name="inference-pipeline-metrics"></a>

Para monitorar os modelos de vários contêineres em Inference Pipelines, use a Amazon. CloudWatch CloudWatchcoleta dados brutos e os processa em métricas legíveis, quase em tempo real. SageMaker Os trabalhos e endpoints de treinamento de IA CloudWatch gravam métricas e registros no `AWS/SageMaker` namespace. 

A tabela a seguir lista as métricas e as dimensões para o seguinte:
+ Invocações de endpoint
+ Tarefas de treinamento, tarefas de transformação em lote e instâncias de endpoint

Uma *dimensão* é um name/value par que identifica de forma exclusiva uma métrica. Você pode atribuir até 10 dimensões a uma métrica. Para obter mais informações sobre o monitoramento com CloudWatch, consulte[Métricas de SageMaker IA da Amazon na Amazon CloudWatch](monitoring-cloudwatch.md). 

**Métricas de invocação de endpoint**

O namespace `AWS/SageMaker` inclui as seguintes métricas de solicitação de chamadas para [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html):

As métricas são relatadas em intervalos de 1 minuto.


| Métrica | Description | 
| --- | --- | 
| Invocation4XXErrors | O número de solicitações `InvokeEndpoint` em que o modelo retornou um código de resposta HTTP `4xx`. Para cada `4xx` resposta, a SageMaker IA envia um`1`.<br />Unidades: nenhuma<br />Estatísticas válidas: `Average`, `Sum` | 
| Invocation5XXErrors | O número de solicitações `InvokeEndpoint` em que o modelo retornou um código de resposta HTTP `5xx`. Para cada `5xx` resposta, a SageMaker IA envia um`1`.<br />Unidades: nenhuma<br />Estatísticas válidas: `Average`, `Sum` | 
| Invocations | As solicitações `number of InvokeEndpoint` enviadas para um endpoint de modelo. <br />Para obter o número total de solicitações enviadas a um endpoint de modelo, use a estatística `Sum`.<br />Unidades: nenhuma<br />Estatísticas válidas: `Sum`, `Sample Count` | 
| InvocationsPerInstance | O número de invocações de endpoint enviadas para um modelo, normalizado por in each. `InstanceCount` `ProductionVariant` SageMaker A IA envia 1/ `numberOfInstances` como o valor de cada solicitação, onde `numberOfInstances` é o número de instâncias ativas do ProductionVariant no endpoint no momento da solicitação.<br />Unidades: nenhuma<br />Estatísticas válidas: `Sum` | 
| ModelLatency | O tempo que o modelo ou modelos levaram para responder. Isso inclui o tempo necessário para enviar a solicitação, buscar a resposta do contêiner do modelo e concluir a inferência no contêiner. ModelLatency é o tempo total gasto por todos os contêineres em um pipeline de inferência.Unidade: microssegundos<br />Estatísticas válidas: `Average`, `Sum`, `Min`, `Max`, contagem de amostras | 
| OverheadLatency | O tempo adicionado ao tempo necessário para responder a uma solicitação de um cliente feita pela SageMaker IA para sobrecarga. `OverheadLatency`é medido a partir do momento em que a SageMaker IA recebe a solicitação até retornar uma resposta ao cliente, menos o. `ModelLatency` A latência de sobrecarga pode variar dependendo de tamanhos de carga útil de solicitações e respostas, frequência de solicitações e autenticação ou autorização da solicitação, entre outros fatores.<br />Unidade: microssegundos<br />Estatísticas válidas: `Average`, `Sum`, `Min`, `Max`, `Sample Count` | 
| ContainerLatency | O tempo necessário para que um contêiner do Inference Pipelines respondesse conforme visualizado pela SageMaker IA. ContainerLatencyinclui o tempo necessário para enviar a solicitação, buscar a resposta do contêiner do modelo e concluir a inferência no contêiner.Unidade: microssegundos<br />Estatísticas válidas: `Average`, `Sum`, `Min`, `Max`, `Sample Count` | 

**Dimensões para métricas de invocação de endpoint**


| Dimensão | Description | 
| --- | --- | 
| EndpointName, VariantName, ContainerName | Filtra as métricas de invocação do endpoint para um `ProductionVariant` no endpoint especificado e para a variante especificada. | 

**Para um endpoint de pipeline de inferência, CloudWatch lista as métricas de latência por contêiner em sua conta como **Endpoint Container Metrics e **Endpoint Variant Metrics**** no namespace AI, da SageMaker seguinte forma.** A métrica `ContainerLatency` aparece apenas para pipelines de inferências.

![O CloudWatch painel para um pipeline de inferência.](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/pipeline-endpoint-metrics.png)


Para cada endpoint e cada contêiner, as métricas de latência exibem nomes para o contêiner, o endpoint, a variante e a métrica.

![As métricas de latência para um endpoint.](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/pipeline-endpoint-metrics-details.png)


**Métricas de trabalho de treinamento, trabalho de transformação em lote e instância de endpoint**

Os namespaces `/aws/sagemaker/TrainingJobs`, `/aws/sagemaker/TransformJobs` e `/aws/sagemaker/Endpoints` incluem as seguintes métricas para trabalhos de treinamento e instâncias de endpoint:

As métricas são relatadas em intervalos de 1 minuto.


| Métrica | Description | 
| --- | --- | 
| CPUUtilization | O percentual de unidades de CPU usadas pelos contêineres em execução em uma instância. O valor varia de 0% a 100% e é multiplicado pelo número de CPUs. Por exemplo, se houver quatro CPUs, `CPUUtilization` poderá variar de 0% a 400%.<br />Para trabalhos de treinamento, o `CPUUtilization` é a utilização de CPU do contêiner de algoritmo em execução na instância.<br />Para trabalhos de transformação em lote, o `CPUUtilization` é a utilização da CPU do contêiner de transformação em execução na instância.<br />Para modelos de vários contêineres, `CPUUtilization` é a soma da utilização da CPU por todos os contêineres em execução na instância.<br />Para variantes de endpoint, `CPUUtilization` é a soma de utilização da CPU por todos os contêineres em execução na instância.<br />Unidades: percentual | 
| MemoryUtilization | O percentual de memória usada pelos contêineres em execução em uma instância. Esse valor varia de 0% a 100%.<br />Para tarefas de treinamento, `MemoryUtilization` é a memória usada pelo contêiner de algoritmo em execução na instância.<br />Para tarefas de transformação em lote, `MemoryUtilization` é a memória usada pelo contêiner de transformação em execução na instância.Para modelos com vários contêineres, MemoryUtilization é a soma da memória usada por todos os contêineres em execução na instância.<br />Para variantes de endpoint, `MemoryUtilization` é a soma da memória usada por todos os contêineres em execução na instância.<br />Unidades: percentual | 
| GPUUtilization | A porcentagem de unidades de GPU que são usadas pelos contêineres em execução em uma instância. `GPUUtilization` varia de 0% a 100% e é multiplicado pelo número de GPUs. Por exemplo, se houver quatro GPUs, `GPUUtilization` poderá variar de 0% a 400%.<br />Para tarefas de treinamento, `GPUUtilization` é a GPU usada pelo contêiner de algoritmo em execução na instância.<br />Para trabalhos de transformação em lote, `GPUUtilization` é a GPU usada pelo contêiner de transformação em execução na instância.<br />Para modelos com vários contêineres, `GPUUtilization` é a soma da GPU usada por todos os contêineres em execução na instância.<br />Para variantes de endpoint, `GPUUtilization` é a soma da GPU usada por todos os contêineres em execução na instância.<br />Unidades: percentual | 
| GPUMemoryUtilization | A porcentagem da memória da GPU usada pelos contêineres em execução em uma instância. GPUMemoryUtilization varia de 0% a 100% e é multiplicado pelo número de GPUs. Por exemplo, se houver quatro GPUs, `GPUMemoryUtilization` poderá variar de 0% a 400%.<br />Para tarefas de treinamento, `GPUMemoryUtilization` é a memória da GPU usada pelo contêiner do algoritmo em execução na instância.<br />Para tarefas de transformação em lote, `GPUMemoryUtilization` é a memória da GPU usada pelo contêiner de transformação em execução na instância.<br />Para modelos com vários contêineres, `GPUMemoryUtilization` é a soma da GPU usada por todos os contêineres em execução na instância.<br />Para variantes de endpoint, `GPUMemoryUtilization` é a soma da memória da GPU usada por todos os contêineres em execução na instância.<br />Unidades: percentual | 
| DiskUtilization | A porcentagem do espaço em disco usado pelos contêineres em execução em uma instância. DiskUtilization varia de 0% a 100%. Essa métrica não oferece apoio para trabalhos de transformação em lote.<br />Para tarefas de treinamento, `DiskUtilization` é o espaço em disco usado pelo contêiner de algoritmo em execução na instância.<br />Para variantes de endpoint, `DiskUtilization` é a soma do espaço em disco usado por todos os contêineres fornecidos em execução na instância.<br />Unidades: percentual | 

**Dimensões para métricas de trabalho de treinamento, trabalho de transformação em lote e instância de endpoint**


| Dimensão | Description | 
| --- | --- | 
| Host | Para tarefas de treinamento, `Host` tem o formato `[training-job-name]/algo-[instance-number-in-cluster]`. Use essa dimensão para filtrar as métricas de instância para o trabalho de treinamento e a instância especificados. Esse formato de dimensão está presente somente no namespace `/aws/sagemaker/TrainingJobs`.<br />Para tarefas de transformação em lote, `Host` tem o formato `[transform-job-name]/[instance-id]`. Use essa dimensão para filtrar métricas de instância para o trabalho de transformação em lote e a instância especificados. Esse formato de dimensão está presente somente no namespace `/aws/sagemaker/TransformJobs`.<br />Para endpoints, `Host` tem o formato `[endpoint-name]/[ production-variant-name ]/[instance-id]`. Use essa dimensão para filtrar as métricas de instância para o endpoint, a variante e a instância especificados. Esse formato de dimensão está presente somente no namespace `/aws/sagemaker/Endpoints`. | 

Para ajudá-lo a depurar suas tarefas de treinamento, endpoints e configurações de ciclo de vida de instâncias de notebooks, a SageMaker IA também envia tudo o que um contêiner de algoritmo, um contêiner de modelo ou uma configuração de ciclo de vida de instância de notebook envia para ou para o Amazon Logs. `stdout` `stderr` CloudWatch Você pode usar essas informações para depuração e para analisar o progresso.

## Usar logs para monitorar um pipeline de inferência
<a name="inference-pipeline-logs"></a>

A tabela a seguir lista os grupos de log e os fluxos de log que a SageMaker IA envia para a Amazon CloudWatch 

*Fluxo de logs* é uma sequência de eventos de log que compartilham a mesma origem. Cada fonte separada de registros CloudWatch forma um fluxo de registros separado. Um *grupo de logs* é um grupo de fluxos de log que compartilham as mesmas configurações de retenção, monitoramento e controle de acesso.

**Logs**



- **`/aws/sagemaker/TrainingJobs`**
  - `[training-job-name]/algo-[instance-number-in-cluster]-[epoch_timestamp]`

- **`/aws/sagemaker/Endpoints/[EndpointName]`**
  - `[production-variant-name]/[instance-id]`
  - `[production-variant-name]/[instance-id]`
  - `[production-variant-name]/[instance-id]/[container-name provided in the SageMaker AI model] (For Inference Pipelines)`Para registros do Inference Pipelines, se você não fornecer nomes de contêineres, CloudWatch use \*\*container-1, container-2\*\* e assim por diante, na ordem em que os contêineres são fornecidos no modelo.

- **`/aws/sagemaker/NotebookInstances`**
  - `[notebook-instance-name]/[LifecycleConfigHook]`

- **`/aws/sagemaker/TransformJobs`**
  - `[transform-job-name]/[instance-id]-[epoch_timestamp]`
  - `[transform-job-name]/[instance-id]-[epoch_timestamp]/data-log`
  - `[transform-job-name]/[instance-id]-[epoch_timestamp]/[container-name provided in the SageMaker AI model] (For Inference Pipelines)`Para registros do Inference Pipelines, se você não fornecer nomes de contêineres, CloudWatch use \*\*container-1, container-2\*\* e assim por diante, na ordem em que os contêineres são fornecidos no modelo.



**nota**  
SageMaker A IA cria o grupo de `/aws/sagemaker/NotebookInstances` registros quando você cria uma instância de notebook com uma configuração de ciclo de vida. Para obter mais informações, consulte [Personalização de uma instância de SageMaker notebook usando um script LCC](notebook-lifecycle-config.md).

Para obter mais informações sobre o registro de SageMaker IA, consulte[CloudWatch Registros para Amazon SageMaker AI](logging-cloudwatch.md). 