View a markdown version of this page

Observabilidade e monitoramento - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Observabilidade e monitoramento

A observabilidade é essencial para operar sistemas baseados em IA e orientados por eventos em grande escala. Diferentemente dos aplicativos monolíticos, os sistemas de IA generativos e sem servidor são distribuídos, sem estado e compostos por computação efêmera e serviços de IA integrados (por exemplo, Amazon Bedrock e Amazon). SageMaker Essas características exigem uma nova visão sobre visibilidade, correlação e responsabilidade.

Sem observabilidade, as equipes enfrentam os seguintes problemas:

  • Pontos cegos na execução e no comportamento do agente

  • Anomalias de custo ou regressões de desempenho não detectadas

  • Visão limitada dos resultados do modelo e da qualidade do modelo de linguagem grande (LLM)

  • Dificuldade na análise da causa raiz em fluxos de trabalho assíncronos

A observabilidade desempenha um papel fundamental nas seguintes áreas da IA sem servidor:

  • Saídas de IA — não LLMs são determinísticas. Registrar e inspecionar suas saídas é a única maneira de validar sua exatidão ao longo do tempo.

  • Execução sem servidor — AWS Lambda, AWS Step Functions, e a Amazon EventBridge não funciona em hosts fixos. O monitoramento precisa ser baseado em rastreamento, não em servidor.

  • Custos e latência — o uso do Amazon Bedrock é baseado em tokens. As funções Lambda e Step Functions são cobradas por duração e execução.

  • Segurança e governança — registros imediatos, uso de ferramentas de agentes e chamadas de API devem ser auditados e definidos de acordo com o contexto de identidade e função.

  • Experiência do usuário — Falhas, atrasos ou alucinações afetam a confiança. A detecção precoce desses problemas é fundamental para manter a confiança do usuário nos sistemas de IA.

Principais métricas de observabilidade a serem monitoradas

A tabela a seguir descreve a importância das principais métricas relacionadas à observabilidade e ao monitoramento.

Categoria de métricas

Métrica

Por que a métrica é importante

Comportamento do agente

  • Taxa de seleção de ferramentas

  • Invocações de ferramentas inválidas

Revela desalinhamento entre intenção e ação.

Tendências de custo

Custo de inferência por usuário ou sessão

Permite a FinOps emissão de relatórios e decisões de roteamento de modelos em camadas.

Métricas de invocação

  • Invocações Lambda

  • Taxa de erro

  • Inicializações a frio

Valida a estabilidade do pipeline e a resiliência a erros.

Recuperação da base de conhecimento

  • Relação de acertos e erros

  • Pontuação de relevância fundamental

Mede o desempenho do pipeline RAG.

Latência

Latência de inferência por modelo

  • Detecta lentidão no Amazon Bedrock ou. SageMaker

  • Otimiza o tempo de resposta do usuário.

Qualidade rápida e de resposta

  • Taxa de alucinação

  • Taxa de fallback

Garante que o aterramento esteja funcionando e que os avisos estejam se comportando conforme o esperado.

Segurança e acesso

Uso de agentes e ferramentas por função do IAM

Garante o princípio do menor privilégio e rastreabilidade.

Uso do token

Total de tokens de entrada e saída (Amazon Bedrock)

  • Controla o custo.

  • Detecta inchaço imediato ou uso indevido do modelo.

Saúde do fluxo de trabalho

Falhas, novas tentativas e tempos limite do fluxo de trabalho do Step Functions

Supera problemas de orquestração e repetições de repetição.

Serviços da AWS para observar a IA generativa e sem servidor

A tabela a seguir descreve Serviços da AWS os recursos que oferecem suporte à observabilidade de aplicativos de IA generativos e sem servidor, incluindo seus casos de uso ideais.

AWS service (Serviço da AWS)

Descrição

Caso de uso ideal

CloudWatch Registros da Amazon

Captura registros do Lambda, Step Functions, Amazon Bedrock Agents e Amazon API Gateway

  • Depuração

  • Trilhas de auditoria

  • Rastreamento da sessão do usuário

CloudWatch Métricas da Amazon

Indicadores-chave de desempenho personalizados e gerados pelo serviço (KPIs), como contagem de invocações, duração e contagem de tokens

  • Painéis

  • Alertas

  • Análise de tendências

AWS X-Ray

Rastreamentos em fluxos sem servidor, incluindo Lambda, API Gateway e Step Functions

  • Análise da causa raiz

  • Rastreamento de latência

  • Mapeamento de dependências

CloudWatch formato métrico incorporado

Registro estruturado para métricas avançadas em fluxos de registros

Habilite análises sem chamadas de métricas separadas

Registro de rastreamento e invocação de modelos do agente Amazon Bedrock

Rastreamento de execução do Amazon Bedrock Agent nativo, chamadas de ferramentas e insights de RAG

Monitore o comportamento do agente e solucione falhas

Amazon EventBridge Pipes e registros de esquemas

Rastreia e valida os formatos de eventos que fluem pelo seu pipeline

  • Evite eventos malformados

  • Garanta a consistência do contrato

AWS CloudTrail

Registra todas as chamadas de API e o contexto de identidade

  • Compliance

  • Auditorias de segurança

  • Uso de agentes e ferramentas por função

OpenSearch Serviço Amazon

Indexa respostas de inferência, registros estruturados ou registros de auditoria

  • Pesquisa semântica de respostas

  • Painéis de observabilidade

Amazon CloudWatch Synthetics

Simula o tráfego para testar endpoints ou fluxos de trabalho de forma proativa

Garanta o tempo de atividade e o monitoramento da regressão em todas as versões

Exemplo: monitoramento de um fluxo de trabalho de suporte baseado em agente

Para monitorar com eficácia um fluxo de trabalho de suporte baseado em agentes, considere usar as seguintes métricas no estágio de fluxo de trabalho associado:

  1. Consulta do usuário ao API Gateway — Monitore o tempo de resposta e 5xx de erros.

  2. Função Lambda de pré-processador — monitore partidas a frio e falhas de análise.

  3. Agente Amazon Bedrock — monitore a solicitação, os rastreamentos de chamadas de ferramentas, o custo do token e a latência.

  4. Função Tool Lambda (por exemplo,getOrderStatus) — Monitore o tempo de execução e a contagem de invocações da ferramenta por usuário.

  5. Consulta RAG por meio da base de conhecimento — Monitore a pontuação de relevância e a falta de base.

  6. Função Lambda de pós-processador — monitore a validação do esquema e os acionadores de fallback.

  7. Registros CloudWatch e OpenSearch — Monitore os registros da sessão IDs, rastreie e modele a qualidade da resposta.

  8. Alarmes — monitore alertas para altas taxas de falha, picos no custo por sessão e redução da latência.

Melhores práticas para observabilidade

Considere as seguintes melhores práticas para observabilidade em fluxos de trabalho de IA generativos e sem servidor:

  • Instrumente os fluxos de IA com registros estruturados para permitir a correlação entre os componentes (por exemplo, sessão do usuário, ID de rastreamento e resposta do modelo).

  • Use um esquema de registro consistente para oferecer suporte aos pipelines de análise, alertas e análises posteriores.

  • Emita métricas personalizadas por camada para ajudar a rastrear erros relacionados ao modelo em comparação com problemas de infraestrutura.

  • Marque os registros com ambiente e contexto para permitir a filtragem por função do usuário, região, versão ou equipe.

  • Use alarmes de detecção de anomalias para detectar picos de token, picos de latência ou desvios de saída.

  • Correlacione os registros de resposta do LLM com o impacto posterior para vincular as saídas do agente às decisões, escalonamentos ou falhas.

  • Automatize a geração de relatórios por meio de painéis semanais com custos imediatos, uso de modelos e taxas de retorno para impulsionar os ciclos de responsabilidade e melhoria.

Resumo da observabilidade e monitoramento

Em sistemas sem servidor orientados por IA, você não monitora os hosts. Em vez disso, você monitora o comportamento, o custo e a correção. A observabilidade fornece a base para resiliência operacional, controle e previsão de custos, avaliação de desempenho de LLM, governança e conformidade e melhoria contínua imediata e de agentes.

Os nativos Serviços da AWS que oferecem suporte à observabilidade e ao monitoramento, juntamente com a telemetria estruturada e com reconhecimento de eventos, fornecem os recursos necessários. Com esses recursos implementados, as equipes podem operar com confiança as cargas de trabalho de IA em grande escala, sabendo o que está acontecendo, onde e por quê.