As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Observabilidade e monitoramento
A observabilidade é essencial para operar sistemas baseados em IA e orientados por eventos em grande escala. Diferentemente dos aplicativos monolíticos, os sistemas de IA generativos e sem servidor são distribuídos, sem estado e compostos por computação efêmera e serviços de IA integrados (por exemplo, Amazon Bedrock e Amazon). SageMaker Essas características exigem uma nova visão sobre visibilidade, correlação e responsabilidade.
Sem observabilidade, as equipes enfrentam os seguintes problemas:
-
Pontos cegos na execução e no comportamento do agente
-
Anomalias de custo ou regressões de desempenho não detectadas
-
Visão limitada dos resultados do modelo e da qualidade do modelo de linguagem grande (LLM)
-
Dificuldade na análise da causa raiz em fluxos de trabalho assíncronos
A observabilidade desempenha um papel fundamental nas seguintes áreas da IA sem servidor:
-
Saídas de IA — não LLMs são determinísticas. Registrar e inspecionar suas saídas é a única maneira de validar sua exatidão ao longo do tempo.
-
Execução sem servidor — AWS Lambda, AWS Step Functions, e a Amazon EventBridge não funciona em hosts fixos. O monitoramento precisa ser baseado em rastreamento, não em servidor.
-
Custos e latência — o uso do Amazon Bedrock é baseado em tokens. As funções Lambda e Step Functions são cobradas por duração e execução.
-
Segurança e governança — registros imediatos, uso de ferramentas de agentes e chamadas de API devem ser auditados e definidos de acordo com o contexto de identidade e função.
-
Experiência do usuário — Falhas, atrasos ou alucinações afetam a confiança. A detecção precoce desses problemas é fundamental para manter a confiança do usuário nos sistemas de IA.
Principais métricas de observabilidade a serem monitoradas
A tabela a seguir descreve a importância das principais métricas relacionadas à observabilidade e ao monitoramento.
Categoria de métricas |
Métrica |
Por que a métrica é importante |
|---|---|---|
Comportamento do agente |
|
Revela desalinhamento entre intenção e ação. |
Tendências de custo |
Custo de inferência por usuário ou sessão |
Permite a FinOps emissão de relatórios e decisões de roteamento de modelos em camadas. |
Métricas de invocação |
|
Valida a estabilidade do pipeline e a resiliência a erros. |
Recuperação da base de conhecimento |
|
Mede o desempenho do pipeline RAG. |
Latência |
Latência de inferência por modelo |
|
Qualidade rápida e de resposta |
|
Garante que o aterramento esteja funcionando e que os avisos estejam se comportando conforme o esperado. |
Segurança e acesso |
Uso de agentes e ferramentas por função do IAM |
Garante o princípio do menor privilégio e rastreabilidade. |
Uso do token |
Total de tokens de entrada e saída (Amazon Bedrock) |
|
Saúde do fluxo de trabalho |
Falhas, novas tentativas e tempos limite do fluxo de trabalho do Step Functions |
Supera problemas de orquestração e repetições de repetição. |
Serviços da AWS para observar a IA generativa e sem servidor
A tabela a seguir descreve Serviços da AWS os recursos que oferecem suporte à observabilidade de aplicativos de IA generativos e sem servidor, incluindo seus casos de uso ideais.
AWS service (Serviço da AWS) |
Descrição |
Caso de uso ideal |
|---|---|---|
Captura registros do Lambda, Step Functions, Amazon Bedrock Agents e Amazon API Gateway |
|
|
Indicadores-chave de desempenho personalizados e gerados pelo serviço (KPIs), como contagem de invocações, duração e contagem de tokens |
|
|
Rastreamentos em fluxos sem servidor, incluindo Lambda, API Gateway e Step Functions |
|
|
Registro estruturado para métricas avançadas em fluxos de registros |
Habilite análises sem chamadas de métricas separadas |
|
Registro de rastreamento e invocação de modelos do agente Amazon Bedrock |
Rastreamento de execução do Amazon Bedrock Agent nativo, chamadas de ferramentas e insights de RAG |
Monitore o comportamento do agente e solucione falhas |
Amazon EventBridge Pipes e registros de esquemas |
Rastreia e valida os formatos de eventos que fluem pelo seu pipeline |
|
Registra todas as chamadas de API e o contexto de identidade |
|
|
Indexa respostas de inferência, registros estruturados ou registros de auditoria |
|
|
Simula o tráfego para testar endpoints ou fluxos de trabalho de forma proativa |
Garanta o tempo de atividade e o monitoramento da regressão em todas as versões |
Exemplo: monitoramento de um fluxo de trabalho de suporte baseado em agente
Para monitorar com eficácia um fluxo de trabalho de suporte baseado em agentes, considere usar as seguintes métricas no estágio de fluxo de trabalho associado:
-
Consulta do usuário ao API Gateway — Monitore o tempo de resposta e 5xx de erros.
-
Função Lambda de pré-processador — monitore partidas a frio e falhas de análise.
-
Agente Amazon Bedrock — monitore a solicitação, os rastreamentos de chamadas de ferramentas, o custo do token e a latência.
-
Função Tool Lambda (por exemplo,
getOrderStatus) — Monitore o tempo de execução e a contagem de invocações da ferramenta por usuário. -
Consulta RAG por meio da base de conhecimento — Monitore a pontuação de relevância e a falta de base.
-
Função Lambda de pós-processador — monitore a validação do esquema e os acionadores de fallback.
-
Registros CloudWatch e OpenSearch — Monitore os registros da sessão IDs, rastreie e modele a qualidade da resposta.
-
Alarmes — monitore alertas para altas taxas de falha, picos no custo por sessão e redução da latência.
Melhores práticas para observabilidade
Considere as seguintes melhores práticas para observabilidade em fluxos de trabalho de IA generativos e sem servidor:
-
Instrumente os fluxos de IA com registros estruturados para permitir a correlação entre os componentes (por exemplo, sessão do usuário, ID de rastreamento e resposta do modelo).
-
Use um esquema de registro consistente para oferecer suporte aos pipelines de análise, alertas e análises posteriores.
-
Emita métricas personalizadas por camada para ajudar a rastrear erros relacionados ao modelo em comparação com problemas de infraestrutura.
-
Marque os registros com ambiente e contexto para permitir a filtragem por função do usuário, região, versão ou equipe.
-
Use alarmes de detecção de anomalias para detectar picos de token, picos de latência ou desvios de saída.
-
Correlacione os registros de resposta do LLM com o impacto posterior para vincular as saídas do agente às decisões, escalonamentos ou falhas.
-
Automatize a geração de relatórios por meio de painéis semanais com custos imediatos, uso de modelos e taxas de retorno para impulsionar os ciclos de responsabilidade e melhoria.
Resumo da observabilidade e monitoramento
Em sistemas sem servidor orientados por IA, você não monitora os hosts. Em vez disso, você monitora o comportamento, o custo e a correção. A observabilidade fornece a base para resiliência operacional, controle e previsão de custos, avaliação de desempenho de LLM, governança e conformidade e melhoria contínua imediata e de agentes.
Os nativos Serviços da AWS que oferecem suporte à observabilidade e ao monitoramento, juntamente com a telemetria estruturada e com reconhecimento de eventos, fornecem os recursos necessários. Com esses recursos implementados, as equipes podem operar com confiança as cargas de trabalho de IA em grande escala, sabendo o que está acontecendo, onde e por quê.