View a markdown version of this page

Observabilidad y supervisión - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Observabilidad y supervisión

La observabilidad es esencial para operar sistemas basados en eventos e impulsados por IA a escala. A diferencia de las aplicaciones monolíticas, los sistemas de IA generativa y sin servidor están distribuidos, no tienen estado y se componen de computación efímera y servicios de IA integrados (por ejemplo, Amazon Bedrock y Amazon). SageMaker Estas características requieren una nueva forma de pensar en torno a la visibilidad, la correlación y la responsabilidad.

Sin observabilidad, los equipos se enfrentan a los siguientes problemas:

  • Puntos ciegos en la ejecución y el comportamiento de los agentes

  • Anomalías de costes o regresiones del rendimiento no detectadas

  • Información limitada sobre los resultados de los modelos y sobre la calidad de los modelos de lenguaje de gran tamaño (LLM)

  • Dificultad en el análisis de la causa raíz en los flujos de trabajo asíncronos

La observabilidad desempeña un papel fundamental en las siguientes áreas de la IA sin servidor:

  • Los resultados de la IA: LLMs no son deterministas. Registrar e inspeccionar sus resultados es la única forma de validar su exactitud a lo largo del tiempo.

  • Ejecución sin servidor: AWS Lambda AWS Step Functions, y Amazon EventBridge no se ejecuta en hosts fijos. El monitoreo debe estar basado en el rastreo, no en el servidor.

  • Costes y latencia: el uso de Amazon Bedrock se basa en los tokens. Lambda y Step Functions se cobran por duración y ejecución.

  • Seguridad y gobierno: los registros rápidos, el uso de las herramientas de los agentes y las llamadas a la API deben auditarse y analizarse teniendo en cuenta el contexto de la identidad y el rol.

  • Experiencia de usuario: los fallos, los retrasos o las alucinaciones afectan a la confianza. La detección temprana de estos problemas es clave para mantener la confianza de los usuarios en los sistemas de IA.

Métricas de observabilidad clave que hay que monitorizar

En la siguiente tabla se describe la importancia de las métricas clave relacionadas con la observabilidad y el monitoreo.

Categoría de métricas

Métrica

Por qué es importante la métrica

Comportamiento del agente

  • Tasa de selección de herramientas

  • Invocaciones de herramientas no válidas

Revela una desalineación entre la intención y la acción.

Tendencias de costos

Coste de inferencia por usuario o sesión

Permite la FinOps elaboración de informes y la toma de decisiones de enrutamiento mediante modelos escalonados.

Métricas de invocación

  • Invocaciones Lambda

  • Tasa de errores

  • Arranques en frío

Valida la estabilidad de la canalización y la resistencia a los errores.

Recuperación de la base de conocimientos

  • Proporción de aciertos y errores

  • Puntuación de relevancia fundamental

Mide el rendimiento de la tubería RAG.

Latencia

Latencia de inferencia por modelo

  • Detecta ralentizaciones en Amazon Bedrock o. SageMaker

  • Optimiza el tiempo de respuesta del usuario.

Rapidez y calidad de respuesta

  • Tasa de alucinaciones

  • Tasa de retroceso

Garantiza que la conexión a tierra funcione y que las indicaciones se comporten según lo esperado.

Seguridad y acceso

Uso de agentes y herramientas por función de IAM

Garantiza el principio del mínimo privilegio y la trazabilidad.

Uso de fichas

Tokens de entrada y salida totales (Amazon Bedrock)

  • Controla el costo.

  • Detecta rápidamente la hinchazón o el mal uso del modelo.

Estado del flujo de trabajo

Fallos, reintentos y tiempos de espera del flujo de trabajo de Step Functions

Resalta problemas de orquestación y bucles de reintentos.

Servicios de AWS para observar la IA generativa y sin servidor

En la siguiente tabla se describen Servicios de AWS las características que respaldan la observabilidad de las aplicaciones de IA generativa y sin servidor, incluidos sus casos de uso ideales.

Servicio de AWS

Descripción

Caso de uso ideal

Amazon CloudWatch Logs

Captura registros de Lambda, Step Functions, Amazon Bedrock Agents y Amazon API Gateway

  • Debugging

  • Registros de seguimiento de auditoría

  • Rastreo de sesiones de usuario

CloudWatch Métricas de Amazon

Indicadores clave de rendimiento personalizados y generados por el servicio (KPIs), como el recuento de invocaciones, la duración y el recuento de tokens

  • Paneles

  • Alertas

  • Análisis de tendencias

AWS X-Ray

Realiza un seguimiento de los flujos sin servidor, incluidos Lambda, API Gateway y Step Functions

  • Análisis de la causa raíz

  • Seguimiento de la latencia

  • Mapeo de dependencias

CloudWatch formato métrico integrado

Registro estructurado para métricas avanzadas en flujos de registro

Habilite el análisis sin necesidad de realizar llamadas de métricas independientes

Registro de invocaciones de modelos y rastreo de agentes de Amazon Bedrock

Seguimiento de ejecución nativo de Amazon Bedrock Agent, llamadas a herramientas e información sobre RAG

Supervise el comportamiento de los agentes y solucione los errores

Amazon EventBridge Pipes y registros de esquemas

Realiza un seguimiento y valida los formatos de eventos que circulan por tu proceso

  • Evita eventos con formato incorrecto

  • Garantice la coherencia de los contratos

AWS CloudTrail

Registra todas las llamadas a la API y el contexto de identidad

  • Conformidad

  • Auditorías de seguridad

  • Uso de agentes y herramientas por función

OpenSearch Servicio Amazon

Indexa las respuestas de inferencia, los registros estructurados o los registros de auditoría

  • Búsqueda semántica de respuestas

  • Paneles de observabilidad

Amazon CloudWatch Synthetics

Simula el tráfico para probar puntos de enlace o flujos de trabajo de forma proactiva

Garantice la supervisión del tiempo de actividad y la regresión en todas las versiones

Ejemplo: supervisión de un flujo de trabajo de soporte basado en agentes

Para supervisar de forma eficaz un flujo de trabajo de soporte basado en agentes, considere la posibilidad de utilizar las siguientes métricas en la fase de flujo de trabajo asociada:

  1. Consulta del usuario a API Gateway: supervisa el tiempo de respuesta y los errores 5xx.

  2. Función Lambda del preprocesador: supervisa los arranques en frío y los fallos de análisis.

  3. Agente de Amazon Bedrock: monitorea los avisos, el seguimiento de las llamadas a las herramientas, el costo de los tokens y la latencia.

  4. Función Lambda de la herramienta (por ejemplo,getOrderStatus): supervisa el tiempo de ejecución y el recuento de invocaciones de la herramienta por usuario.

  5. Consulta RAG a través de la base de conocimientos: supervisa la puntuación de relevancia y la falta de base.

  6. Función Lambda de posprocesador: supervisa la validación del esquema y los activadores de respaldo.

  7. Registra CloudWatch y OpenSearch: supervisa los registros de las sesiones, rastrea y modela la IDs calidad de la respuesta.

  8. Alarmas: supervise las alertas para detectar altas tasas de fallas, picos en el costo por sesión y disminución de la latencia.

Mejores prácticas de observabilidad

Tenga en cuenta las siguientes prácticas recomendadas para la observabilidad en los flujos de trabajo de IA generativa y sin servidor:

  • Instrumente los flujos de IA con registros estructurados para permitir la correlación entre los componentes (por ejemplo, la sesión de usuario, el identificador de seguimiento y la respuesta del modelo).

  • Utilice un esquema de registro coherente para respaldar los procesos de análisis, alertas y análisis posteriores.

  • Emita métricas personalizadas por capa para ayudar a rastrear los errores relacionados con el modelo en comparación con los problemas de infraestructura.

  • Etiquete los registros con el entorno y el contexto para permitir el filtrado por rol de usuario, región, versión o equipo.

  • Utilice las alarmas de detección de anomalías para detectar picos repentinos, picos de latencia o desviaciones de producción.

  • Correlaciona los registros de respuesta de la LLM con el impacto descendente para vincular los resultados de los agentes con las decisiones, las escalaciones o los fallos.

  • Automatice la generación de informes mediante paneles de control semanales con prontitud sobre los costos, el uso del modelo y las tasas de respaldo para impulsar los ciclos de responsabilidad y mejora.

Resumen de la observabilidad y el monitoreo

En los sistemas sin servidor basados en la IA, no se supervisan los hosts. En su lugar, monitorea el comportamiento, el costo y la corrección. La observabilidad proporciona la base para la resiliencia operativa, el control y la previsión de costes, la evaluación del rendimiento del LLM, la gobernanza y el cumplimiento, y la mejora continua de los procesos y de los agentes.

La tecnología nativa, Servicios de AWS que permite la observabilidad y el monitoreo, junto con la telemetría estructurada y sensible a los eventos, proporcionan las capacidades necesarias. Con estas capacidades implementadas, los equipos pueden operar con confianza las cargas de trabajo de IA a gran escala, sabiendo qué sucede, dónde y por qué.