Métricas de observabilidad clave que hay que monitorizar Servicios de AWS para observar la IA generativa y sin servidor Ejemplo: supervisión de un flujo de trabajo de soporte basado en agentes Mejores prácticas de observabilidad Resumen de la observabilidad y el monitoreo

Observabilidad y supervisión

La observabilidad es esencial para operar sistemas basados en eventos e impulsados por IA a escala. A diferencia de las aplicaciones monolíticas, los sistemas de IA generativa y sin servidor están distribuidos, no tienen estado y se componen de computación efímera y servicios de IA integrados (por ejemplo, Amazon Bedrock y Amazon). SageMaker Estas características requieren una nueva forma de pensar en torno a la visibilidad, la correlación y la responsabilidad.

Sin observabilidad, los equipos se enfrentan a los siguientes problemas:

Puntos ciegos en la ejecución y el comportamiento de los agentes
Anomalías de costes o regresiones del rendimiento no detectadas
Información limitada sobre los resultados de los modelos y sobre la calidad de los modelos de lenguaje de gran tamaño (LLM)
Dificultad en el análisis de la causa raíz en los flujos de trabajo asíncronos

La observabilidad desempeña un papel fundamental en las siguientes áreas de la IA sin servidor:

Los resultados de la IA: LLMs no son deterministas. Registrar e inspeccionar sus resultados es la única forma de validar su exactitud a lo largo del tiempo.
Ejecución sin servidor: AWS Lambda AWS Step Functions, y Amazon EventBridge no se ejecuta en hosts fijos. El monitoreo debe estar basado en el rastreo, no en el servidor.
Costes y latencia: el uso de Amazon Bedrock se basa en los tokens. Lambda y Step Functions se cobran por duración y ejecución.
Seguridad y gobierno: los registros rápidos, el uso de las herramientas de los agentes y las llamadas a la API deben auditarse y analizarse teniendo en cuenta el contexto de la identidad y el rol.
Experiencia de usuario: los fallos, los retrasos o las alucinaciones afectan a la confianza. La detección temprana de estos problemas es clave para mantener la confianza de los usuarios en los sistemas de IA.

Métricas de observabilidad clave que hay que monitorizar

En la siguiente tabla se describe la importancia de las métricas clave relacionadas con la observabilidad y el monitoreo.

Categoría de métricas	Métrica	Por qué es importante la métrica
Comportamiento del agente	Tasa de selección de herramientas Invocaciones de herramientas no válidas	Revela una desalineación entre la intención y la acción.
Tendencias de costos	Coste de inferencia por usuario o sesión	Permite la FinOps elaboración de informes y la toma de decisiones de enrutamiento mediante modelos escalonados.
Métricas de invocación	Invocaciones Lambda Tasa de errores Arranques en frío	Valida la estabilidad de la canalización y la resistencia a los errores.
Recuperación de la base de conocimientos	Proporción de aciertos y errores Puntuación de relevancia fundamental	Mide el rendimiento de la tubería RAG.
Latencia	Latencia de inferencia por modelo	Detecta ralentizaciones en Amazon Bedrock o. SageMaker Optimiza el tiempo de respuesta del usuario.
Rapidez y calidad de respuesta	Tasa de alucinaciones Tasa de retroceso	Garantiza que la conexión a tierra funcione y que las indicaciones se comporten según lo esperado.
Seguridad y acceso	Uso de agentes y herramientas por función de IAM	Garantiza el principio del mínimo privilegio y la trazabilidad.
Uso de fichas	Tokens de entrada y salida totales (Amazon Bedrock)	Controla el costo. Detecta rápidamente la hinchazón o el mal uso del modelo.
Estado del flujo de trabajo	Fallos, reintentos y tiempos de espera del flujo de trabajo de Step Functions	Resalta problemas de orquestación y bucles de reintentos.

Servicios de AWS para observar la IA generativa y sin servidor

En la siguiente tabla se describen Servicios de AWS las características que respaldan la observabilidad de las aplicaciones de IA generativa y sin servidor, incluidos sus casos de uso ideales.

Servicio de AWS	Descripción	Caso de uso ideal
Amazon CloudWatch Logs	Captura registros de Lambda, Step Functions, Amazon Bedrock Agents y Amazon API Gateway	Debugging Registros de seguimiento de auditoría Rastreo de sesiones de usuario
CloudWatch Métricas de Amazon	Indicadores clave de rendimiento personalizados y generados por el servicio (KPIs), como el recuento de invocaciones, la duración y el recuento de tokens	Paneles Alertas Análisis de tendencias
AWS X-Ray	Realiza un seguimiento de los flujos sin servidor, incluidos Lambda, API Gateway y Step Functions	Análisis de la causa raíz Seguimiento de la latencia Mapeo de dependencias
CloudWatch formato métrico integrado	Registro estructurado para métricas avanzadas en flujos de registro	Habilite el análisis sin necesidad de realizar llamadas de métricas independientes
Registro de invocaciones de modelos y rastreo de agentes de Amazon Bedrock	Seguimiento de ejecución nativo de Amazon Bedrock Agent, llamadas a herramientas e información sobre RAG	Supervise el comportamiento de los agentes y solucione los errores
Amazon EventBridge Pipes y registros de esquemas	Realiza un seguimiento y valida los formatos de eventos que circulan por tu proceso	Evita eventos con formato incorrecto Garantice la coherencia de los contratos
AWS CloudTrail	Registra todas las llamadas a la API y el contexto de identidad	Conformidad Auditorías de seguridad Uso de agentes y herramientas por función
OpenSearch Servicio Amazon	Indexa las respuestas de inferencia, los registros estructurados o los registros de auditoría	Búsqueda semántica de respuestas Paneles de observabilidad
Amazon CloudWatch Synthetics	Simula el tráfico para probar puntos de enlace o flujos de trabajo de forma proactiva	Garantice la supervisión del tiempo de actividad y la regresión en todas las versiones

Ejemplo: supervisión de un flujo de trabajo de soporte basado en agentes

Para supervisar de forma eficaz un flujo de trabajo de soporte basado en agentes, considere la posibilidad de utilizar las siguientes métricas en la fase de flujo de trabajo asociada:

Consulta del usuario a API Gateway: supervisa el tiempo de respuesta y los errores 5xx.
Función Lambda del preprocesador: supervisa los arranques en frío y los fallos de análisis.
Agente de Amazon Bedrock: monitorea los avisos, el seguimiento de las llamadas a las herramientas, el costo de los tokens y la latencia.
Función Lambda de la herramienta (por ejemplo,getOrderStatus): supervisa el tiempo de ejecución y el recuento de invocaciones de la herramienta por usuario.
Consulta RAG a través de la base de conocimientos: supervisa la puntuación de relevancia y la falta de base.
Función Lambda de posprocesador: supervisa la validación del esquema y los activadores de respaldo.
Registra CloudWatch y OpenSearch: supervisa los registros de las sesiones, rastrea y modela la IDs calidad de la respuesta.
Alarmas: supervise las alertas para detectar altas tasas de fallas, picos en el costo por sesión y disminución de la latencia.

Mejores prácticas de observabilidad

Tenga en cuenta las siguientes prácticas recomendadas para la observabilidad en los flujos de trabajo de IA generativa y sin servidor:

Instrumente los flujos de IA con registros estructurados para permitir la correlación entre los componentes (por ejemplo, la sesión de usuario, el identificador de seguimiento y la respuesta del modelo).
Utilice un esquema de registro coherente para respaldar los procesos de análisis, alertas y análisis posteriores.
Emita métricas personalizadas por capa para ayudar a rastrear los errores relacionados con el modelo en comparación con los problemas de infraestructura.
Etiquete los registros con el entorno y el contexto para permitir el filtrado por rol de usuario, región, versión o equipo.
Utilice las alarmas de detección de anomalías para detectar picos repentinos, picos de latencia o desviaciones de producción.
Correlaciona los registros de respuesta de la LLM con el impacto descendente para vincular los resultados de los agentes con las decisiones, las escalaciones o los fallos.
Automatice la generación de informes mediante paneles de control semanales con prontitud sobre los costos, el uso del modelo y las tasas de respaldo para impulsar los ciclos de responsabilidad y mejora.

Resumen de la observabilidad y el monitoreo

En los sistemas sin servidor basados en la IA, no se supervisan los hosts. En su lugar, monitorea el comportamiento, el costo y la corrección. La observabilidad proporciona la base para la resiliencia operativa, el control y la previsión de costes, la evaluación del rendimiento del LLM, la gobernanza y el cumplimiento, y la mejora continua de los procesos y de los agentes.

La tecnología nativa, Servicios de AWS que permite la observabilidad y el monitoreo, junto con la telemetría estructurada y sensible a los eventos, proporcionan las capacidades necesarias. Con estas capacidades implementadas, los equipos pueden operar con confianza las cargas de trabajo de IA a gran escala, sabiendo qué sucede, dónde y por qué.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Pruebas y validación

Seguridad y gobernanza