Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Observabilidad y supervisión
La observabilidad es esencial para operar sistemas basados en eventos e impulsados por IA a escala. A diferencia de las aplicaciones monolíticas, los sistemas de IA generativa y sin servidor están distribuidos, no tienen estado y se componen de computación efímera y servicios de IA integrados (por ejemplo, Amazon Bedrock y Amazon). SageMaker Estas características requieren una nueva forma de pensar en torno a la visibilidad, la correlación y la responsabilidad.
Sin observabilidad, los equipos se enfrentan a los siguientes problemas:
-
Puntos ciegos en la ejecución y el comportamiento de los agentes
-
Anomalías de costes o regresiones del rendimiento no detectadas
-
Información limitada sobre los resultados de los modelos y sobre la calidad de los modelos de lenguaje de gran tamaño (LLM)
-
Dificultad en el análisis de la causa raíz en los flujos de trabajo asíncronos
La observabilidad desempeña un papel fundamental en las siguientes áreas de la IA sin servidor:
-
Los resultados de la IA: LLMs no son deterministas. Registrar e inspeccionar sus resultados es la única forma de validar su exactitud a lo largo del tiempo.
-
Ejecución sin servidor: AWS Lambda AWS Step Functions, y Amazon EventBridge no se ejecuta en hosts fijos. El monitoreo debe estar basado en el rastreo, no en el servidor.
-
Costes y latencia: el uso de Amazon Bedrock se basa en los tokens. Lambda y Step Functions se cobran por duración y ejecución.
-
Seguridad y gobierno: los registros rápidos, el uso de las herramientas de los agentes y las llamadas a la API deben auditarse y analizarse teniendo en cuenta el contexto de la identidad y el rol.
-
Experiencia de usuario: los fallos, los retrasos o las alucinaciones afectan a la confianza. La detección temprana de estos problemas es clave para mantener la confianza de los usuarios en los sistemas de IA.
Métricas de observabilidad clave que hay que monitorizar
En la siguiente tabla se describe la importancia de las métricas clave relacionadas con la observabilidad y el monitoreo.
Categoría de métricas |
Métrica |
Por qué es importante la métrica |
|---|---|---|
Comportamiento del agente |
|
Revela una desalineación entre la intención y la acción. |
Tendencias de costos |
Coste de inferencia por usuario o sesión |
Permite la FinOps elaboración de informes y la toma de decisiones de enrutamiento mediante modelos escalonados. |
Métricas de invocación |
|
Valida la estabilidad de la canalización y la resistencia a los errores. |
Recuperación de la base de conocimientos |
|
Mide el rendimiento de la tubería RAG. |
Latencia |
Latencia de inferencia por modelo |
|
Rapidez y calidad de respuesta |
|
Garantiza que la conexión a tierra funcione y que las indicaciones se comporten según lo esperado. |
Seguridad y acceso |
Uso de agentes y herramientas por función de IAM |
Garantiza el principio del mínimo privilegio y la trazabilidad. |
Uso de fichas |
Tokens de entrada y salida totales (Amazon Bedrock) |
|
Estado del flujo de trabajo |
Fallos, reintentos y tiempos de espera del flujo de trabajo de Step Functions |
Resalta problemas de orquestación y bucles de reintentos. |
Servicios de AWS para observar la IA generativa y sin servidor
En la siguiente tabla se describen Servicios de AWS las características que respaldan la observabilidad de las aplicaciones de IA generativa y sin servidor, incluidos sus casos de uso ideales.
Servicio de AWS |
Descripción |
Caso de uso ideal |
|---|---|---|
Captura registros de Lambda, Step Functions, Amazon Bedrock Agents y Amazon API Gateway |
|
|
Indicadores clave de rendimiento personalizados y generados por el servicio (KPIs), como el recuento de invocaciones, la duración y el recuento de tokens |
|
|
Realiza un seguimiento de los flujos sin servidor, incluidos Lambda, API Gateway y Step Functions |
|
|
Registro estructurado para métricas avanzadas en flujos de registro |
Habilite el análisis sin necesidad de realizar llamadas de métricas independientes |
|
Registro de invocaciones de modelos y rastreo de agentes de Amazon Bedrock |
Seguimiento de ejecución nativo de Amazon Bedrock Agent, llamadas a herramientas e información sobre RAG |
Supervise el comportamiento de los agentes y solucione los errores |
Realiza un seguimiento y valida los formatos de eventos que circulan por tu proceso |
|
|
Registra todas las llamadas a la API y el contexto de identidad |
|
|
Indexa las respuestas de inferencia, los registros estructurados o los registros de auditoría |
|
|
Simula el tráfico para probar puntos de enlace o flujos de trabajo de forma proactiva |
Garantice la supervisión del tiempo de actividad y la regresión en todas las versiones |
Ejemplo: supervisión de un flujo de trabajo de soporte basado en agentes
Para supervisar de forma eficaz un flujo de trabajo de soporte basado en agentes, considere la posibilidad de utilizar las siguientes métricas en la fase de flujo de trabajo asociada:
-
Consulta del usuario a API Gateway: supervisa el tiempo de respuesta y los errores 5xx.
-
Función Lambda del preprocesador: supervisa los arranques en frío y los fallos de análisis.
-
Agente de Amazon Bedrock: monitorea los avisos, el seguimiento de las llamadas a las herramientas, el costo de los tokens y la latencia.
-
Función Lambda de la herramienta (por ejemplo,
getOrderStatus): supervisa el tiempo de ejecución y el recuento de invocaciones de la herramienta por usuario. -
Consulta RAG a través de la base de conocimientos: supervisa la puntuación de relevancia y la falta de base.
-
Función Lambda de posprocesador: supervisa la validación del esquema y los activadores de respaldo.
-
Registra CloudWatch y OpenSearch: supervisa los registros de las sesiones, rastrea y modela la IDs calidad de la respuesta.
-
Alarmas: supervise las alertas para detectar altas tasas de fallas, picos en el costo por sesión y disminución de la latencia.
Mejores prácticas de observabilidad
Tenga en cuenta las siguientes prácticas recomendadas para la observabilidad en los flujos de trabajo de IA generativa y sin servidor:
-
Instrumente los flujos de IA con registros estructurados para permitir la correlación entre los componentes (por ejemplo, la sesión de usuario, el identificador de seguimiento y la respuesta del modelo).
-
Utilice un esquema de registro coherente para respaldar los procesos de análisis, alertas y análisis posteriores.
-
Emita métricas personalizadas por capa para ayudar a rastrear los errores relacionados con el modelo en comparación con los problemas de infraestructura.
-
Etiquete los registros con el entorno y el contexto para permitir el filtrado por rol de usuario, región, versión o equipo.
-
Utilice las alarmas de detección de anomalías para detectar picos repentinos, picos de latencia o desviaciones de producción.
-
Correlaciona los registros de respuesta de la LLM con el impacto descendente para vincular los resultados de los agentes con las decisiones, las escalaciones o los fallos.
-
Automatice la generación de informes mediante paneles de control semanales con prontitud sobre los costos, el uso del modelo y las tasas de respaldo para impulsar los ciclos de responsabilidad y mejora.
Resumen de la observabilidad y el monitoreo
En los sistemas sin servidor basados en la IA, no se supervisan los hosts. En su lugar, monitorea el comportamiento, el costo y la corrección. La observabilidad proporciona la base para la resiliencia operativa, el control y la previsión de costes, la evaluación del rendimiento del LLM, la gobernanza y el cumplimiento, y la mejora continua de los procesos y de los agentes.
La tecnología nativa, Servicios de AWS que permite la observabilidad y el monitoreo, junto con la telemetría estructurada y sensible a los eventos, proporcionan las capacidades necesarias. Con estas capacidades implementadas, los equipos pueden operar con confianza las cargas de trabajo de IA a gran escala, sabiendo qué sucede, dónde y por qué.