Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Observabilidad y supervisión
<a name="observability-and-monitoring"></a>

La observabilidad es esencial para operar sistemas basados en eventos e impulsados por IA a escala. A diferencia de las aplicaciones monolíticas, los sistemas de IA generativa y sin servidor están distribuidos, no tienen estado y se componen de computación efímera y servicios de IA integrados (por ejemplo, Amazon Bedrock y Amazon). SageMaker Estas características requieren una nueva forma de pensar en torno a la visibilidad, la correlación y la responsabilidad.

Sin observabilidad, los equipos se enfrentan a los siguientes problemas:
+ Puntos ciegos en la ejecución y el comportamiento de los agentes
+ Anomalías de costes o regresiones del rendimiento no detectadas
+ Información limitada sobre los resultados de los modelos y sobre la calidad de los modelos de lenguaje de gran tamaño (LLM)
+ Dificultad en el análisis de la causa raíz en los flujos de trabajo asíncronos

La observabilidad desempeña un papel fundamental en las siguientes áreas de la IA sin servidor:
+ **Los resultados de la IA**: LLMs no son deterministas. Registrar e inspeccionar sus resultados es la única forma de validar su exactitud a lo largo del tiempo.
+ **Ejecución sin servidor**: AWS Lambda AWS Step Functions, y Amazon EventBridge no se ejecuta en hosts fijos. El monitoreo debe estar basado en el rastreo, no en el servidor.
+ **Costes y latencia**: el uso de Amazon Bedrock se basa en los tokens. Lambda y Step Functions se cobran por duración y ejecución.
+ **Seguridad y gobierno**: los registros rápidos, el uso de las herramientas de los agentes y las llamadas a la API deben auditarse y analizarse teniendo en cuenta el contexto de la identidad y el rol.
+ **Experiencia de usuario**: los fallos, los retrasos o las alucinaciones afectan a la confianza. La detección temprana de estos problemas es clave para mantener la confianza de los usuarios en los sistemas de IA.

## Métricas de observabilidad clave que hay que monitorizar
<a name="section-observability-key-metrics"></a>

En la siguiente tabla se describe la importancia de las métricas clave relacionadas con la observabilidad y el monitoreo.


| 
| 
| **Categoría de métricas** | **Métrica** | **Por qué es importante la métrica** | 
| --- |--- |--- |
| Comportamiento del agente |   Tasa de selección de herramientas   Invocaciones de herramientas no válidas   | Revela una desalineación entre la intención y la acción. | 
| Tendencias de costos | Coste de inferencia por usuario o sesión | Permite la FinOps elaboración de informes y la toma de decisiones de enrutamiento mediante modelos escalonados. | 
| Métricas de invocación |   Invocaciones Lambda   Tasa de errores   Arranques en frío   | Valida la estabilidad de la canalización y la resistencia a los errores. | 
| Recuperación de la base de conocimientos |   Proporción de aciertos y errores   Puntuación de relevancia fundamental   | Mide el rendimiento de la tubería RAG. | 
| Latencia | Latencia de inferencia por modelo |   Detecta ralentizaciones en Amazon Bedrock o. SageMaker   Optimiza el tiempo de respuesta del usuario.   | 
| Rapidez y calidad de respuesta |   Tasa de alucinaciones   Tasa de retroceso   | Garantiza que la conexión a tierra funcione y que las indicaciones se comporten según lo esperado. | 
| Seguridad y acceso | Uso de agentes y herramientas por función de IAM | Garantiza el principio del mínimo privilegio y la trazabilidad. | 
| Uso de fichas | Tokens de entrada y salida totales (Amazon Bedrock) |   Controla el costo.   Detecta rápidamente la hinchazón o el mal uso del modelo.   | 
| Estado del flujo de trabajo | Fallos, reintentos y tiempos de espera del flujo de trabajo de Step Functions | Resalta problemas de orquestación y bucles de reintentos. | 

## Servicios de AWS para observar la IA generativa y sin servidor
<a name="section-observability-aws-services"></a>

En la siguiente tabla se describen Servicios de AWS las características que respaldan la observabilidad de las aplicaciones de IA generativa y sin servidor, incluidos sus casos de uso ideales.


| 
| 
| **Servicio de AWS** | **Descripción** | **Caso de uso ideal** | 
| --- |--- |--- |
| [Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) | Captura registros de Lambda, Step Functions, Amazon Bedrock Agents y Amazon API Gateway |   Debugging   Registros de seguimiento de auditoría   Rastreo de sesiones de usuario   | 
| [ CloudWatch Métricas de Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) | Indicadores clave de rendimiento personalizados y generados por el servicio (KPIs), como el recuento de invocaciones, la duración y el recuento de tokens |   Paneles   Alertas    Análisis de tendencias   | 
| [AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) | Realiza un seguimiento de los flujos sin servidor, incluidos Lambda, API Gateway y Step Functions |   Análisis de la causa raíz   Seguimiento de la latencia   Mapeo de dependencias   | 
| [CloudWatch formato métrico integrado](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Embedded_Metric_Format.html) | Registro estructurado para métricas avanzadas en flujos de registro | Habilite el análisis sin necesidad de realizar llamadas de métricas independientes | 
| Registro de [invocaciones de modelos](https://docs.aws.amazon.com/bedrock/latest/userguide/model-invocation-logging.html) y [rastreo de agentes de Amazon Bedrock](https://docs.aws.amazon.com/bedrock/latest/userguide/trace-events.html) | Seguimiento de ejecución nativo de Amazon Bedrock Agent, llamadas a herramientas e información sobre RAG | Supervise el comportamiento de los agentes y solucione los errores | 
| [Amazon EventBridge Pipes](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-pipes.html) y [registros de esquemas](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-schema-registry.html) | Realiza un seguimiento y valida los formatos de eventos que circulan por tu proceso |   Evita eventos con formato incorrecto    Garantice la coherencia de los contratos   | 
| [AWS CloudTrail](https://docs.aws.amazon.com/awscloudtrail/latest/userguide/cloudtrail-user-guide.html) | Registra todas las llamadas a la API y el contexto de identidad |   Conformidad   Auditorías de seguridad   Uso de agentes y herramientas por función   | 
| [ OpenSearch Servicio Amazon](https://docs.aws.amazon.com/whitepapers/latest/big-data-analytics-options/elasticsearch.html) | Indexa las respuestas de inferencia, los registros estructurados o los registros de auditoría |   Búsqueda semántica de respuestas    Paneles de observabilidad   | 
| [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) | Simula el tráfico para probar puntos de enlace o flujos de trabajo de forma proactiva | Garantice la supervisión del tiempo de actividad y la regresión en todas las versiones | 

## Ejemplo: supervisión de un flujo de trabajo de soporte basado en agentes
<a name="section-observability-example-workflow"></a>

Para supervisar de forma eficaz un flujo de trabajo de soporte basado en agentes, considere la posibilidad de utilizar las siguientes métricas en la fase de flujo de trabajo asociada:

1. **Consulta del usuario a** **API Gateway**: supervisa el tiempo de respuesta y los errores 5xx.

1. Función **Lambda del preprocesador**: supervisa los arranques en frío y los fallos de análisis.

1. **Agente de Amazon Bedrock**: monitorea los avisos, el seguimiento de las llamadas a las herramientas, el costo de los tokens y la latencia.

1. **Función Lambda de la herramienta** (por ejemplo,`getOrderStatus`): supervisa el tiempo de ejecución y el recuento de invocaciones de la herramienta por usuario.

1. **Consulta RAG a través de la base de conocimientos**: supervisa la puntuación de relevancia y la falta de base.

1. Función **Lambda de posprocesador**: supervisa la validación del esquema y los activadores de respaldo.

1. **Registra CloudWatch y OpenSearch**: supervisa los registros de las sesiones, rastrea y modela la IDs calidad de la respuesta.

1. **Alarmas**: supervise las alertas para detectar altas tasas de fallas, picos en el costo por sesión y disminución de la latencia.

## Mejores prácticas de observabilidad
<a name="section-observability-best-practices"></a>

Tenga en cuenta las siguientes prácticas recomendadas para la observabilidad en los flujos de trabajo de IA generativa y sin servidor:
+ Instrumente los flujos de IA con registros estructurados para permitir la correlación entre los componentes (por ejemplo, la sesión de usuario, el identificador de seguimiento y la respuesta del modelo).
+ Utilice un esquema de registro coherente para respaldar los procesos de análisis, alertas y análisis posteriores.
+ Emita métricas personalizadas por capa para ayudar a rastrear los errores relacionados con el modelo en comparación con los problemas de infraestructura.
+ Etiquete los registros con el entorno y el contexto para permitir el filtrado por rol de usuario, región, versión o equipo.
+ Utilice las alarmas de detección de anomalías para detectar picos repentinos, picos de latencia o desviaciones de producción.
+ Correlaciona los registros de respuesta de la LLM con el impacto descendente para vincular los resultados de los agentes con las decisiones, las escalaciones o los fallos.
+ Automatice la generación de informes mediante paneles de control semanales con prontitud sobre los costos, el uso del modelo y las tasas de respaldo para impulsar los ciclos de responsabilidad y mejora.

## Resumen de la observabilidad y el monitoreo
<a name="section-observability-summary"></a>

En los sistemas sin servidor basados en la IA, no se supervisan los hosts. En su lugar, monitorea el comportamiento, el costo y la corrección. La observabilidad proporciona la base para la resiliencia operativa, el control y la previsión de costes, la evaluación del rendimiento del LLM, la gobernanza y el cumplimiento, y la mejora continua de los procesos y de los agentes. 

La tecnología nativa, Servicios de AWS que permite la observabilidad y el monitoreo, junto con la telemetría estructurada y sensible a los eventos, proporcionan las capacidades necesarias. Con estas capacidades implementadas, los equipos pueden operar con confianza las cargas de trabajo de IA a gran escala, sabiendo qué sucede, dónde y por qué.