Principaux indicateurs d'observabilité à surveiller Services AWS pour observer l'IA générative et sans serveur Exemple : surveillance d'un flux de travail de support basé sur des agents Bonnes pratiques en matière d'observabilité Résumé de l'observabilité et de la surveillance

Observabilité et surveillance

L'observabilité est essentielle pour exploiter à grande échelle des systèmes pilotés par des événements et alimentés par l'IA. Contrairement aux applications monolithiques, les systèmes d'IA génératifs et sans serveur sont distribués, apatrides et composés de calculs éphémères et de services d'IA intégrés (par exemple, Amazon Bedrock et Amazon). SageMaker Ces caractéristiques nécessitent une nouvelle réflexion en matière de visibilité, de corrélation et de responsabilité.

Sans observabilité, les équipes sont confrontées aux problèmes suivants :

Les angles morts de l'exécution et du comportement des agents
Anomalies de coûts ou régressions de performance non détectées
Aperçu limité des résultats du modèle et de la qualité des grands modèles linguistiques (LLM)
Difficulté d'analyse des causes premières dans les flux de travail asynchrones

L'observabilité joue un rôle essentiel dans les domaines suivants de l'IA sans serveur :

Les sorties de l'IA LLMs ne sont pas déterministes. L'enregistrement et l'inspection de leurs résultats sont les seuls moyens de valider leur exactitude au fil du temps.
Exécution sans serveur — AWS Lambda, AWS Step Functions, et Amazon EventBridge ne s'exécute pas sur des hôtes fixes. La surveillance doit être basée sur le traçage et non sur un serveur.
Coûts et latence — L'utilisation d'Amazon Bedrock est basée sur les jetons. Les fonctions Lambda et Step Functions sont facturées en fonction de leur durée et de leur exécution.
Sécurité et gouvernance — Les journaux rapides, l'utilisation des outils des agents et les appels d'API doivent être audités et adaptés au contexte de l'identité et du rôle.
Expérience utilisateur — Les défaillances, les retards ou les hallucinations ont un impact sur la confiance. La détection précoce de ces problèmes est essentielle pour maintenir la confiance des utilisateurs dans les systèmes d'IA.

Principaux indicateurs d'observabilité à surveiller

Le tableau suivant décrit l'importance des indicateurs clés liés à l'observabilité et à la surveillance.

Catégorie de métriques	Métrique	Pourquoi la métrique est importante
Comportement des agents	Taux de sélection des outils Invocations d'outils non valides	Révèle un décalage entre l'intention et l'action.
Tendances des coûts	Coût d'inférence par utilisateur ou par session	Permet de créer FinOps des rapports et de prendre des décisions de routage de modèles à plusieurs niveaux.
Métriques d’invocation	Invocations Lambda Taux d'erreur Démarrages à froid	Valide la stabilité du pipeline et la résilience aux erreurs.
Récupération de la base de connaissances	Ratio réussits/ratés Score de pertinence de base	Mesure les performances du pipeline RAG.
Latence	Latence d'inférence par modèle	Détecte les ralentissements dans Amazon Bedrock ou. SageMaker Optimise le temps de réponse des utilisateurs.
Rapidité et qualité de réponse	Taux d'hallucination Taux de repli	S'assure que la mise à la terre fonctionne et que les instructions se comportent comme prévu.
Sécurité et accès	Utilisation de l'agent et de l'outil par rôle IAM	Garantit le principe du moindre privilège et la traçabilité.
Utilisation du jeton	Total des jetons d'entrée et de sortie (Amazon Bedrock)	Contrôle les coûts. Détecte le gonflement rapide ou la mauvaise utilisation du modèle.
État du flux de travail	Step Functions : échecs, nouvelles tentatives et délais d'expiration du flux de travail	Permet de résoudre les problèmes d'orchestration et de réessayer les boucles.

Services AWS pour observer l'IA générative et sans serveur

Le tableau suivant décrit Services AWS les fonctionnalités qui prennent en charge l'observabilité pour les applications d'IA génératives et sans serveur, y compris leurs cas d'utilisation idéaux.

Service AWS	Description	Cas d’utilisation idéal
Amazon CloudWatch Logs	Capture les journaux de Lambda, Step Functions, Amazon Bedrock Agents et Amazon API Gateway	Débogage Pistes d'audit Suivi des sessions utilisateur
CloudWatch Métriques Amazon	Indicateurs de performance clés personnalisés et générés par le service (KPIs), tels que le nombre d'invocations, la durée et le nombre de jetons	Tableaux de bord Alerts (Alertes) Analyse des tendances
AWS X-Ray	Traces entre les flux sans serveur, notamment Lambda, API Gateway et Step Functions	Analyse des causes profondes Suivi de la latence Cartographie des dépendances
CloudWatch format métrique intégré	Journalisation structurée pour des métriques avancées dans les flux de journaux	Activez les analyses sans appels de métriques distincts
Enregistrement des traces des agents Amazon Bedrock et des invocations de modèles	Suivi natif de l'exécution de l'agent Amazon Bedrock, appels d'outils et informations RAG	Surveillez le comportement des agents et résolvez les défaillances
Amazon EventBridge Pipes et registres de schémas	Suit et valide les formats d'événements circulant dans votre pipeline	Prévenir les événements malformés Garantir la cohérence des contrats
AWS CloudTrail	Enregistre tous les appels d'API et le contexte d'identité	Conformité d’ Audits de sécurité Utilisation de l'agent et de l'outil par rôle
Amazon OpenSearch Service	Indexe les réponses aux inférences, les journaux structurés ou les enregistrements d'audit	Recherche sémantique des réponses Tableaux de bord d’observabilité
Amazon CloudWatch Synthetics	Simule le trafic pour tester les points de terminaison ou les flux de travail de manière proactive	Assurez le suivi de la disponibilité et de la régression entre les versions

Exemple : surveillance d'un flux de travail de support basé sur des agents

Pour surveiller efficacement un flux de travail de support basé sur des agents, pensez à utiliser les mesures suivantes au stade du flux de travail associé :

Requête de l'utilisateur à API Gateway : surveillez le temps de réponse et les erreurs 5xx.
Fonction Lambda du préprocesseur : surveillez les démarrages à froid et les échecs d'analyse.
Agent Amazon Bedrock : surveillez les instructions, les traces des appels des outils, le coût des jetons et la latence.
Fonction Lambda de l'outil (par exemple,getOrderStatus) : surveille le temps d'exécution et le nombre d'appels d'outils par utilisateur.
Requête RAG via la base de connaissances — Surveillez le score de pertinence et les bases manquantes.
Fonction Lambda du post-processeur : surveille la validation du schéma et les déclencheurs de secours.
Journaux CloudWatch et OpenSearch — Surveillez les journaux de session, le suivi IDs et la qualité de réponse du modèle.
Alarmes : surveillez les alertes pour détecter les taux d'échec élevés, les pics de coût par session et la baisse de latence.

Bonnes pratiques en matière d'observabilité

Tenez compte des meilleures pratiques suivantes en matière d'observabilité dans les flux de travail d'IA génératifs et sans serveur :

Instrumentez les flux d'IA à l'aide de journaux structurés pour permettre la corrélation entre les composants (par exemple, session utilisateur, ID de trace et réponse du modèle).
Utilisez un schéma de journalisation cohérent pour prendre en charge les pipelines d'analyse, d'alerte et d'analyse en aval.
Émettez des métriques personnalisées par couche pour aider à retracer les erreurs liées au modèle par rapport aux problèmes d'infrastructure.
Marquez les journaux avec l'environnement et le contexte pour permettre le filtrage par rôle d'utilisateur, région, version ou équipe.
Utilisez des alarmes de détection d'anomalies pour détecter les pics de jetons, les pics de latence ou les dérives de sortie.
Corrélez les journaux de réponse LLM avec l'impact en aval pour relier les résultats des agents aux décisions, aux escalades ou aux échecs.
Automatisez la génération de rapports via des tableaux de bord hebdomadaires avec des coûts, une utilisation des modèles et des taux de repli rapides afin de renforcer les cycles de responsabilisation et d'amélioration.

Résumé de l'observabilité et de la surveillance

Dans les systèmes sans serveur pilotés par l'IA, vous ne surveillez pas les hôtes. Au lieu de cela, vous surveillez le comportement, les coûts et l'exactitude. L'observabilité constitue la base de la résilience opérationnelle, du contrôle des coûts et des prévisions, de l'évaluation des performances du LLM, de la gouvernance et de la conformité, ainsi que de l'amélioration continue des délais et des agents.

Les fonctionnalités natives Services AWS qui prennent en charge l'observabilité et la surveillance, ainsi que la télémétrie structurée adaptée aux événements, fournissent les fonctionnalités nécessaires. Grâce à ces fonctionnalités, les équipes peuvent gérer en toute confiance les charges de travail liées à l'IA à grande échelle, en sachant ce qui se passe, où et pourquoi.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Tests et validation

Sécurité et gouvernance