View a markdown version of this page

Observabilité et surveillance - AWS Conseils prescriptifs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Observabilité et surveillance

L'observabilité est essentielle pour exploiter à grande échelle des systèmes pilotés par des événements et alimentés par l'IA. Contrairement aux applications monolithiques, les systèmes d'IA génératifs et sans serveur sont distribués, apatrides et composés de calculs éphémères et de services d'IA intégrés (par exemple, Amazon Bedrock et Amazon). SageMaker Ces caractéristiques nécessitent une nouvelle réflexion en matière de visibilité, de corrélation et de responsabilité.

Sans observabilité, les équipes sont confrontées aux problèmes suivants :

  • Les angles morts de l'exécution et du comportement des agents

  • Anomalies de coûts ou régressions de performance non détectées

  • Aperçu limité des résultats du modèle et de la qualité des grands modèles linguistiques (LLM)

  • Difficulté d'analyse des causes premières dans les flux de travail asynchrones

L'observabilité joue un rôle essentiel dans les domaines suivants de l'IA sans serveur :

  • Les sorties de l'IA LLMs ne sont pas déterministes. L'enregistrement et l'inspection de leurs résultats sont les seuls moyens de valider leur exactitude au fil du temps.

  • Exécution sans serveur — AWS Lambda, AWS Step Functions, et Amazon EventBridge ne s'exécute pas sur des hôtes fixes. La surveillance doit être basée sur le traçage et non sur un serveur.

  • Coûts et latence — L'utilisation d'Amazon Bedrock est basée sur les jetons. Les fonctions Lambda et Step Functions sont facturées en fonction de leur durée et de leur exécution.

  • Sécurité et gouvernance — Les journaux rapides, l'utilisation des outils des agents et les appels d'API doivent être audités et adaptés au contexte de l'identité et du rôle.

  • Expérience utilisateur — Les défaillances, les retards ou les hallucinations ont un impact sur la confiance. La détection précoce de ces problèmes est essentielle pour maintenir la confiance des utilisateurs dans les systèmes d'IA.

Principaux indicateurs d'observabilité à surveiller

Le tableau suivant décrit l'importance des indicateurs clés liés à l'observabilité et à la surveillance.

Catégorie de métriques

Métrique

Pourquoi la métrique est importante

Comportement des agents

  • Taux de sélection des outils

  • Invocations d'outils non valides

Révèle un décalage entre l'intention et l'action.

Tendances des coûts

Coût d'inférence par utilisateur ou par session

Permet de créer FinOps des rapports et de prendre des décisions de routage de modèles à plusieurs niveaux.

Métriques d’invocation

  • Invocations Lambda

  • Taux d'erreur

  • Démarrages à froid

Valide la stabilité du pipeline et la résilience aux erreurs.

Récupération de la base de connaissances

  • Ratio réussits/ratés

  • Score de pertinence de base

Mesure les performances du pipeline RAG.

Latence

Latence d'inférence par modèle

  • Détecte les ralentissements dans Amazon Bedrock ou. SageMaker

  • Optimise le temps de réponse des utilisateurs.

Rapidité et qualité de réponse

  • Taux d'hallucination

  • Taux de repli

S'assure que la mise à la terre fonctionne et que les instructions se comportent comme prévu.

Sécurité et accès

Utilisation de l'agent et de l'outil par rôle IAM

Garantit le principe du moindre privilège et la traçabilité.

Utilisation du jeton

Total des jetons d'entrée et de sortie (Amazon Bedrock)

  • Contrôle les coûts.

  • Détecte le gonflement rapide ou la mauvaise utilisation du modèle.

État du flux de travail

Step Functions : échecs, nouvelles tentatives et délais d'expiration du flux de travail

Permet de résoudre les problèmes d'orchestration et de réessayer les boucles.

Services AWS pour observer l'IA générative et sans serveur

Le tableau suivant décrit Services AWS les fonctionnalités qui prennent en charge l'observabilité pour les applications d'IA génératives et sans serveur, y compris leurs cas d'utilisation idéaux.

Service AWS

Description

Cas d’utilisation idéal

Amazon CloudWatch Logs

Capture les journaux de Lambda, Step Functions, Amazon Bedrock Agents et Amazon API Gateway

  • Débogage

  • Pistes d'audit

  • Suivi des sessions utilisateur

CloudWatch Métriques Amazon

Indicateurs de performance clés personnalisés et générés par le service (KPIs), tels que le nombre d'invocations, la durée et le nombre de jetons

  • Tableaux de bord

  • Alerts (Alertes)

  • Analyse des tendances

AWS X-Ray

Traces entre les flux sans serveur, notamment Lambda, API Gateway et Step Functions

  • Analyse des causes profondes

  • Suivi de la latence

  • Cartographie des dépendances

CloudWatch format métrique intégré

Journalisation structurée pour des métriques avancées dans les flux de journaux

Activez les analyses sans appels de métriques distincts

Enregistrement des traces des agents Amazon Bedrock et des invocations de modèles

Suivi natif de l'exécution de l'agent Amazon Bedrock, appels d'outils et informations RAG

Surveillez le comportement des agents et résolvez les défaillances

Amazon EventBridge Pipes et registres de schémas

Suit et valide les formats d'événements circulant dans votre pipeline

  • Prévenir les événements malformés

  • Garantir la cohérence des contrats

AWS CloudTrail

Enregistre tous les appels d'API et le contexte d'identité

  • Conformité d’

  • Audits de sécurité

  • Utilisation de l'agent et de l'outil par rôle

Amazon OpenSearch Service

Indexe les réponses aux inférences, les journaux structurés ou les enregistrements d'audit

  • Recherche sémantique des réponses

  • Tableaux de bord d’observabilité

Amazon CloudWatch Synthetics

Simule le trafic pour tester les points de terminaison ou les flux de travail de manière proactive

Assurez le suivi de la disponibilité et de la régression entre les versions

Exemple : surveillance d'un flux de travail de support basé sur des agents

Pour surveiller efficacement un flux de travail de support basé sur des agents, pensez à utiliser les mesures suivantes au stade du flux de travail associé :

  1. Requête de l'utilisateur à API Gateway : surveillez le temps de réponse et les erreurs 5xx.

  2. Fonction Lambda du préprocesseur : surveillez les démarrages à froid et les échecs d'analyse.

  3. Agent Amazon Bedrock : surveillez les instructions, les traces des appels des outils, le coût des jetons et la latence.

  4. Fonction Lambda de l'outil (par exemple,getOrderStatus) : surveille le temps d'exécution et le nombre d'appels d'outils par utilisateur.

  5. Requête RAG via la base de connaissances — Surveillez le score de pertinence et les bases manquantes.

  6. Fonction Lambda du post-processeur : surveille la validation du schéma et les déclencheurs de secours.

  7. Journaux CloudWatch et OpenSearch — Surveillez les journaux de session, le suivi IDs et la qualité de réponse du modèle.

  8. Alarmes : surveillez les alertes pour détecter les taux d'échec élevés, les pics de coût par session et la baisse de latence.

Bonnes pratiques en matière d'observabilité

Tenez compte des meilleures pratiques suivantes en matière d'observabilité dans les flux de travail d'IA génératifs et sans serveur :

  • Instrumentez les flux d'IA à l'aide de journaux structurés pour permettre la corrélation entre les composants (par exemple, session utilisateur, ID de trace et réponse du modèle).

  • Utilisez un schéma de journalisation cohérent pour prendre en charge les pipelines d'analyse, d'alerte et d'analyse en aval.

  • Émettez des métriques personnalisées par couche pour aider à retracer les erreurs liées au modèle par rapport aux problèmes d'infrastructure.

  • Marquez les journaux avec l'environnement et le contexte pour permettre le filtrage par rôle d'utilisateur, région, version ou équipe.

  • Utilisez des alarmes de détection d'anomalies pour détecter les pics de jetons, les pics de latence ou les dérives de sortie.

  • Corrélez les journaux de réponse LLM avec l'impact en aval pour relier les résultats des agents aux décisions, aux escalades ou aux échecs.

  • Automatisez la génération de rapports via des tableaux de bord hebdomadaires avec des coûts, une utilisation des modèles et des taux de repli rapides afin de renforcer les cycles de responsabilisation et d'amélioration.

Résumé de l'observabilité et de la surveillance

Dans les systèmes sans serveur pilotés par l'IA, vous ne surveillez pas les hôtes. Au lieu de cela, vous surveillez le comportement, les coûts et l'exactitude. L'observabilité constitue la base de la résilience opérationnelle, du contrôle des coûts et des prévisions, de l'évaluation des performances du LLM, de la gouvernance et de la conformité, ainsi que de l'amélioration continue des délais et des agents.

Les fonctionnalités natives Services AWS qui prennent en charge l'observabilité et la surveillance, ainsi que la télémétrie structurée adaptée aux événements, fournissent les fonctionnalités nécessaires. Grâce à ces fonctionnalités, les équipes peuvent gérer en toute confiance les charges de travail liées à l'IA à grande échelle, en sachant ce qui se passe, où et pourquoi.