Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Observabilité et surveillance
L'observabilité est essentielle pour exploiter à grande échelle des systèmes pilotés par des événements et alimentés par l'IA. Contrairement aux applications monolithiques, les systèmes d'IA génératifs et sans serveur sont distribués, apatrides et composés de calculs éphémères et de services d'IA intégrés (par exemple, Amazon Bedrock et Amazon). SageMaker Ces caractéristiques nécessitent une nouvelle réflexion en matière de visibilité, de corrélation et de responsabilité.
Sans observabilité, les équipes sont confrontées aux problèmes suivants :
-
Les angles morts de l'exécution et du comportement des agents
-
Anomalies de coûts ou régressions de performance non détectées
-
Aperçu limité des résultats du modèle et de la qualité des grands modèles linguistiques (LLM)
-
Difficulté d'analyse des causes premières dans les flux de travail asynchrones
L'observabilité joue un rôle essentiel dans les domaines suivants de l'IA sans serveur :
-
Les sorties de l'IA LLMs ne sont pas déterministes. L'enregistrement et l'inspection de leurs résultats sont les seuls moyens de valider leur exactitude au fil du temps.
-
Exécution sans serveur — AWS Lambda, AWS Step Functions, et Amazon EventBridge ne s'exécute pas sur des hôtes fixes. La surveillance doit être basée sur le traçage et non sur un serveur.
-
Coûts et latence — L'utilisation d'Amazon Bedrock est basée sur les jetons. Les fonctions Lambda et Step Functions sont facturées en fonction de leur durée et de leur exécution.
-
Sécurité et gouvernance — Les journaux rapides, l'utilisation des outils des agents et les appels d'API doivent être audités et adaptés au contexte de l'identité et du rôle.
-
Expérience utilisateur — Les défaillances, les retards ou les hallucinations ont un impact sur la confiance. La détection précoce de ces problèmes est essentielle pour maintenir la confiance des utilisateurs dans les systèmes d'IA.
Principaux indicateurs d'observabilité à surveiller
Le tableau suivant décrit l'importance des indicateurs clés liés à l'observabilité et à la surveillance.
Catégorie de métriques |
Métrique |
Pourquoi la métrique est importante |
|---|---|---|
Comportement des agents |
|
Révèle un décalage entre l'intention et l'action. |
Tendances des coûts |
Coût d'inférence par utilisateur ou par session |
Permet de créer FinOps des rapports et de prendre des décisions de routage de modèles à plusieurs niveaux. |
Métriques d’invocation |
|
Valide la stabilité du pipeline et la résilience aux erreurs. |
Récupération de la base de connaissances |
|
Mesure les performances du pipeline RAG. |
Latence |
Latence d'inférence par modèle |
|
Rapidité et qualité de réponse |
|
S'assure que la mise à la terre fonctionne et que les instructions se comportent comme prévu. |
Sécurité et accès |
Utilisation de l'agent et de l'outil par rôle IAM |
Garantit le principe du moindre privilège et la traçabilité. |
Utilisation du jeton |
Total des jetons d'entrée et de sortie (Amazon Bedrock) |
|
État du flux de travail |
Step Functions : échecs, nouvelles tentatives et délais d'expiration du flux de travail |
Permet de résoudre les problèmes d'orchestration et de réessayer les boucles. |
Services AWS pour observer l'IA générative et sans serveur
Le tableau suivant décrit Services AWS les fonctionnalités qui prennent en charge l'observabilité pour les applications d'IA génératives et sans serveur, y compris leurs cas d'utilisation idéaux.
Service AWS |
Description |
Cas d’utilisation idéal |
|---|---|---|
Capture les journaux de Lambda, Step Functions, Amazon Bedrock Agents et Amazon API Gateway |
|
|
Indicateurs de performance clés personnalisés et générés par le service (KPIs), tels que le nombre d'invocations, la durée et le nombre de jetons |
|
|
Traces entre les flux sans serveur, notamment Lambda, API Gateway et Step Functions |
|
|
Journalisation structurée pour des métriques avancées dans les flux de journaux |
Activez les analyses sans appels de métriques distincts |
|
Enregistrement des traces des agents Amazon Bedrock et des invocations de modèles |
Suivi natif de l'exécution de l'agent Amazon Bedrock, appels d'outils et informations RAG |
Surveillez le comportement des agents et résolvez les défaillances |
Suit et valide les formats d'événements circulant dans votre pipeline |
|
|
Enregistre tous les appels d'API et le contexte d'identité |
|
|
Indexe les réponses aux inférences, les journaux structurés ou les enregistrements d'audit |
|
|
Simule le trafic pour tester les points de terminaison ou les flux de travail de manière proactive |
Assurez le suivi de la disponibilité et de la régression entre les versions |
Exemple : surveillance d'un flux de travail de support basé sur des agents
Pour surveiller efficacement un flux de travail de support basé sur des agents, pensez à utiliser les mesures suivantes au stade du flux de travail associé :
-
Requête de l'utilisateur à API Gateway : surveillez le temps de réponse et les erreurs 5xx.
-
Fonction Lambda du préprocesseur : surveillez les démarrages à froid et les échecs d'analyse.
-
Agent Amazon Bedrock : surveillez les instructions, les traces des appels des outils, le coût des jetons et la latence.
-
Fonction Lambda de l'outil (par exemple,
getOrderStatus) : surveille le temps d'exécution et le nombre d'appels d'outils par utilisateur. -
Requête RAG via la base de connaissances — Surveillez le score de pertinence et les bases manquantes.
-
Fonction Lambda du post-processeur : surveille la validation du schéma et les déclencheurs de secours.
-
Journaux CloudWatch et OpenSearch — Surveillez les journaux de session, le suivi IDs et la qualité de réponse du modèle.
-
Alarmes : surveillez les alertes pour détecter les taux d'échec élevés, les pics de coût par session et la baisse de latence.
Bonnes pratiques en matière d'observabilité
Tenez compte des meilleures pratiques suivantes en matière d'observabilité dans les flux de travail d'IA génératifs et sans serveur :
-
Instrumentez les flux d'IA à l'aide de journaux structurés pour permettre la corrélation entre les composants (par exemple, session utilisateur, ID de trace et réponse du modèle).
-
Utilisez un schéma de journalisation cohérent pour prendre en charge les pipelines d'analyse, d'alerte et d'analyse en aval.
-
Émettez des métriques personnalisées par couche pour aider à retracer les erreurs liées au modèle par rapport aux problèmes d'infrastructure.
-
Marquez les journaux avec l'environnement et le contexte pour permettre le filtrage par rôle d'utilisateur, région, version ou équipe.
-
Utilisez des alarmes de détection d'anomalies pour détecter les pics de jetons, les pics de latence ou les dérives de sortie.
-
Corrélez les journaux de réponse LLM avec l'impact en aval pour relier les résultats des agents aux décisions, aux escalades ou aux échecs.
-
Automatisez la génération de rapports via des tableaux de bord hebdomadaires avec des coûts, une utilisation des modèles et des taux de repli rapides afin de renforcer les cycles de responsabilisation et d'amélioration.
Résumé de l'observabilité et de la surveillance
Dans les systèmes sans serveur pilotés par l'IA, vous ne surveillez pas les hôtes. Au lieu de cela, vous surveillez le comportement, les coûts et l'exactitude. L'observabilité constitue la base de la résilience opérationnelle, du contrôle des coûts et des prévisions, de l'évaluation des performances du LLM, de la gouvernance et de la conformité, ainsi que de l'amélioration continue des délais et des agents.
Les fonctionnalités natives Services AWS qui prennent en charge l'observabilité et la surveillance, ainsi que la télémétrie structurée adaptée aux événements, fournissent les fonctionnalités nécessaires. Grâce à ces fonctionnalités, les équipes peuvent gérer en toute confiance les charges de travail liées à l'IA à grande échelle, en sachant ce qui se passe, où et pourquoi.