View a markdown version of this page

Beobachtbarkeit und Überwachung - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Beobachtbarkeit und Überwachung

Beobachtbarkeit ist für den Betrieb ereignisgesteuerter, KI-gestützter Systeme in großem Maßstab unerlässlich. Im Gegensatz zu monolithischen Anwendungen sind serverlose und generative KI-Systeme verteilt, zustandslos und bestehen aus kurzlebigen Rechen- und integrierten KI-Services (z. B. Amazon Bedrock und Amazon). SageMaker Diese Merkmale erfordern ein neues Denken in Bezug auf Sichtbarkeit, Korrelation und Rechenschaftspflicht.

Ohne Beobachtbarkeit stehen Teams vor den folgenden Problemen:

  • Blinde Flecken bei der Ausführung und dem Verhalten der Agenten

  • Unentdeckte Kostenanomalien oder Leistungseinbußen

  • Eingeschränkter Einblick in die Modellergebnisse und die Qualität von Large Language Model (LLM)

  • Schwierigkeiten bei der Ursachenanalyse in asynchronen Workflows

Die Beobachtbarkeit spielt in den folgenden Bereichen der serverlosen KI eine entscheidende Rolle:

  • KI-Ergebnisse LLMs sind nicht deterministisch. Ihre Ergebnisse zu protokollieren und zu überprüfen, ist die einzige Möglichkeit, ihre Richtigkeit im Laufe der Zeit zu überprüfen.

  • Serverlose Ausführung — AWS Lambda AWS Step Functions, und Amazon läuft EventBridge nicht auf festen Hosts. Die Überwachung muss trace-basiert und nicht serverbasiert sein.

  • Kosten und Latenz — Die Nutzung von Amazon Bedrock basiert auf Tokens. Lambda- und Step Functions werden pro Dauer und Ausführung berechnet.

  • Sicherheit und Steuerung — Eingabeaufforderungsprotokolle, Nutzung von Agententools und API-Aufrufe müssen geprüft und auf Identität und Rollenkontext abgestimmt werden.

  • Benutzererlebnis — Ausfälle, Verzögerungen oder Halluzinationen beeinträchtigen das Vertrauen. Die frühzeitige Erkennung dieser Probleme ist entscheidend, um das Vertrauen der Benutzer in KI-Systeme aufrechtzuerhalten.

Wichtige Messwerte zur Beobachtbarkeit, die es zu überwachen gilt

In der folgenden Tabelle wird die Bedeutung der wichtigsten Kennzahlen im Zusammenhang mit Beobachtbarkeit und Überwachung beschrieben.

Kategorie „Kennzahlen“

Metrik

Warum ist die Metrik wichtig

Verhalten der Agenten

  • Rate der Werkzeugauswahl

  • Ungültige Tool-Aufrufe

Deckt ein Missverhältnis zwischen Absicht und Handlung auf.

Kostentrends

Inferenzkosten pro Benutzer oder Sitzung

Ermöglicht die FinOps Erstellung von Berichten und die Weiterleitung gestaffelter Modelle.

Aufrufmetriken

  • Lambda-Aufrufe

  • Fehlerrate

  • Kalte Starts

Überprüft die Stabilität und Fehlerresistenz der Pipeline.

Abruf der Wissensdatenbank

  • Verhältnis Treffer/Fehlschläge

  • Bewertung der Relevanz von Grounding

Misst, wie gut die RAG-Pipeline funktioniert.

Latenz

Inferenzlatenz pro Modell

  • Erkennt Verlangsamungen in Amazon Bedrock oder. SageMaker

  • Optimiert die Reaktionszeit der Benutzer.

Schnelligkeit und Antwortqualität

  • Halluzinationsrate

  • Fallback-Rate

Stellt sicher, dass die Erdung funktioniert und die Eingabeaufforderungen erwartungsgemäß funktionieren.

Sicherheit und Zugang

Verwendung von Agenten und Tools nach IAM-Rolle

Gewährleistet das Prinzip der geringsten Rechte und Rückverfolgbarkeit.

Verwendung von Tokens

Eingabe- und Ausgabetokens insgesamt (Amazon Bedrock)

  • Steuert die Kosten.

  • Erkennt sofort Blähungen oder Modellmissbrauch.

Integrität des Workflows

Workflow-Fehler, Wiederholungsversuche und Timeouts von Step Functions

Zeigt Orchestrierungsprobleme und Wiederholungsschleifen an.

AWS-Services zur Beobachtung serverloser und generativer KI

In der folgenden Tabelle werden Funktionen AWS-Services und Funktionen beschrieben, die die Observability für serverlose und generative KI-Anwendungen unterstützen, einschließlich ihrer idealen Anwendungsfälle.

AWS-Service

Beschreibung

Idealer Anwendungsfall

CloudWatch Amazon-Protokolle

Erfasst Protokolle von Lambda, Step Functions, Amazon Bedrock Agents und Amazon API Gateway

  • Debuggen

  • Audit-Trails

  • Nachverfolgung von Benutzersitzungen

CloudWatch Amazon-Metriken

Benutzerdefinierte und vom Service generierte Leistungskennzahlen (KPIs), wie Anzahl der Aufrufe, Dauer und Token-Anzahl

  • Dashboarding

  • Benachrichtigungen

  • Trendanalyse

AWS X-Ray

Traces über serverlose Datenflüsse hinweg, einschließlich Lambda, API Gateway und Step Functions

  • Ursachenanalyse

  • Verfolgung der Latenz

  • Zuordnung von Abhängigkeiten

CloudWatch eingebettetes metrisches Format

Strukturierte Protokollierung für erweiterte Metriken in Log-Streams

Ermöglichen Sie Analysen ohne separate Metrik-Aufrufe

Protokollierung von Amazon Bedrock Agentenablaufverfolgung und Modellaufrufen

Ablaufverfolgung, Tool-Aufrufe und RAG-Einblicke in die native Ausführung von Amazon Bedrock Agent

Überwachen Sie das Verhalten der Agenten und beheben Sie Fehler

Amazon EventBridge Pipes und Schemaregister

Verfolgt und validiert Eventformate, die durch Ihre Pipeline fließen

  • Beugt falsch formatierten Ereignissen vor

  • Stellen Sie die Konsistenz der Verträge sicher

AWS CloudTrail

Protokolliert alle API-Aufrufe und den Identitätskontext

  • Compliance

  • Sicherheitsprüfungen

  • Verwendung von Agenten und Tools nach Rolle

OpenSearch Amazon-Dienst

Indiziert Inferenzantworten, strukturierte Protokolle oder Prüfaufzeichnungen

  • Semantische Suche nach Antworten

  • Beobachtbarkeits Dashboards

Amazon CloudWatch Synthetics

Simuliert den Datenverkehr, um Endpunkte oder Workflows proaktiv zu testen

Stellen Sie die Verfügbarkeit und die Regressionsüberwachung für alle Versionen sicher

Beispiel: Überwachung eines agentenbasierten Support-Workflows

Um einen Support-Workflow auf Agentenbasis effektiv zu überwachen, sollten Sie die Verwendung der folgenden Kennzahlen in der jeweiligen Workflow-Phase in Betracht ziehen:

  1. Benutzerabfrage an API Gateway — Überwachen Sie die Antwortzeit und die 5xx-Fehler.

  2. Lambda-Funktion vor dem Prozessor — Überwachen Sie Kaltstarts und Parsing-Fehler.

  3. Amazon Bedrock Agent — Überwachen Sie die Eingabeaufforderung, die Ablaufverfolgung von Tool-Aufrufen, die Token-Kosten und die Latenz.

  4. Tool-Lambda-Funktion (z. B.getOrderStatus) — Überwachen Sie die Ausführungszeit und die Anzahl der Tool-Aufrufe pro Benutzer.

  5. RAG-Abfrage über die Wissensdatenbank — Überwachen Sie den Relevanzwert und die fehlende Grundlage.

  6. Lambda-Funktion nach dem Prozessor — Überwachen Sie die Schemavalidierung und Fallback-Trigger.

  7. Protokolle CloudWatch und OpenSearch — Überwachung von Sitzungsprotokollen IDs, Nachverfolgung und Modellierung der Antwortqualität.

  8. Alarme — Überwachen Sie Warnmeldungen bei hohen Ausfallraten, Kostenspitzen pro Sitzung und verminderter Latenz.

Bewährte Methoden für Beobachtbarkeit

Beachten Sie die folgenden bewährten Methoden für die Beobachtbarkeit in serverlosen und generativen KI-Workflows:

  • Instrumentieren Sie KI-Flows mit strukturierten Protokollen, um eine Korrelation zwischen Komponenten zu ermöglichen (z. B. Benutzersitzung, Trace-ID und Modellantwort).

  • Verwenden Sie ein konsistentes Protokollierungsschema, um nachgelagerte Parsing-, Warnungs- und Analyse-Pipelines zu unterstützen.

  • Geben Sie benutzerdefinierte Metriken pro Ebene aus, um modellbezogene Fehler im Vergleich zu Infrastrukturproblemen nachzuvollziehen.

  • Kennzeichnen Sie Logs mit Umgebung und Kontext, um die Filterung nach Benutzerrolle, Region, Version oder Team zu ermöglichen.

  • Verwenden Sie Alarme zur Erkennung von Anomalien, um Token-Überspannungen, Latenzspitzen oder Ausgangsabweichungen zu erkennen.

  • Korrelieren Sie LLM-Antwortprotokolle mit nachgelagerten Auswirkungen, um die Ergebnisse der Agenten mit Entscheidungen, Eskalationen oder Ausfällen zu verknüpfen.

  • Automatisieren Sie die Berichtsgenerierung über wöchentliche Dashboards mit zeitnahen Kosten-, Modellnutzungs- und Fallback-Raten, um die Rechenschaftspflicht und die Verbesserungszyklen zu fördern.

Zusammenfassung der Beobachtbarkeit und Überwachung

In KI-gesteuerten serverlosen Systemen überwachen Sie Hosts nicht. Stattdessen überwachen Sie Verhalten, Kosten und Richtigkeit. Observability bildet die Grundlage für betriebliche Belastbarkeit, Kostenkontrolle und -prognose, LLM-Leistungsbewertung, Unternehmensführung und Einhaltung von Vorschriften sowie für die kontinuierliche Verbesserung von Anfragen und Mitarbeitern.

Systemeigene AWS-Services Systeme, die Beobachtbarkeit und Überwachung unterstützen, bieten zusammen mit strukturierter, ereignisorientierter Telemetrie die erforderlichen Funktionen. Mit diesen Funktionen können Teams KI-Workloads problemlos in großem Umfang ausführen und wissen, was wo und warum passiert.