モニタリングする主要なオブザーバビリティメトリクス AWS のサービスサーバーレス AI と生成 AI を監視するための例: エージェントベースのサポートワークフローのモニタリングオブザーバビリティのベストプラクティスオブザーバビリティとモニタリングの概要

オブザーバビリティとモニタリング

オブザーバビリティは、イベント駆動型の AI を活用したシステムを大規模に運用するために不可欠です。モノリシックアプリケーションとは異なり、サーバーレス AI システムと生成 AI システムは、エフェメラルコンピューティングサービスと統合 AI サービス (Amazon Bedrock や Amazon SageMaker など) で分散、ステートレス、構成されます。これらの特性には、可視性、相関、説明責任に関する新しい考え方が必要です。

オブザーバビリティがない場合、チームは次の問題に直面します。

実行とエージェントの動作の点を隠す
未検出のコスト異常またはパフォーマンスの低下
モデル出力と大規模言語モデル (LLM) の品質に関するインサイトが限られている
非同期ワークフロー全体の根本原因分析が困難

サーバーレス AI の次の領域では、オブザーバビリティが重要な役割を果たします。

AI 出力 – LLMs は非決定的です。出力のログ記録と検査が、時間の経過とともにその正確性を検証する唯一の方法です。
サーバーレス実行 – AWS Lambda、 AWS Step Functions、および Amazon EventBridge は固定ホストでは実行されません。モニタリングは、サーバーベースではなくトレースベースである必要があります。
コストとレイテンシー – Amazon Bedrock の使用はトークンに基づいています。Lambda および Step Functions は、期間と実行ごとに課金されます。
セキュリティとガバナンス – プロンプトログ、エージェントツールの使用、API コールは、監査され、アイデンティティとロールのコンテキストに絞り込まれている必要があります。
ユーザーエクスペリエンス – 障害、遅延、幻覚は信頼に影響します。これらの問題を早期に検出することは、AI システムに対するユーザーの信頼を維持する上で重要です。

モニタリングする主要なオブザーバビリティメトリクス

次の表は、オブザーバビリティとモニタリングに関連する主要なメトリクスの重要性を示しています。

メトリクスカテゴリ	メトリクス	メトリクスが重要な理由
エージェントの動作	ツール選択レート無効なツール呼び出し	インテントとアクションの不一致を明らかにします。
コストの傾向	ユーザーまたはセッションあたりの推論コスト	FinOps レポートと階層型モデルルーティングの決定を有効にします。
呼び出しメトリクス	Lambda 呼び出しエラー率コールドスタート	パイプラインの安定性とエラー耐性を検証します。
ナレッジベースの取得	ヒット/ミス率グラウンディング関連性スコア	RAG パイプラインのパフォーマンスを測定します。
レイテンシー	モデルあたりの推論レイテンシー	Amazon Bedrock または SageMaker のスローダウンを検出します。ユーザーの応答時間を最適化します。
プロンプトとレスポンスの品質	幻覚率フォールバックレート	グラウンディングが機能し、プロンプトが期待どおりに動作していることを確認します。
セキュリティとアクセス	IAM ロール別のエージェントとツールの使用	最小特権とトレーサビリティの原則を確保します。
トークンの使用	入力トークンと出力トークンの合計 (Amazon Bedrock)	コストを制御します。プロンプトの肥大化またはモデルの誤用を検出します。
ワークフローの状態	Step Functions ワークフローの失敗、再試行、タイムアウト	オーケストレーションの問題と再試行ループを表面化します。

AWS のサービスサーバーレス AI と生成 AI を監視するための

次の表は、サーバーレス AI アプリケーションと生成 AI アプリケーションのオブザーバビリティをサポートする AWS のサービスおよび機能について、理想的なユースケースを含めて説明しています。

AWS のサービス	説明	最適なユースケース
Amazon CloudWatch Logs	Lambda、Step Functions、Amazon Bedrock エージェント、Amazon API Gateway からログをキャプチャします	デバッグ監査証跡ユーザーセッショントレース
Amazon CloudWatch メトリクス	呼び出し数、期間、トークン数など、カスタムおよびサービスによって生成された主要業績評価指標 (KPIs)	ダッシュボードアラート傾向分析
AWS X-Ray	Lambda、API Gateway、Step Functions など、サーバーレスフロー全体のトレース	根本原因の分析レイテンシーの追跡依存関係マッピング
CloudWatch 埋め込みメトリクス形式	ログストリームの高度なメトリクスの構造化ログ記録	個別のメトリクス呼び出しなしで分析を有効にする
Amazon Bedrock エージェントトレースとモデル呼び出しのログ記録	ネイティブ Amazon Bedrock エージェントの実行トレース、ツールコール、RAG インサイト	エージェントの動作をモニタリングし、障害をトラブルシューティングする
Amazon EventBridge Pipes とスキーマレジストリ	パイプラインを流れるイベント形式を追跡して検証します	不正な形式のイベントを防ぐ契約の一貫性を確保する
AWS CloudTrail	すべての API コールと ID コンテキストをログに記録します	コンプライアンスセキュリティ監査ロール別のエージェントとツールの使用
Amazon OpenSearch Service	推論レスポンス、構造化ログ、または監査レコードのインデックスを作成します。	レスポンスのセマンティック検索オブザーバビリティダッシュボード
Amazon CloudWatch Synthetics	トラフィックをシミュレートしてエンドポイントまたはワークフローをプロアクティブにテストします	バージョン間の稼働時間とリグレッションのモニタリングを確保する

例: エージェントベースのサポートワークフローのモニタリング

エージェントベースのサポートワークフローを効果的にモニタリングするには、関連するワークフローステージで次のメトリクスを使用することを検討してください。

API Gateway へのユーザークエリ – 応答時間と 5xx エラーをモニタリングします。
プリプロセッサ Lambda 関数 – コールドスタートと解析の失敗をモニタリングします。
Amazon Bedrock エージェント – プロンプト、ツールコールトレース、トークンコスト、レイテンシーをモニタリングします。
ツール Lambda 関数 ( などgetOrderStatus) – ユーザーあたりの実行時間とツール呼び出し数をモニタリングします。
ナレッジベースによる RAG クエリ — 関連性スコアと欠落しているグラウンディングをモニタリングします。
ポストプロセッサ Lambda 関数 – スキーマの検証とフォールバックトリガーをモニタリングします。
Logs CloudWatch と OpenSearch – セッションログ、トレース IDs。
アラーム – 高い障害率、セッションあたりのコストの急増、レイテンシーの低下に関するアラートをモニタリングします。

オブザーバビリティのベストプラクティス

サーバーレス AI ワークフローと生成 AI ワークフローでオブザーバビリティを実現するには、次のベストプラクティスを検討してください。

構造化ログを使用して AI フローを計測し、コンポーネント間の相関関係 (ユーザーセッション、トレース ID、モデルレスポンスなど) を有効にします。
整合性のあるログ記録スキーマを使用して、ダウンストリームの解析、アラート、分析パイプラインをサポートします。
レイヤーごとにカスタムメトリクスを生成して、インフラストラクチャの問題と比較してモデル関連のエラーをトレースするのに役立ちます。
環境とコンテキストを使用してログにタグ付けし、ユーザーロール、リージョン、バージョン、チームによるフィルタリングを有効にします。
異常検出アラームを使用して、トークンの急増、レイテンシーの急増、または出力ドリフトを検出します。
LLM レスポンスログをダウンストリームへの影響と関連付けて、エージェントの出力を決定、エスカレーション、または失敗にリンクします。
プロンプトコスト、モデル使用状況、フォールバック率を含む週次ダッシュボードを使用してレポート生成を自動化し、説明責任と改善サイクルを推進します。