翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
オブザーバビリティとモニタリング
オブザーバビリティは、イベント駆動型の AI を活用したシステムを大規模に運用するために不可欠です。モノリシックアプリケーションとは異なり、サーバーレス AI システムと生成 AI システムは、エフェメラルコンピューティングサービスと統合 AI サービス (Amazon Bedrock や Amazon SageMaker など) で分散、ステートレス、構成されます。これらの特性には、可視性、相関、説明責任に関する新しい考え方が必要です。
オブザーバビリティがない場合、チームは次の問題に直面します。
-
実行とエージェントの動作の点を隠す
-
未検出のコスト異常またはパフォーマンスの低下
-
モデル出力と大規模言語モデル (LLM) の品質に関するインサイトが限られている
-
非同期ワークフロー全体の根本原因分析が困難
サーバーレス AI の次の領域では、オブザーバビリティが重要な役割を果たします。
-
AI 出力 – LLMs は非決定的です。出力のログ記録と検査が、時間の経過とともにその正確性を検証する唯一の方法です。
-
サーバーレス実行 – AWS Lambda、 AWS Step Functions、および Amazon EventBridge は固定ホストでは実行されません。モニタリングは、サーバーベースではなくトレースベースである必要があります。
-
コストとレイテンシー – Amazon Bedrock の使用はトークンに基づいています。Lambda および Step Functions は、期間と実行ごとに課金されます。
-
セキュリティとガバナンス – プロンプトログ、エージェントツールの使用、API コールは、監査され、アイデンティティとロールのコンテキストに絞り込まれている必要があります。
-
ユーザーエクスペリエンス – 障害、遅延、幻覚は信頼に影響します。これらの問題を早期に検出することは、AI システムに対するユーザーの信頼を維持する上で重要です。
モニタリングする主要なオブザーバビリティメトリクス
次の表は、オブザーバビリティとモニタリングに関連する主要なメトリクスの重要性を示しています。
メトリクスカテゴリ |
メトリクス |
メトリクスが重要な理由 |
|---|---|---|
エージェントの動作 |
|
インテントとアクションの不一致を明らかにします。 |
コストの傾向 |
ユーザーまたはセッションあたりの推論コスト |
FinOps レポートと階層型モデルルーティングの決定を有効にします。 |
呼び出しメトリクス |
|
パイプラインの安定性とエラー耐性を検証します。 |
ナレッジベースの取得 |
|
RAG パイプラインのパフォーマンスを測定します。 |
レイテンシー |
モデルあたりの推論レイテンシー |
|
プロンプトとレスポンスの品質 |
|
グラウンディングが機能し、プロンプトが期待どおりに動作していることを確認します。 |
セキュリティとアクセス |
IAM ロール別のエージェントとツールの使用 |
最小特権とトレーサビリティの原則を確保します。 |
トークンの使用 |
入力トークンと出力トークンの合計 (Amazon Bedrock) |
|
ワークフローの状態 |
Step Functions ワークフローの失敗、再試行、タイムアウト |
オーケストレーションの問題と再試行ループを表面化します。 |
AWS のサービス サーバーレス AI と生成 AI を監視するための
次の表は、サーバーレス AI アプリケーションと生成 AI アプリケーションのオブザーバビリティをサポートする AWS のサービス および 機能について、理想的なユースケースを含めて説明しています。
AWS のサービス |
説明 |
最適なユースケース |
|---|---|---|
Lambda、Step Functions、Amazon Bedrock エージェント、Amazon API Gateway からログをキャプチャします |
|
|
呼び出し数、期間、トークン数など、カスタムおよびサービスによって生成された主要業績評価指標 (KPIs) |
|
|
Lambda、API Gateway、Step Functions など、サーバーレスフロー全体のトレース |
|
|
ログストリームの高度なメトリクスの構造化ログ記録 |
個別のメトリクス呼び出しなしで分析を有効にする |
|
ネイティブ Amazon Bedrock エージェントの実行トレース、ツールコール、RAG インサイト |
エージェントの動作をモニタリングし、障害をトラブルシューティングする |
|
パイプラインを流れるイベント形式を追跡して検証します |
|
|
すべての API コールと ID コンテキストをログに記録します |
|
|
推論レスポンス、構造化ログ、または監査レコードのインデックスを作成します。 |
|
|
トラフィックをシミュレートしてエンドポイントまたはワークフローをプロアクティブにテストします |
バージョン間の稼働時間とリグレッションのモニタリングを確保する |
例: エージェントベースのサポートワークフローのモニタリング
エージェントベースのサポートワークフローを効果的にモニタリングするには、関連するワークフローステージで次のメトリクスを使用することを検討してください。
-
API Gateway へのユーザークエリ – 応答時間と 5xx エラーをモニタリングします。
-
プリプロセッサ Lambda 関数 – コールドスタートと解析の失敗をモニタリングします。
-
Amazon Bedrock エージェント – プロンプト、ツールコールトレース、トークンコスト、レイテンシーをモニタリングします。
-
ツール Lambda 関数 ( など
getOrderStatus) – ユーザーあたりの実行時間とツール呼び出し数をモニタリングします。 -
ナレッジベースによる RAG クエリ — 関連性スコアと欠落しているグラウンディングをモニタリングします。
-
ポストプロセッサ Lambda 関数 – スキーマの検証とフォールバックトリガーをモニタリングします。
-
Logs CloudWatch と OpenSearch – セッションログ、トレース IDs。
-
アラーム – 高い障害率、セッションあたりのコストの急増、レイテンシーの低下に関するアラートをモニタリングします。
オブザーバビリティのベストプラクティス
サーバーレス AI ワークフローと生成 AI ワークフローでオブザーバビリティを実現するには、次のベストプラクティスを検討してください。
-
構造化ログを使用して AI フローを計測し、コンポーネント間の相関関係 (ユーザーセッション、トレース ID、モデルレスポンスなど) を有効にします。
-
整合性のあるログ記録スキーマを使用して、ダウンストリームの解析、アラート、分析パイプラインをサポートします。
-
レイヤーごとにカスタムメトリクスを生成して、インフラストラクチャの問題と比較してモデル関連のエラーをトレースするのに役立ちます。
-
環境とコンテキストを使用してログにタグ付けし、ユーザーロール、リージョン、バージョン、チームによるフィルタリングを有効にします。
-
異常検出アラームを使用して、トークンの急増、レイテンシーの急増、または出力ドリフトを検出します。
-
LLM レスポンスログをダウンストリームへの影響と関連付けて、エージェントの出力を決定、エスカレーション、または失敗にリンクします。
-
プロンプトコスト、モデル使用状況、フォールバック率を含む週次ダッシュボードを使用してレポート生成を自動化し、説明責任と改善サイクルを推進します。
オブザーバビリティとモニタリングの概要
AI 駆動型サーバーレスシステムでは、ホストをモニタリングしません。代わりに、動作、コスト、正確性をモニタリングします。オブザーバビリティは、運用レジリエンス、コスト管理と予測、LLM パフォーマンス評価、ガバナンスとコンプライアンス、プロンプトとエージェントの継続的な改善の基盤を提供します。
オブザーバビリティとモニタリング AWS のサービス をサポートするネイティブ、および構造化されたイベント対応テレメトリは、必要な機能を提供します。これらの機能を導入することで、チームは AI ワークロードを大規模に確実に運用し、何が起きているのか、どこで、なぜかを知ることができます。