翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
セマンティックキャッシュの概要
正確な文字列一致に依存する従来のキャッシュとは異なり、セマンティックキャッシュはセマンティック類似性に基づいてデータを取得します。セマンティックキャッシュは、Amazon Titan Text Embeddings などのモデルによって生成されたベクトル埋め込みを使用して、高次元ベクトル空間のセマンティックの意味をキャプチャします。
生成 AI アプリケーションでは、セマンティックキャッシュはクエリとその対応するレスポンスのベクトル表現を保存します。システムは、各新しいクエリのベクトル埋め込みを以前のクエリのキャッシュされたベクトルと比較し、同様のクエリが以前に応答されたかどうかを判断します。キャッシュに設定された類似度しきい値を超える同様のクエリが含まれている場合、システムは LLM を呼び出す代わりに以前に生成されたレスポンスを返します。それ以外の場合、システムは LLM を呼び出してレスポンスを生成し、クエリの埋め込みとレスポンスをキャッシュして将来の再利用に備えます。
完全一致ではなくセマンティックなのはなぜですか?
何千人ものユーザーが同じ質問をする IT ヘルプチャットボットを考えてみましょう。次のクエリは異なる文字列ですが、同じ意味を持ちます。
「ラップトップに VPN アプリをインストールするにはどうすればよいですか?」
「社内 VPN のセットアップを案内してもらえますか?」
「コンピュータで VPN を使用する手順」
完全一致キャッシュは、各クエリを一意として扱い、LLM を 3 回呼び出します。セマンティックキャッシュは、これらのクエリを意味的に同等として認識し、3 つすべてのキャッシュされたレスポンスを返し、LLM を 1 回だけ呼び出します。
主な利点
セマンティックキャッシュは、生成 AI およびエージェント AI アプリケーションに次の利点を提供します。
コストの削減 – 同様の質問に対する回答を再利用することで、LLM 呼び出しの数と推論の全体的な支出を削減できます。ベンチマークでは、セマンティックキャッシュにより LLM 推論コストが最大 86% 削減されました。
低レイテンシー – キャッシュから回答を提供すると、LLM 推論を実行するよりも応答が速くなります。キャッシュヒットは秒単位ではなくミリ秒単位でレスポンスを返し、レイテンシーを最大 88% 削減します。
スケーラビリティの向上 – 類似クエリまたは繰り返しクエリの LLM 呼び出しを減らすことで、容量を増やすことなく、同じモデルのスループット制限内でより多くのリクエストを処理できます。
一貫性の向上 – 意味的に類似したリクエストに同じキャッシュされたレスポンスを使用すると、同じ根本的な質問に対して一貫した回答を提供できます。
セマンティックキャッシュが有効な場合
セマンティックキャッシュは、次のタイプのアプリケーションに特に効果的です。
| アプリケーションタイプ | 説明 | 例 |
|---|---|---|
| RAG ベースのアシスタントと副操縦士 | 多くのクエリは、共有ナレッジベースに対して異なるユーザーからの重複リクエストです。 | IT ヘルプチャットボット、製品よくある質問ボット、ドキュメントアシスタント |
| エージェント AI アプリケーション | エージェントはタスクを複数の小さなステップに分割し、同様の情報を繰り返し検索することがあります。 | コンプライアンスエージェントによるポリシー検索の再利用、調査エージェントによる以前の検出結果の再利用 |
| マルチモーダルアプリケーション | 類似するオーディオセグメント、イメージ、またはビデオクエリのマッチング | 営業時間などの繰り返しのリクエストのガイダンスを自動電話システムに再利用する |