影響とベンチマーク

AWS は、パブリック SemBenchmarkLmArena データセットからの 63,796 件の実際のユーザーチャットボットクエリとその言い換えられたバリアントに対するアプローチを評価しました。このデータセットは、質問への回答、書き込み、分析などの一般的なアシスタントのユースケースにおける Chatbot Arena プラットフォームとのユーザーインタラクションをキャプチャします。

評価では、次の設定が使用されました。

セマンティックキャッシュストアとしての ElastiCache cache.r7g.largeインスタンス
埋め込み用の Amazon Titan Text Embeddings V2
Claude 3 Haiku for LLM 推論

キャッシュは空で開始され、63,796 件のクエリはすべてランダムな受信ユーザートラフィックとしてストリーミングされ、実際のアプリケーショントラフィックをシミュレートしました。

異なる類似度しきい値でのコストと精度

次の表は、さまざまな類似度しきい値におけるコスト削減、レイテンシーの改善、精度のトレードオフをまとめたものです。

類似性のしきい値	キャッシュヒット率	キャッシュされたレスポンスの精度	1 日あたりの合計コスト	コスト削減	平均レイテンシー (秒)	レイテンシーの削減
ベースライン (キャッシュなし)	–	–	49.50 USD	–	4.35	–
0.99 (非常に厳密)	23.5%	92.1%	41.70 USD	15.8%	3.60	17.1%
0.95 (厳格)	56.0%	92.6%	23.80 USD	51.9%	1.84	57.7%
0.90 (中)	74.5%	92.3%	13.60 USD	72.5%	1.21	72.2%
0.80 (バランス)	87.6%	91.8%	7.60 USD	84.6%	0.60	86.1%
0.75 (緩和)	90.3%	91.2%	6.80 USD	86.3%	0.51	88.3%
0.50 (非常に緩い)	94.3%	87.5%	5.90 USD	88.0%	0.46	89.3%

類似度しきい値 0.75 では、セマンティックキャッシュにより、91% の回答精度を維持しながら LLM 推論コストを最大 86% 削減しました。LLM、埋め込みモデル、バッキングストアの選択は、コストとレイテンシーの両方に影響します。セマンティックキャッシュは、大規模でコストの高い LLMs。

個々のクエリレイテンシーの改善

次の表は、個々のクエリレイテンシーへの影響を示しています。キャッシュヒットにより、レイテンシーが数秒から数百ミリ秒に最大 59 倍短縮されました。

クエリインテント	キャッシュミスレイテンシー	キャッシュヒットレイテンシー	削減
「アプリケーションを除き、SI プレフィックスが 10 の累乗の表示から逸脱するインスタンスはありますか？」 → 言い換えられたバリアント	6.51 秒	0.11 秒	59 倍
「サリーは 3 人の兄弟を持つ女の子で、それぞれの兄弟には 2 人の姉妹がいます。Sally の家族に何人の姉妹がいますか？」 → 言い換えられたバリアント	1.64 秒	0.13 秒	12 倍

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ElastiCache for Valkey を使用したセマンティックキャッシュの実装

マルチターン会話キャッシュ