

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# 影響とベンチマーク
<a name="semantic-caching-benchmarks"></a>

AWS は、パブリック SemBenchmarkLmArena データセットからの 63,796 件の実際のユーザーチャットボットクエリとその言い換えられたバリアントに対するアプローチを評価しました。このデータセットは、質問への回答、書き込み、分析などの一般的なアシスタントのユースケースにおける Chatbot Arena プラットフォームとのユーザーインタラクションをキャプチャします。

評価では、次の設定が使用されました。
+ セマンティックキャッシュストアとしての ElastiCache `cache.r7g.large`インスタンス
+ 埋め込み用の Amazon Titan Text Embeddings V2 
+ Claude 3 Haiku for LLM 推論

キャッシュは空で開始され、63,796 件のクエリはすべてランダムな受信ユーザートラフィックとしてストリーミングされ、実際のアプリケーショントラフィックをシミュレートしました。

## 異なる類似度しきい値でのコストと精度
<a name="semantic-caching-cost-accuracy"></a>

次の表は、さまざまな類似度しきい値におけるコスト削減、レイテンシーの改善、精度のトレードオフをまとめたものです。


| 類似性のしきい値 | キャッシュヒット率 | キャッシュされたレスポンスの精度 | 1 日あたりの合計コスト | コスト削減 | 平均レイテンシー (秒) | レイテンシーの削減 | 
| --- | --- | --- | --- | --- | --- | --- | 
| ベースライン (キャッシュなし) | – | – | 49.50 USD | – | 4.35 | – | 
| 0.99 (非常に厳密) | 23.5% | 92.1% | 41.70 USD | 15.8% | 3.60 | 17.1% | 
| 0.95 (厳格) | 56.0% | 92.6% | 23.80 USD | 51.9% | 1.84 | 57.7% | 
| 0.90 (中) | 74.5% | 92.3% | 13.60 USD | 72.5% | 1.21 | 72.2% | 
| 0.80 (バランス) | 87.6% | 91.8% | 7.60 USD | 84.6% | 0.60 | 86.1% | 
| 0.75 (緩和) | 90.3% | 91.2% | 6.80 USD | 86.3% | 0.51 | 88.3% | 
| 0.50 (非常に緩い) | 94.3% | 87.5% | 5.90 USD | 88.0% | 0.46 | 89.3% | 

類似度しきい値 0.75 では、セマンティックキャッシュにより、91% の回答精度を維持しながら LLM 推論コストを最大 86% 削減しました。LLM、埋め込みモデル、バッキングストアの選択は、コストとレイテンシーの両方に影響します。セマンティックキャッシュは、大規模でコストの高い LLMs。

## 個々のクエリレイテンシーの改善
<a name="semantic-caching-latency-improvements"></a>

次の表は、個々のクエリレイテンシーへの影響を示しています。キャッシュヒットにより、レイテンシーが数秒から数百ミリ秒に最大 59 倍短縮されました。


| クエリインテント | キャッシュミスレイテンシー | キャッシュヒットレイテンシー | 削減 | 
| --- | --- | --- | --- | 
| 「アプリケーションを除き、SI プレフィックスが 10 の累乗の表示から逸脱するインスタンスはありますか？」 → 言い換えられたバリアント | 6.51 秒 | 0.11 秒 | 59 倍 | 
| 「サリーは 3 人の兄弟を持つ女の子で、それぞれの兄弟には 2 人の姉妹がいます。Sally の家族に何人の姉妹がいますか？」 → 言い換えられたバリアント | 1.64 秒 | 0.13 秒 | 12 倍 | 