

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 影響和基準
<a name="semantic-caching-benchmarks"></a>

AWS 評估了來自公有 SemBenchmarkLmArena 資料集的 63，796 個真實使用者聊天機器人查詢及其重述變體的方法。此資料集會擷取一般助理使用案例中與 Chatbot Arena 平台的使用者互動，例如問題回答、寫入和分析。

評估使用下列組態：
+ ElastiCache `cache.r7g.large`執行個體做為語意快取存放區
+ 用於內嵌的 Amazon Titan Text Embeddings V2 
+ Claude 3 Haiku for LLM 推論

快取已啟動為空，所有 63，796 個查詢都串流為隨機傳入使用者流量，模擬真實世界的應用程式流量。

## 不同相似性閾值的成本和準確性
<a name="semantic-caching-cost-accuracy"></a>

下表摘要說明不同相似性閾值的成本降低、延遲改善和準確性之間的取捨：


| 相似性閾值 | 快取命中率 | 快取回應的準確性 | 每日總成本 | 節省成本 | 平均延遲 （秒） | 延遲降低 | 
| --- | --- | --- | --- | --- | --- | --- | 
| 基準 （無快取） | – | – | 49.50 美元 | – | 4.35 | – | 
| 0.99 （非常嚴格） | 23.5% | 92.1% | 41.70 美元 | 15.8% | 3.60 | 17.1% | 
| 0.95 （嚴格） | 56.0% | 92.6% | 23.80 美元 | 51.9% | 1.84 | 57.7% | 
| 0.90 （中度） | 74.5% | 92.3% | 13.60 美元 | 72.5% | 1.21 | 72.2% | 
| 0.80 （平衡） | 87.6% | 91.8% | 7.60 美元 | 84.6% | 0.60 | 86.1% | 
| 0.75 （已釋放） | 90.3% | 91.2% | 6.80 美元 | 86.3% | 0.51 | 88.3% | 
| 0.50 （非常寬鬆） | 94.3% | 87.5% | 5.90 美元 | 88.0% | 0.46 | 89.3% | 

在相似性閾值為 0.75 時，語意快取可將 LLM 推論成本降低高達 86%，同時維持 91% 的答案準確性。LLM、內嵌模型和備份存放區的選擇會影響成本和延遲。使用較大、成本較高的 LLMs 時，語意快取可提供按比例較大的效益。

## 個別查詢延遲改善
<a name="semantic-caching-latency-improvements"></a>

下表顯示對個別查詢延遲的影響。快取命中延遲降低高達 59 倍，從數秒縮短到幾百毫秒：


| 查詢意圖 | 快取遺漏延遲 | 快取命中延遲 | 減少 | 
| --- | --- | --- | --- | 
| 「是否有 SI 字首偏離 10 的表示力的執行個體，不包括其應用程式？」 → 重述變體 | 6.51 秒 | 0.11 秒 | 59 倍 | 
| 「Sally 是擁有 3 個哥哥的女生，她的每個哥哥都有 2 個哥哥。Sally 的 系列中有多少個手足？」 → 重述變體 | 1.64 秒 | 0.13 秒 | 12 倍 | 