影響和基準

AWS 評估了來自公有 SemBenchmarkLmArena 資料集的 63，796 個真實使用者聊天機器人查詢及其重述變體的方法。此資料集會擷取一般助理使用案例中與 Chatbot Arena 平台的使用者互動，例如問題回答、寫入和分析。

評估使用下列組態：

快取已啟動為空，所有 63，796 個查詢都串流為隨機傳入使用者流量，模擬真實世界的應用程式流量。

不同相似性閾值的成本和準確性

下表摘要說明不同相似性閾值的成本降低、延遲改善和準確性之間的取捨：

相似性閾值	快取命中率	快取回應的準確性	每日總成本	節省成本	平均延遲（秒）	延遲降低
基準（無快取）	–	–	49.50 美元	–	4.35	–
0.99 （非常嚴格）	23.5%	92.1%	41.70 美元	15.8%	3.60	17.1%
0.95 （嚴格）	56.0%	92.6%	23.80 美元	51.9%	1.84	57.7%
0.90 （中度）	74.5%	92.3%	13.60 美元	72.5%	1.21	72.2%
0.80 （平衡）	87.6%	91.8%	7.60 美元	84.6%	0.60	86.1%
0.75 （已釋放）	90.3%	91.2%	6.80 美元	86.3%	0.51	88.3%
0.50 （非常寬鬆）	94.3%	87.5%	5.90 美元	88.0%	0.46	89.3%

在相似性閾值為 0.75 時，語意快取可將 LLM 推論成本降低高達 86%，同時維持 91% 的答案準確性。LLM、內嵌模型和備份存放區的選擇會影響成本和延遲。使用較大、成本較高的 LLMs 時，語意快取可提供按比例較大的效益。

下表顯示對個別查詢延遲的影響。快取命中延遲降低高達 59 倍，從數秒縮短到幾百毫秒：

查詢意圖	快取遺漏延遲	快取命中延遲	減少
「是否有 SI 字首偏離 10 的表示力的執行個體，不包括其應用程式？」 → 重述變體	6.51 秒	0.11 秒	59 倍
「Sally 是擁有 3 個哥哥的女生，她的每個哥哥都有 2 個哥哥。Sally 的系列中有多少個手足？」 → 重述變體	1.64 秒	0.13 秒	12 倍

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

使用 ElastiCache for Valkey 實作語意快取

多轉對話快取