View a markdown version of this page

影響和基準 - Amazon ElastiCache

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

影響和基準

AWS 評估了來自公有 SemBenchmarkLmArena 資料集的 63,796 個真實使用者聊天機器人查詢及其重述變體的方法。此資料集會擷取一般助理使用案例中與 Chatbot Arena 平台的使用者互動,例如問題回答、寫入和分析。

評估使用下列組態:

  • ElastiCache cache.r7g.large執行個體做為語意快取存放區

  • 用於內嵌的 Amazon Titan Text Embeddings V2

  • Claude 3 Haiku for LLM 推論

快取已啟動為空,所有 63,796 個查詢都串流為隨機傳入使用者流量,模擬真實世界的應用程式流量。

不同相似性閾值的成本和準確性

下表摘要說明不同相似性閾值的成本降低、延遲改善和準確性之間的取捨:

相似性閾值 快取命中率 快取回應的準確性 每日總成本 節省成本 平均延遲 (秒) 延遲降低
基準 (無快取) 49.50 美元 4.35
0.99 (非常嚴格) 23.5% 92.1% 41.70 美元 15.8% 3.60 17.1%
0.95 (嚴格) 56.0% 92.6% 23.80 美元 51.9% 1.84 57.7%
0.90 (中度) 74.5% 92.3% 13.60 美元 72.5% 1.21 72.2%
0.80 (平衡) 87.6% 91.8% 7.60 美元 84.6% 0.60 86.1%
0.75 (已釋放) 90.3% 91.2% 6.80 美元 86.3% 0.51 88.3%
0.50 (非常寬鬆) 94.3% 87.5% 5.90 美元 88.0% 0.46 89.3%

在相似性閾值為 0.75 時,語意快取可將 LLM 推論成本降低高達 86%,同時維持 91% 的答案準確性。LLM、內嵌模型和備份存放區的選擇會影響成本和延遲。使用較大、成本較高的 LLMs 時,語意快取可提供按比例較大的效益。

個別查詢延遲改善

下表顯示對個別查詢延遲的影響。快取命中延遲降低高達 59 倍,從數秒縮短到幾百毫秒:

查詢意圖 快取遺漏延遲 快取命中延遲 減少
「是否有 SI 字首偏離 10 的表示力的執行個體,不包括其應用程式?」 → 重述變體 6.51 秒 0.11 秒 59 倍
「Sally 是擁有 3 個哥哥的女生,她的每個哥哥都有 2 個哥哥。Sally 的 系列中有多少個手足?」 → 重述變體 1.64 秒 0.13 秒 12 倍