本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
影響和基準
AWS 評估了來自公有 SemBenchmarkLmArena 資料集的 63,796 個真實使用者聊天機器人查詢及其重述變體的方法。此資料集會擷取一般助理使用案例中與 Chatbot Arena 平台的使用者互動,例如問題回答、寫入和分析。
評估使用下列組態:
ElastiCache
cache.r7g.large執行個體做為語意快取存放區用於內嵌的 Amazon Titan Text Embeddings V2
Claude 3 Haiku for LLM 推論
快取已啟動為空,所有 63,796 個查詢都串流為隨機傳入使用者流量,模擬真實世界的應用程式流量。
不同相似性閾值的成本和準確性
下表摘要說明不同相似性閾值的成本降低、延遲改善和準確性之間的取捨:
| 相似性閾值 | 快取命中率 | 快取回應的準確性 | 每日總成本 | 節省成本 | 平均延遲 (秒) | 延遲降低 |
|---|---|---|---|---|---|---|
| 基準 (無快取) | – | – | 49.50 美元 | – | 4.35 | – |
| 0.99 (非常嚴格) | 23.5% | 92.1% | 41.70 美元 | 15.8% | 3.60 | 17.1% |
| 0.95 (嚴格) | 56.0% | 92.6% | 23.80 美元 | 51.9% | 1.84 | 57.7% |
| 0.90 (中度) | 74.5% | 92.3% | 13.60 美元 | 72.5% | 1.21 | 72.2% |
| 0.80 (平衡) | 87.6% | 91.8% | 7.60 美元 | 84.6% | 0.60 | 86.1% |
| 0.75 (已釋放) | 90.3% | 91.2% | 6.80 美元 | 86.3% | 0.51 | 88.3% |
| 0.50 (非常寬鬆) | 94.3% | 87.5% | 5.90 美元 | 88.0% | 0.46 | 89.3% |
在相似性閾值為 0.75 時,語意快取可將 LLM 推論成本降低高達 86%,同時維持 91% 的答案準確性。LLM、內嵌模型和備份存放區的選擇會影響成本和延遲。使用較大、成本較高的 LLMs 時,語意快取可提供按比例較大的效益。
個別查詢延遲改善
下表顯示對個別查詢延遲的影響。快取命中延遲降低高達 59 倍,從數秒縮短到幾百毫秒:
| 查詢意圖 | 快取遺漏延遲 | 快取命中延遲 | 減少 |
|---|---|---|---|
| 「是否有 SI 字首偏離 10 的表示力的執行個體,不包括其應用程式?」 → 重述變體 | 6.51 秒 | 0.11 秒 | 59 倍 |
| 「Sally 是擁有 3 個哥哥的女生,她的每個哥哥都有 2 個哥哥。Sally 的 系列中有多少個手足?」 → 重述變體 | 1.64 秒 | 0.13 秒 | 12 倍 |