本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
影响和基准
AWS 在 63,796 个真实用户聊天机器人查询及其来自公共数据集的释义变体上评估了该方法。 SemBenchmarkLmArena 该数据集捕获了用户与Chatbot Arena平台在一般助手用例(例如问答、写作和分析)中的互动。
评估使用了以下配置:
ElastiCache
cache.r7g.large实例作为语义缓存存储用于嵌入的 Amazon Titan 文本嵌入 V2
Claude 3 Haiku 用于法学硕士推断
缓存开始时为空,所有 63,796 个查询都作为随机传入的用户流量进行流式传输,模拟真实世界的应用程序流量。
不同相似度阈值下的成本和准确性
下表汇总了成本降低、延迟改善和不同相似度阈值的准确性之间的权衡取舍:
| 相似度阈值 | 缓存命中率 | 缓存响应的准确性 | 每日总费用 | 节省成本 | 平均延迟 (s) | 减少延迟 |
|---|---|---|---|---|---|---|
| 基准(无缓存) | – | – | 49.50 美元 | – | 4.35 | – |
| 0.99(非常严格) | 23.5% | 92.1% | 41.70 美元 | 15.8% | 3.60 | 17.1% |
| 0.95(严格) | 56.0% | 92.6% | 23.80 美元 | 51.9% | 1.84 | 57.7% |
| 0.90(中等) | 74.5% | 92.3% | 13.60 美元 | 72.5% | 1.21 | 72.2% |
| 0.80(平衡) | 87.6% | 91.8% | 7.60 美元 | 84.6% | 0.60 | 86.1% |
| 0.75(放松) | 90.3% | 91.2% | 6.80 美元 | 86.3% | 0.51 | 88.3% |
| 0.50(非常放松) | 94.3% | 87.5% | 5.90 美元 | 88.0% | 0.46 | 89.3% |
在相似度阈值为 0.75 时,语义缓存可将 LLM 推理成本降低多达 86%,同时保持 91% 的答案准确性。LLM、嵌入模型和后备存储的选择会影响成本和延迟。当与更大、成本更高的 LLM 一起使用时,语义缓存可以按比例提供更大的好处。
个人查询延迟改进
下表显示了对单个查询延迟的影响。缓存命中可将延迟减少多达 59 倍,从数秒减少到几百毫秒:
| 查询意图 | 缓存未命中延迟 | 缓存命中延迟 | 减少 |
|---|---|---|---|
| “是否存在SI前缀偏离表示10的次方的情况,不包括它们的应用?” → 释义变体 | 6.51 s | 0.11 s | 59x |
| “莎莉是一个有三个兄弟的女孩,每个兄弟都有两个姐妹。莎莉家里有几个姐妹?” → 释义变体 | 1.64 s | 0.13 s | 12x |