

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 语义缓存概述
<a name="semantic-caching-overview"></a>

与依赖精确字符串匹配的传统缓存不同，语义缓存根据语义相似度检索数据。语义缓存使用 Amazon Titan 文本嵌入等模型生成的向量嵌入来捕获高维向量空间中的语义含义。

在生成式 AI 应用程序中，语义缓存存储查询及其相应响应的向量表示形式。系统将每个新查询的向量嵌入与先前查询的缓存向量进行比较，以确定之前是否回答过类似的查询。如果缓存中包含的类似查询高于配置的相似度阈值，则系统将返回先前生成的响应，而不是调用 LLM。否则，系统会调用 LLM 来生成响应，并将查询嵌入和响应一起缓存，以备将来重复使用。

## 为什么是语义上的，而不是完全匹配的？
<a name="semantic-caching-why-semantic"></a>

假设一个 IT 帮助聊天机器人，成千上万的用户在问同样的问题。以下查询是不同的字符串，但含义相同：
+ “如何在笔记本电脑上安装 VPN 应用程序？”
+ “你能指导我设置公司的 VPN 吗？”
+ “让 VPN 在我的电脑上运行的步骤”

精确匹配的缓存将每个查询视为唯一的，并调用 LLM 三次。语义缓存将这些查询识别为语义等效，并返回所有三个查询的缓存响应，仅调用 LLM 一次。

## 主要优势
<a name="semantic-caching-benefits"></a>

语义缓存为生成式 AI 和代理 AI 应用程序提供了以下好处：
+ **降低成本** — 重复使用相似问题的答案可减少法学硕士调用次数和总体推理支出。在基准测试中，语义缓存可将LLM推理成本降低多达86％。
+ **更低的延迟** — 从缓存中提供答案比运行 LLM 推断更快的响应。缓存命中以毫秒而不是几秒钟为单位返回响应，从而实现高达 88% 的延迟缩短。
+ **提高了可扩展性**-减少对相似或重复查询的 LLM 调用，使您能够在相同模型的吞吐量限制内处理更多请求，而无需增加容量。
+ **提高一致性** — 对语义相似的请求使用相同的缓存响应有助于为相同的基本问题提供一致的答案。

## 语义缓存有效的地方
<a name="semantic-caching-effective-use-cases"></a>

语义缓存对以下类型的应用程序特别有效：


| 应用程序类型 | 说明 | 示例 | 
| --- | --- | --- | 
| RAG-based 助手和副驾驶 | 许多查询都是来自不同用户对共享知识库的重复请求 | IT 帮助聊天机器人、产品常见问题解答机器人、文档助手 | 
| Agentic AI 应用程序 | 代理将任务分成多个小步骤，这些步骤可能会反复查找相似的信息 | 合规代理重复使用政策查询，研究机构重复使用先前的发现 | 
| 多式联运应用 | 匹配相似的音频片段、图像或视频查询 | 自动电话系统重复使用指南来处理重复的请求，例如营业时间 | 