使用 Amazon f ElastiCache or Valkey 进行语义缓存

大型语言模型 (LLM) 是生成式人工智能和代理人工智能应用程序的基础，这些应用程序为从聊天机器人和搜索助手到代码生成工具和推荐引擎的用例提供支持。随着人工智能应用程序在生产中的使用越来越多，客户正在寻找优化成本和性能的方法。即使查询重复或语义相似，大多数 AI 应用程序也会为每个用户查询调用 LLM。语义缓存是一种通过使用矢量嵌入重复使用相同或语义相似请求的响应，从而降低生成式 AI 应用程序的成本和延迟的方法。

本主题介绍如何在 Amazon ElastiCache for Valkey 上使用矢量搜索实现语义缓存，包括概念、架构、实现、基准测试和最佳实践。

注意

要使用 AI 代理构建语义缓存，请访问该的代理工具 ElastiCache页面安装 Sk ElastiCache ill and Valkey MCP 服务器。它们为设置语义缓存工作流程提供了知识以及自动嵌入生成和相似度搜索。

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

应用场景

语义缓存概述