

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 使用 Amazon f ElastiCache or Valkey 进行语义缓存
<a name="semantic-caching"></a>

大型语言模型 (LLM) 是生成式人工智能和代理人工智能应用程序的基础，这些应用程序为从聊天机器人和搜索助手到代码生成工具和推荐引擎的用例提供支持。随着人工智能应用程序在生产中的使用越来越多，客户正在寻找优化成本和性能的方法。即使查询重复或语义相似，大多数 AI 应用程序也会为每个用户查询调用 LLM。语义缓存是一种通过使用矢量嵌入重复使用相同或语义相似请求的响应，从而降低生成式 AI 应用程序的成本和延迟的方法。

本主题介绍如何在 Amazon ElastiCache for Valkey 上使用矢量搜索实现语义缓存，包括概念、架构、实现、基准测试和最佳实践。

**Topics**
+ [语义缓存概述](semantic-caching-overview.md)
+ [为什么 ElastiCache Valkey 用于语义缓存](semantic-caching-why-elasticache.md)
+ [解决方案架构](semantic-caching-architecture.md)
+ [先决条件](semantic-caching-prerequisites.md)
+ [使用 ElastiCache for Valkey 实现语义缓存](semantic-caching-implementation.md)
+ [影响和基准](semantic-caching-benchmarks.md)
+ [Multi-turn 对话缓存](semantic-caching-multi-turn.md)
+ [最佳实践](semantic-caching-best-practices.md)
+ [相关资源](semantic-caching-related-resources.md)