

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 使用 Amazon ElastiCache for Valkey 進行語意快取
<a name="semantic-caching"></a>

大型語言模型 (LLMs) 是生成式 AI 和代理式 AI 應用程式的基礎，可為聊天機器人、搜尋助理、程式碼產生工具和建議引擎的使用案例提供支援。隨著 AI 應用程式在生產環境中的使用量增加，客戶會尋求最佳化成本和效能的方法。大多數 AI 應用程式會針對每個使用者查詢叫用 LLM，即使查詢重複或語意相似。語意快取是一種方法，透過使用向量內嵌重複使用相同或語意相似請求的回應，來降低生成式 AI 應用程式的成本和延遲。

本主題說明如何在 Amazon ElastiCache for Valkey 上使用向量搜尋實作語意快取，包括概念、架構、實作、基準和最佳實務。

**Topics**
+ [語意快取概觀](semantic-caching-overview.md)
+ [為什麼 ElastiCache for Valkey 用於語意快取](semantic-caching-why-elasticache.md)
+ [解決方案架構](semantic-caching-architecture.md)
+ [先決條件](semantic-caching-prerequisites.md)
+ [使用 ElastiCache for Valkey 實作語意快取](semantic-caching-implementation.md)
+ [影響和基準](semantic-caching-benchmarks.md)
+ [多轉對話快取](semantic-caching-multi-turn.md)
+ [最佳實務](semantic-caching-best-practices.md)
+ [相關資源](semantic-caching-related-resources.md)