使用 Amazon ElastiCache for Valkey 進行語意快取

大型語言模型 (LLMs) 是生成式 AI 和代理式 AI 應用程式的基礎，可為聊天機器人、搜尋助理、程式碼產生工具和建議引擎的使用案例提供支援。隨著 AI 應用程式在生產環境中的使用量增加，客戶會尋求最佳化成本和效能的方法。大多數 AI 應用程式會針對每個使用者查詢叫用 LLM，即使查詢重複或語意相似。語意快取是一種方法，透過使用向量內嵌重複使用相同或語意相似請求的回應，來降低生成式 AI 應用程式的成本和延遲。

本主題說明如何在 Amazon ElastiCache for Valkey 上使用向量搜尋實作語意快取，包括概念、架構、實作、基準和最佳實務。

注意

若要使用 AI 代理器建置語意快取，請造訪 ElastiCache 的代理程式工具頁面以安裝 ElastiCache 技能和 Valkey MCP 伺服器。它們提供知識以及自動內嵌產生和相似性搜尋，以設定語意快取工作流程。

主題

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

使用案例

語意快取概觀