本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 Amazon ElastiCache for Valkey 進行語意快取
大型語言模型 (LLMs) 是生成式 AI 和代理式 AI 應用程式的基礎,可為聊天機器人、搜尋助理、程式碼產生工具和建議引擎的使用案例提供支援。隨著 AI 應用程式在生產環境中的使用量增加,客戶會尋求最佳化成本和效能的方法。大多數 AI 應用程式會針對每個使用者查詢叫用 LLM,即使查詢重複或語意相似。語意快取是一種方法,透過使用向量內嵌重複使用相同或語意相似請求的回應,來降低生成式 AI 應用程式的成本和延遲。
本主題說明如何在 Amazon ElastiCache for Valkey 上使用向量搜尋實作語意快取,包括概念、架構、實作、基準和最佳實務。