語意快取概觀

與依賴確切字串比對的傳統快取不同，語意快取會根據語意相似性擷取資料。語意快取使用 Amazon Titan Text Embeddings 等模型產生的向量內嵌，擷取高維度向量空間中的語意意義。

在生成式 AI 應用程式中，語意快取會儲存查詢及其對應回應的向量表示法。系統會比較每個新查詢的向量內嵌與先前查詢的快取向量，以判斷先前是否已回答類似的查詢。如果快取包含的類似查詢高於設定的相似性閾值，系統會傳回先前產生的回應，而不是叫用 LLM。否則，系統會叫用 LLM 來產生回應，並快取查詢內嵌和回應，以供日後重複使用。

為什麼語意不完全相符？

考慮 IT 協助聊天機器人，其中有數千名使用者提出相同的問題。下列查詢是不同的字串，但具有相同的意義：

「如何在筆記型電腦上安裝 VPN 應用程式？」
「您可以引導我設定公司 VPN 嗎？」
「在我的電腦上讓 VPN 運作的步驟」

完全相符的快取會將每個查詢視為唯一，並叫用 LLM 三次。語意快取會將這些查詢辨識為語義上相等的查詢，並傳回這三個查詢的快取回應，只叫用 LLM 一次。

主要優點

語意快取為生成式 AI 和代理式 AI 應用程式提供下列優點：

降低成本 – 重複使用類似問題的答案可減少 LLM 呼叫數和整體推論支出。在基準中，語意快取可將 LLM 推論成本降低高達 86%。
低延遲 – 從快取提供答案可提供比執行 LLM 推論更快的回應。快取會在幾毫秒而非幾秒內命中傳回回應，進而減少高達 88% 的延遲。
改善可擴展性 – 減少類似或重複查詢的 LLM 呼叫，可讓您在相同的模型輸送量限制內提供更多請求，而不會增加容量。
改善一致性 – 針對語意相似的請求使用相同的快取回應，有助於為相同的基礎問題提供一致的答案。

語意快取有效的位置

語意快取對下列類型的應用程式特別有效：

應用程式類型	Description	範例
RAG 型助理和 Copilot	許多查詢是來自不同使用者針對共用知識庫的重複請求	IT 協助聊天機器人、產品常見問答集機器人、文件助理
代理式 AI 應用程式	客服人員會將任務分成多個小型步驟，這些步驟可能會重複查詢類似的資訊	合規代理程式重複使用政策查詢、研究代理程式重複使用先前的調查結果
多模式應用程式	比對類似的音訊區段、影像或影片查詢	自動化電話系統重複使用反覆請求的指引，例如存放時間

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

語意快取

為什麼 ElastiCache for Valkey 用於語意快取