本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
語意快取概觀
與依賴確切字串比對的傳統快取不同,語意快取會根據語意相似性擷取資料。語意快取使用 Amazon Titan Text Embeddings 等模型產生的向量內嵌,擷取高維度向量空間中的語意意義。
在生成式 AI 應用程式中,語意快取會儲存查詢及其對應回應的向量表示法。系統會比較每個新查詢的向量內嵌與先前查詢的快取向量,以判斷先前是否已回答類似的查詢。如果快取包含的類似查詢高於設定的相似性閾值,系統會傳回先前產生的回應,而不是叫用 LLM。否則,系統會叫用 LLM 來產生回應,並快取查詢內嵌和回應,以供日後重複使用。
為什麼語意不完全相符?
考慮 IT 協助聊天機器人,其中有數千名使用者提出相同的問題。下列查詢是不同的字串,但具有相同的意義:
「如何在筆記型電腦上安裝 VPN 應用程式?」
「您可以引導我設定公司 VPN 嗎?」
「在我的電腦上讓 VPN 運作的步驟」
完全相符的快取會將每個查詢視為唯一,並叫用 LLM 三次。語意快取會將這些查詢辨識為語義上相等的查詢,並傳回這三個查詢的快取回應,只叫用 LLM 一次。
主要優點
語意快取為生成式 AI 和代理式 AI 應用程式提供下列優點:
降低成本 – 重複使用類似問題的答案可減少 LLM 呼叫數和整體推論支出。在基準中,語意快取可將 LLM 推論成本降低高達 86%。
低延遲 – 從快取提供答案可提供比執行 LLM 推論更快的回應。快取會在幾毫秒而非幾秒內命中傳回回應,進而減少高達 88% 的延遲。
改善可擴展性 – 減少類似或重複查詢的 LLM 呼叫,可讓您在相同的模型輸送量限制內提供更多請求,而不會增加容量。
改善一致性 – 針對語意相似的請求使用相同的快取回應,有助於為相同的基礎問題提供一致的答案。
語意快取有效的位置
語意快取對下列類型的應用程式特別有效:
| 應用程式類型 | Description | 範例 |
|---|---|---|
| RAG 型助理和 Copilot | 許多查詢是來自不同使用者針對共用知識庫的重複請求 | IT 協助聊天機器人、產品常見問答集機器人、文件助理 |
| 代理式 AI 應用程式 | 客服人員會將任務分成多個小型步驟,這些步驟可能會重複查詢類似的資訊 | 合規代理程式重複使用政策查詢、研究代理程式重複使用先前的調查結果 |
| 多模式應用程式 | 比對類似的音訊區段、影像或影片查詢 | 自動化電話系統重複使用反覆請求的指引,例如存放時間 |