

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 解決方案架構
<a name="semantic-caching-architecture"></a>

下列架構會在 Amazon Bedrock AgentCore 上實作代理程式的讀取語意快取。請求遵循以下兩個路徑之一：
+ **快取命中** – 如果 ElastiCache 發現先前的查詢超過設定的相似性閾值，AgentCore 會立即傳回快取的答案。此路徑只會叫用內嵌模型，不需要 LLM 推論。此路徑具有毫秒層級end-to-end延遲，不會產生 LLM 推論成本。
+ **快取遺漏** – 如果找不到類似的先前查詢，AgentCore 會叫用 LLM 來產生新答案並將其傳回給使用者。應用程式接著會在 ElastiCache 中快取提示的內嵌和答案，以便從快取提供未來的類似提示。