

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 解决方案架构
<a name="semantic-caching-architecture"></a>

以下架构为 Amazon Bedrock 上的代理实现了直读语义缓存。 AgentCore请求遵循以下两种路径之一：
+ **缓存命中**-如果 ElastiCache 发现之前的查询高于配置的相似度阈值，则立即 AgentCore 返回缓存的答案。此路径仅调用嵌入模型，不需要 LLM 推理。此路径具有毫秒级的端到端延迟，不会产生 LLM 推理成本。
+ **Cache mis** s — 如果未找到类似的先前查询，则 AgentCore 调用 LLM 生成新答案并将其返回给用户。然后，应用程序会缓存提示的嵌入和答案， ElastiCache 以便将来可以从缓存中提供类似的提示。