解决方案架构

以下架构为 Amazon Bedrock 上的代理实现了直读语义缓存。 AgentCore请求遵循以下两种路径之一：

缓存命中-如果 ElastiCache 发现之前的查询高于配置的相似度阈值，则立即 AgentCore 返回缓存的答案。此路径仅调用嵌入模型，不需要 LLM 推理。此路径具有毫秒级的端到端延迟，不会产生 LLM 推理成本。
Cache mis s — 如果未找到类似的先前查询，则 AgentCore 调用 LLM 生成新答案并将其返回给用户。然后，应用程序会缓存提示的嵌入和答案， ElastiCache 以便将来可以从缓存中提供类似的提示。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

为什么 ElastiCache Valkey 用于语义缓存

先决条件