솔루션 아키텍처

다음 아키텍처는 Amazon Bedrock AgentCore에서 에이전트에 대한 읽기-스루 시맨틱 캐시를 구현합니다. 요청은 다음 두 경로 중 하나를 따릅니다.

캐시 적중 - ElastiCache가 구성된 유사성 임계값을 초과하는 이전 쿼리를 발견하면 AgentCore는 캐시된 응답을 즉시 반환합니다. 이 경로는 임베딩 모델만 호출하며 LLM 추론이 필요하지 않습니다. 이 경로는 밀리초 수준의 end-to-end 지연 시간을 가지며 LLM 추론 비용이 발생하지 않습니다.
캐시 누락 - 유사한 이전 쿼리를 찾을 수 없는 경우 AgentCore는 LLM을 호출하여 새 응답을 생성하고 사용자에게 반환합니다. 그런 다음 애플리케이션은 프롬프트의 임베딩 및 응답을 ElastiCache에 캐싱하여 향후 유사한 프롬프트를 캐시에서 제공할 수 있도록 합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

의미 체계 캐싱을 위해 ElastiCache for Valkey를 사용하는 이유

사전 조건