기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
솔루션 아키텍처
다음 아키텍처는 Amazon Bedrock AgentCore에서 에이전트에 대한 읽기-스루 시맨틱 캐시를 구현합니다. 요청은 다음 두 경로 중 하나를 따릅니다.
캐시 적중 - ElastiCache가 구성된 유사성 임계값을 초과하는 이전 쿼리를 발견하면 AgentCore는 캐시된 응답을 즉시 반환합니다. 이 경로는 임베딩 모델만 호출하며 LLM 추론이 필요하지 않습니다. 이 경로는 밀리초 수준의 end-to-end 지연 시간을 가지며 LLM 추론 비용이 발생하지 않습니다.
캐시 누락 - 유사한 이전 쿼리를 찾을 수 없는 경우 AgentCore는 LLM을 호출하여 새 응답을 생성하고 사용자에게 반환합니다. 그런 다음 애플리케이션은 프롬프트의 임베딩 및 응답을 ElastiCache에 캐싱하여 향후 유사한 프롬프트를 캐시에서 제공할 수 있도록 합니다.