View a markdown version of this page

Arquitectura de soluciones - Amazon ElastiCache

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Arquitectura de soluciones

La siguiente arquitectura implementa una caché semántica de lectura completa para un agente en Amazon Bedrock. AgentCore Una solicitud sigue una de estas dos rutas:

  • Acceso a la caché: si ElastiCache encuentra una consulta anterior por encima del umbral de similitud configurado, AgentCore devuelve inmediatamente la respuesta en caché. Esta ruta invoca solo el modelo de incrustación y no requiere la inferencia LLM. Esta ruta tiene una latencia de extremo a extremo a nivel de milisegundos y no implica costes de inferencia de LLM.

  • Falta de memoria caché: si no se encuentra ninguna consulta anterior similar, AgentCore invoca el LLM para generar una nueva respuesta y se la devuelve al usuario. Luego, la aplicación almacena en caché la incrustación y la respuesta de la solicitud ElastiCache para que en el futuro se puedan servir solicitudes similares desde la memoria caché.