

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Arquitectura de soluciones
<a name="semantic-caching-architecture"></a>

La siguiente arquitectura implementa una caché semántica de lectura completa para un agente en Amazon Bedrock. AgentCore Una solicitud sigue una de estas dos rutas:
+ **Acceso a la caché**: si ElastiCache encuentra una consulta anterior por encima del umbral de similitud configurado, AgentCore devuelve inmediatamente la respuesta en caché. Esta ruta invoca solo el modelo de incrustación y no requiere la inferencia LLM. Esta ruta tiene una latencia de extremo a extremo a nivel de milisegundos y no implica costes de inferencia de LLM.
+ Falta de **memoria caché**: si no se encuentra ninguna consulta anterior similar, AgentCore invoca el LLM para generar una nueva respuesta y se la devuelve al usuario. Luego, la aplicación almacena en caché la incrustación y la respuesta de la solicitud ElastiCache para que en el futuro se puedan servir solicitudes similares desde la memoria caché.