Arquitectura de soluciones

La siguiente arquitectura implementa una caché semántica de lectura completa para un agente en Amazon Bedrock. AgentCore Una solicitud sigue una de estas dos rutas:

Acceso a la caché: si ElastiCache encuentra una consulta anterior por encima del umbral de similitud configurado, AgentCore devuelve inmediatamente la respuesta en caché. Esta ruta invoca solo el modelo de incrustación y no requiere la inferencia LLM. Esta ruta tiene una latencia de extremo a extremo a nivel de milisegundos y no implica costes de inferencia de LLM.
Falta de memoria caché: si no se encuentra ninguna consulta anterior similar, AgentCore invoca el LLM para generar una nueva respuesta y se la devuelve al usuario. Luego, la aplicación almacena en caché la incrustación y la respuesta de la solicitud ElastiCache para que en el futuro se puedan servir solicitudes similares desde la memoria caché.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

¿Por qué Valkey ElastiCache para el almacenamiento en caché semántico?

Requisitos previos