View a markdown version of this page

Descripción general del almacenamiento en caché semántico - Amazon ElastiCache

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Descripción general del almacenamiento en caché semántico

A diferencia de las cachés tradicionales, que se basan en coincidencias de cadenas exactas, una caché semántica recupera datos en función de la similitud semántica. Una caché semántica utiliza incrustaciones vectoriales producidas por modelos como Amazon Titan Text Embeddings para capturar el significado semántico en un espacio vectorial de alta dimensión.

En las aplicaciones de IA generativa, una caché semántica almacena las representaciones vectoriales de las consultas y sus correspondientes respuestas. El sistema compara la incrustación vectorial de cada nueva consulta con los vectores en caché de consultas anteriores para determinar si se ha respondido anteriormente a una consulta similar. Si la memoria caché contiene una consulta similar por encima de un umbral de similitud configurado, el sistema devuelve la respuesta generada anteriormente en lugar de invocar el LLM. De lo contrario, el sistema invoca el LLM para generar una respuesta y almacena en caché la consulta incrustada y la respuesta para su reutilización futura.

¿Por qué una coincidencia semántica y no exacta?

Pensemos en un chatbot de ayuda de TI en el que miles de usuarios se hagan la misma pregunta. Las siguientes consultas son cadenas diferentes pero tienen el mismo significado:

  • «¿Cómo instalo la aplicación VPN en mi portátil?»

  • «¿Puedes guiarme para configurar la VPN de la empresa?»

  • «Pasos para que la VPN funcione en mi ordenador»

Una caché de coincidencia exacta trata cada consulta como única e invoca el LLM tres veces. Una caché semántica reconoce estas consultas como semánticamente equivalentes y devuelve la respuesta en caché para las tres, invocando la LLM solo una vez.

Ventajas principales

El almacenamiento en caché semántico ofrece las siguientes ventajas para las aplicaciones de IA generativa y agencial:

  • Costes reducidos: la reutilización de las respuestas para preguntas similares reduce la cantidad de llamadas de LLM y el gasto general en inferencias. En los puntos de referencia, el almacenamiento semántico en caché redujo el costo de inferencia de LLM hasta en un 86%.

  • Menor latencia: al entregar las respuestas desde la memoria caché, se obtienen respuestas más rápidas que al ejecutar la inferencia LLM. Las visitas a la memoria caché devuelven las respuestas en milisegundos en lugar de segundos, con lo que se consigue una reducción de la latencia de hasta un 88%.

  • Escalabilidad mejorada: reducir las llamadas de LLM para consultas similares o repetidas le permite atender más solicitudes dentro de los límites de rendimiento del mismo modelo sin aumentar la capacidad.

  • Consistencia mejorada: el uso de la misma respuesta en caché para solicitudes semánticamente similares ayuda a ofrecer una respuesta coherente para la misma pregunta subyacente.

Dónde resulta eficaz el almacenamiento en caché semántico

El almacenamiento en caché semántico es particularmente eficaz para los siguientes tipos de aplicaciones:

Tipo de aplicación Description (Descripción) Ejemplo
RAG-based asistentes y copilotos Muchas consultas son solicitudes duplicadas de diferentes usuarios en una base de conocimientos compartida Chatbot de ayuda informática, bot de preguntas frecuentes sobre productos, asistente de documentación
Aplicaciones de inteligencia artificial para agencias Los agentes dividen las tareas en varios pasos pequeños que pueden buscar información similar repetidamente El agente de cumplimiento reutiliza las búsquedas de políticas, el agente de investigación reutiliza los hallazgos anteriores
Aplicaciones multimodales Hacer coincidir segmentos de audio, imágenes o consultas de vídeo similares Sistemas telefónicos automatizados que reutilizan la guía para solicitudes repetidas, como el horario de la tienda