View a markdown version of this page

Uso de Amazon ElastiCache for Valkey para el almacenamiento en caché semántico - Amazon ElastiCache

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso de Amazon ElastiCache for Valkey para el almacenamiento en caché semántico

Los modelos de lenguaje de gran tamaño (LLM) son la base de las aplicaciones de IA generativa y de IA agencial que impulsan casos de uso, desde chatbots y asistentes de búsqueda hasta herramientas de generación de código y motores de recomendación. A medida que crece el uso de aplicaciones de IA en la producción, los clientes buscan formas de optimizar los costes y el rendimiento. La mayoría de las aplicaciones de IA invocan el LLM para cada consulta de los usuarios, incluso cuando las consultas se repiten o son semánticamente similares. El almacenamiento en caché semántico es un método para reducir los costes y la latencia en las aplicaciones de IA generativa, ya que reutiliza las respuestas para solicitudes idénticas o semánticamente similares mediante incrustaciones vectoriales.

En este tema se explica cómo implementar una caché semántica mediante la búsqueda vectorial en Amazon ElastiCache for Valkey, incluidos los conceptos, la arquitectura, la implementación, los puntos de referencia y las prácticas recomendadas.