View a markdown version of this page

Usando o Amazon ElastiCache for Valkey para armazenamento em cache semântico - Amazon ElastiCache

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Usando o Amazon ElastiCache for Valkey para armazenamento em cache semântico

Modelos de linguagem grande (LLMs) são a base para aplicativos de IA generativa e IA agêntica que potencializam casos de uso, desde chatbots e assistentes de pesquisa até ferramentas de geração de código e mecanismos de recomendação. À medida que o uso de aplicativos de IA na produção cresce, os clientes buscam maneiras de otimizar o custo e o desempenho. A maioria dos aplicativos de IA invoca o LLM para cada consulta do usuário, mesmo quando as consultas são repetidas ou semanticamente semelhantes. O cache semântico é um método para reduzir o custo e a latência em aplicativos generativos de IA reutilizando respostas para solicitações idênticas ou semanticamente semelhantes usando incorporações vetoriais.

Este tópico explica como implementar um cache semântico usando a pesquisa vetorial na Amazon ElastiCache for Valkey, incluindo os conceitos, a arquitetura, a implementação, os benchmarks e as melhores práticas.