As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Usando o Amazon ElastiCache for Valkey para armazenamento em cache semântico
Modelos de linguagem grande (LLMs) são a base para aplicativos de IA generativa e IA agêntica que potencializam casos de uso, desde chatbots e assistentes de pesquisa até ferramentas de geração de código e mecanismos de recomendação. À medida que o uso de aplicativos de IA na produção cresce, os clientes buscam maneiras de otimizar o custo e o desempenho. A maioria dos aplicativos de IA invoca o LLM para cada consulta do usuário, mesmo quando as consultas são repetidas ou semanticamente semelhantes. O cache semântico é um método para reduzir o custo e a latência em aplicativos generativos de IA reutilizando respostas para solicitações idênticas ou semanticamente semelhantes usando incorporações vetoriais.
Este tópico explica como implementar um cache semântico usando a pesquisa vetorial na Amazon ElastiCache for Valkey, incluindo os conceitos, a arquitetura, a implementação, os benchmarks e as melhores práticas.