

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Usando o Amazon ElastiCache for Valkey para armazenamento em cache semântico
<a name="semantic-caching"></a>

Modelos de linguagem grande (LLMs) são a base para aplicativos de IA generativa e IA agêntica que potencializam casos de uso, desde chatbots e assistentes de pesquisa até ferramentas de geração de código e mecanismos de recomendação. À medida que o uso de aplicativos de IA na produção cresce, os clientes buscam maneiras de otimizar o custo e o desempenho. A maioria dos aplicativos de IA invoca o LLM para cada consulta do usuário, mesmo quando as consultas são repetidas ou semanticamente semelhantes. O cache semântico é um método para reduzir o custo e a latência em aplicativos generativos de IA reutilizando respostas para solicitações idênticas ou semanticamente semelhantes usando incorporações vetoriais.

Este tópico explica como implementar um cache semântico usando a pesquisa vetorial na Amazon ElastiCache for Valkey, incluindo os conceitos, a arquitetura, a implementação, os benchmarks e as melhores práticas.

**Topics**
+ [Visão geral do cache semântico](semantic-caching-overview.md)
+ [Por que ElastiCache usar o Valkey para armazenamento em cache semântico](semantic-caching-why-elasticache.md)
+ [Arquitetura da solução](semantic-caching-architecture.md)
+ [Pré-requisitos](semantic-caching-prerequisites.md)
+ [Implementando um cache semântico com ElastiCache for Valkey](semantic-caching-implementation.md)
+ [Impacto e benchmarks](semantic-caching-benchmarks.md)
+ [Multi-turn cache de conversas](semantic-caching-multi-turn.md)
+ [Práticas recomendadas](semantic-caching-best-practices.md)
+ [Recursos relacionados](semantic-caching-related-resources.md)