View a markdown version of this page

Visão geral do cache semântico - Amazon ElastiCache

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Visão geral do cache semântico

Ao contrário dos caches tradicionais que dependem de correspondências exatas de strings, um cache semântico recupera dados com base na similaridade semântica. Um cache semântico usa incorporações vetoriais produzidas por modelos como Amazon Titan Text Embeddings para capturar o significado semântico em um espaço vetorial de alta dimensão.

Em aplicativos generativos de IA, um cache semântico armazena representações vetoriais de consultas e suas respostas correspondentes. O sistema compara a incorporação vetorial de cada nova consulta com vetores em cache de consultas anteriores para determinar se uma consulta semelhante já foi respondida anteriormente. Se o cache contiver uma consulta semelhante acima de um limite de similaridade configurado, o sistema retornará a resposta gerada anteriormente em vez de invocar o LLM. Caso contrário, o sistema invoca o LLM para gerar uma resposta e armazena em cache a incorporação e a resposta da consulta para futura reutilização.

Por que correspondência semântica e não exata?

Considere um chatbot de ajuda de TI em que milhares de usuários façam a mesma pergunta. As consultas a seguir são cadeias de caracteres diferentes, mas têm o mesmo significado:

  • “Como faço para instalar o aplicativo VPN no meu laptop?”

  • “Você pode me orientar na configuração da VPN da empresa?”

  • “Etapas para fazer a VPN funcionar no meu computador”

Um cache de correspondência exata trata cada consulta como única e invoca o LLM três vezes. Um cache semântico reconhece essas consultas como semanticamente equivalentes e retorna a resposta em cache para todas as três, invocando o LLM somente uma vez.

Benefícios principais

O cache semântico oferece os seguintes benefícios para aplicativos de IA generativa e IA agêntica:

  • Custos reduzidos — A reutilização de respostas para perguntas semelhantes reduz o número de chamadas de LLM e os gastos gerais com inferência. Em benchmarks, o cache semântico reduziu o custo de inferência do LLM em até 86%.

  • Menor latência — fornecer respostas do cache fornece respostas mais rápidas do que executar a inferência do LLM. Os acertos no cache retornam respostas em milissegundos em vez de segundos, alcançando uma redução de latência de até 88%.

  • Escalabilidade aprimorada — a redução das chamadas LLM para consultas semelhantes ou repetidas permite atender a mais solicitações dentro dos mesmos limites de taxa de transferência do modelo sem aumentar a capacidade.

  • Consistência aprimorada — Usar a mesma resposta em cache para solicitações semanticamente semelhantes ajuda a fornecer uma resposta consistente para a mesma pergunta subjacente.

Onde o cache semântico é eficaz

O cache semântico é particularmente eficaz para os seguintes tipos de aplicativos:

Tipo de aplicação Description Exemplo
RAG-based assistentes e copilotos Muitas consultas são solicitações duplicadas de usuários diferentes em uma base de conhecimento compartilhada Chatbot de ajuda de TI, bot de perguntas frequentes sobre produtos, assistente de documentação
Aplicativos de IA para agentes Os agentes dividem as tarefas em várias pequenas etapas que podem pesquisar repetidamente informações semelhantes Agente de conformidade reutilizando pesquisas de políticas, agente de pesquisa reutilizando descobertas anteriores
Aplicações multimodais Correspondendo segmentos de áudio, imagens ou consultas de vídeo semelhantes Sistemas telefônicos automatizados que reutilizam orientações para solicitações repetidas, como horários de funcionamento da loja