Custo e precisão em diferentes limites de similaridade Melhorias na latência de consultas individuais

Impacto e benchmarks

AWS avaliou a abordagem em 63.796 consultas de chatbots de usuários reais e suas variantes parafraseadas do conjunto de dados público. SemBenchmarkLmArena Esse conjunto de dados captura as interações do usuário com a plataforma Chatbot Arena em casos gerais de uso de assistentes, como resposta a perguntas, redação e análise.

A avaliação usou a seguinte configuração:

ElastiCache cache.r7g.largeinstância como armazenamento de cache semântico
Amazon Titan Text Embeddings V2 para incorporações
Claude 3 Haiku para inferência de LLM

O cache foi iniciado vazio e todas as 63.796 consultas foram transmitidas como tráfego de entrada aleatório de usuários, simulando o tráfego real de aplicativos.

Custo e precisão em diferentes limites de similaridade

A tabela a seguir resume a compensação entre redução de custos, melhoria da latência e precisão em diferentes limites de similaridade:

Limite de similaridade	Taxa de acertos do cache	Precisão das respostas em cache	Custo total diário	Redução de custos	Latência (s) média (s)	Redução da latência
Linha de base (sem cache)	–	–	$49,50	–	4,35	–
0,99 (muito rigoroso)	23,5%	92,1%	$41,70	15,8%	3,60	17,1%
0,95 (estrito)	56,0%	92,6%	$23,80	51,9%	1,84	57,7%
0,90 (moderado)	74,5%	92,3%	$13,60	72,5%	1,21	72,2%
0,80 (balanceado)	87,6%	91,8%	$7,60	84,6%	0,60	86,1%
0,75 (relaxado)	90,3%	91,2%	$6,80	86,3%	0,51	88,3%
0,50 (muito relaxado)	94,3%	87,5%	$5,90	88,0%	0,46	89,3%

Com um limite de similaridade de 0,75, o cache semântico reduziu o custo de inferência do LLM em até 86%, mantendo a precisão das respostas de 91%. A escolha do LLM, do modelo de incorporação e do armazenamento de apoio afeta tanto o custo quanto a latência. O cache semântico oferece benefícios proporcionalmente maiores quando usado com LLMs maiores e de maior custo.

Melhorias na latência de consultas individuais

A tabela a seguir mostra o impacto na latência de consultas individuais. Um impacto no cache reduziu a latência em até 59x, de vários segundos para algumas centenas de milissegundos:

Intenção da consulta	Latência de perda de cache	Latência de ocorrência do cache	Redução
“Há casos em que os prefixos SI se desviam de denotar potências de 10, excluindo sua aplicação?” → variante parafraseada	6,51 s	0,11 s	59x
“Sally é uma menina com 3 irmãos, e cada um de seus irmãos tem 2 irmãs. Quantas irmãs existem na família de Sally?” → variante parafraseada	1,64 s	0,13 s	12x

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Implementando um cache semântico com ElastiCache for Valkey

Multi-turn cache de conversas