View a markdown version of this page

Impacto e benchmarks - Amazon ElastiCache

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Impacto e benchmarks

AWS avaliou a abordagem em 63.796 consultas de chatbots de usuários reais e suas variantes parafraseadas do conjunto de dados público. SemBenchmarkLmArena Esse conjunto de dados captura as interações do usuário com a plataforma Chatbot Arena em casos gerais de uso de assistentes, como resposta a perguntas, redação e análise.

A avaliação usou a seguinte configuração:

  • ElastiCache cache.r7g.largeinstância como armazenamento de cache semântico

  • Amazon Titan Text Embeddings V2 para incorporações

  • Claude 3 Haiku para inferência de LLM

O cache foi iniciado vazio e todas as 63.796 consultas foram transmitidas como tráfego de entrada aleatório de usuários, simulando o tráfego real de aplicativos.

Custo e precisão em diferentes limites de similaridade

A tabela a seguir resume a compensação entre redução de custos, melhoria da latência e precisão em diferentes limites de similaridade:

Limite de similaridade Taxa de acertos do cache Precisão das respostas em cache Custo total diário Redução de custos Latência (s) média (s) Redução da latência
Linha de base (sem cache) $49,50 4,35
0,99 (muito rigoroso) 23,5% 92,1% $41,70 15,8% 3,60 17,1%
0,95 (estrito) 56,0% 92,6% $23,80 51,9% 1,84 57,7%
0,90 (moderado) 74,5% 92,3% $13,60 72,5% 1,21 72,2%
0,80 (balanceado) 87,6% 91,8% $7,60 84,6% 0,60 86,1%
0,75 (relaxado) 90,3% 91,2% $6,80 86,3% 0,51 88,3%
0,50 (muito relaxado) 94,3% 87,5% $5,90 88,0% 0,46 89,3%

Com um limite de similaridade de 0,75, o cache semântico reduziu o custo de inferência do LLM em até 86%, mantendo a precisão das respostas de 91%. A escolha do LLM, do modelo de incorporação e do armazenamento de apoio afeta tanto o custo quanto a latência. O cache semântico oferece benefícios proporcionalmente maiores quando usado com LLMs maiores e de maior custo.

Melhorias na latência de consultas individuais

A tabela a seguir mostra o impacto na latência de consultas individuais. Um impacto no cache reduziu a latência em até 59x, de vários segundos para algumas centenas de milissegundos:

Intenção da consulta Latência de perda de cache Latência de ocorrência do cache Redução
“Há casos em que os prefixos SI se desviam de denotar potências de 10, excluindo sua aplicação?” → variante parafraseada 6,51 s 0,11 s 59x
“Sally é uma menina com 3 irmãos, e cada um de seus irmãos tem 2 irmãs. Quantas irmãs existem na família de Sally?” → variante parafraseada 1,64 s 0,13 s 12x