As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Impacto e benchmarks
AWS avaliou a abordagem em 63.796 consultas de chatbots de usuários reais e suas variantes parafraseadas do conjunto de dados público. SemBenchmarkLmArena Esse conjunto de dados captura as interações do usuário com a plataforma Chatbot Arena em casos gerais de uso de assistentes, como resposta a perguntas, redação e análise.
A avaliação usou a seguinte configuração:
ElastiCache
cache.r7g.largeinstância como armazenamento de cache semânticoAmazon Titan Text Embeddings V2 para incorporações
Claude 3 Haiku para inferência de LLM
O cache foi iniciado vazio e todas as 63.796 consultas foram transmitidas como tráfego de entrada aleatório de usuários, simulando o tráfego real de aplicativos.
Custo e precisão em diferentes limites de similaridade
A tabela a seguir resume a compensação entre redução de custos, melhoria da latência e precisão em diferentes limites de similaridade:
| Limite de similaridade | Taxa de acertos do cache | Precisão das respostas em cache | Custo total diário | Redução de custos | Latência (s) média (s) | Redução da latência |
|---|---|---|---|---|---|---|
| Linha de base (sem cache) | – | – | $49,50 | – | 4,35 | – |
| 0,99 (muito rigoroso) | 23,5% | 92,1% | $41,70 | 15,8% | 3,60 | 17,1% |
| 0,95 (estrito) | 56,0% | 92,6% | $23,80 | 51,9% | 1,84 | 57,7% |
| 0,90 (moderado) | 74,5% | 92,3% | $13,60 | 72,5% | 1,21 | 72,2% |
| 0,80 (balanceado) | 87,6% | 91,8% | $7,60 | 84,6% | 0,60 | 86,1% |
| 0,75 (relaxado) | 90,3% | 91,2% | $6,80 | 86,3% | 0,51 | 88,3% |
| 0,50 (muito relaxado) | 94,3% | 87,5% | $5,90 | 88,0% | 0,46 | 89,3% |
Com um limite de similaridade de 0,75, o cache semântico reduziu o custo de inferência do LLM em até 86%, mantendo a precisão das respostas de 91%. A escolha do LLM, do modelo de incorporação e do armazenamento de apoio afeta tanto o custo quanto a latência. O cache semântico oferece benefícios proporcionalmente maiores quando usado com LLMs maiores e de maior custo.
Melhorias na latência de consultas individuais
A tabela a seguir mostra o impacto na latência de consultas individuais. Um impacto no cache reduziu a latência em até 59x, de vários segundos para algumas centenas de milissegundos:
| Intenção da consulta | Latência de perda de cache | Latência de ocorrência do cache | Redução |
|---|---|---|---|
| “Há casos em que os prefixos SI se desviam de denotar potências de 10, excluindo sua aplicação?” → variante parafraseada | 6,51 s | 0,11 s | 59x |
| “Sally é uma menina com 3 irmãos, e cada um de seus irmãos tem 2 irmãs. Quantas irmãs existem na família de Sally?” → variante parafraseada | 1,64 s | 0,13 s | 12x |