As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Impacto e benchmarks
<a name="semantic-caching-benchmarks"></a>

AWS avaliou a abordagem em 63.796 consultas de chatbots de usuários reais e suas variantes parafraseadas do conjunto de dados público. SemBenchmarkLmArena Esse conjunto de dados captura as interações do usuário com a plataforma Chatbot Arena em casos gerais de uso de assistentes, como resposta a perguntas, redação e análise.

A avaliação usou a seguinte configuração:
+ ElastiCache `cache.r7g.large`instância como armazenamento de cache semântico
+ Amazon Titan Text Embeddings V2 para incorporações
+ Claude 3 Haiku para inferência de LLM

O cache foi iniciado vazio e todas as 63.796 consultas foram transmitidas como tráfego de entrada aleatório de usuários, simulando o tráfego real de aplicativos.

## Custo e precisão em diferentes limites de similaridade
<a name="semantic-caching-cost-accuracy"></a>

A tabela a seguir resume a compensação entre redução de custos, melhoria da latência e precisão em diferentes limites de similaridade:


| Limite de similaridade | Taxa de acertos do cache | Precisão das respostas em cache | Custo total diário | Redução de custos | Latência (s) média (s) | Redução da latência | 
| --- | --- | --- | --- | --- | --- | --- | 
| Linha de base (sem cache) | – | – | $49,50 | – | 4,35 | – | 
| 0,99 (muito rigoroso) | 23,5% | 92,1% | $41,70 | 15,8% | 3,60 | 17,1% | 
| 0,95 (estrito) | 56,0% | 92,6% | $23,80 | 51,9% | 1,84 | 57,7% | 
| 0,90 (moderado) | 74,5% | 92,3% | $13,60 | 72,5% | 1,21 | 72,2% | 
| 0,80 (balanceado) | 87,6% | 91,8% | $7,60 | 84,6% | 0,60 | 86,1% | 
| 0,75 (relaxado) | 90,3% | 91,2% | $6,80 | 86,3% | 0,51 | 88,3% | 
| 0,50 (muito relaxado) | 94,3% | 87,5% | $5,90 | 88,0% | 0,46 | 89,3% | 

Com um limite de similaridade de 0,75, o cache semântico reduziu o custo de inferência do LLM em até 86%, mantendo a precisão das respostas de 91%. A escolha do LLM, do modelo de incorporação e do armazenamento de apoio afeta tanto o custo quanto a latência. O cache semântico oferece benefícios proporcionalmente maiores quando usado com LLMs maiores e de maior custo.

## Melhorias na latência de consultas individuais
<a name="semantic-caching-latency-improvements"></a>

A tabela a seguir mostra o impacto na latência de consultas individuais. Um impacto no cache reduziu a latência em até 59x, de vários segundos para algumas centenas de milissegundos:


| Intenção da consulta | Latência de perda de cache | Latência de ocorrência do cache | Redução | 
| --- | --- | --- | --- | 
| “Há casos em que os prefixos SI se desviam de denotar potências de 10, excluindo sua aplicação?” → variante parafraseada | 6,51 s | 0,11 s | 59x | 
| “Sally é uma menina com 3 irmãos, e cada um de seus irmãos tem 2 irmãs. Quantas irmãs existem na família de Sally?” → variante parafraseada | 1,64 s | 0,13 s | 12x |