

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Impatto e parametri di riferimento
<a name="semantic-caching-benchmarks"></a>

AWS ha valutato l'approccio sulla base di 63.796 query di chatbot di utenti reali e sulle relative varianti parafrasate tratte dal set di dati pubblico. SemBenchmarkLmArena Questo set di dati acquisisce le interazioni degli utenti con la piattaforma Chatbot Arena in tutti i casi di utilizzo dell'assistente generale come la risposta alle domande, la scrittura e l'analisi.

La valutazione ha utilizzato la seguente configurazione:
+ ElastiCache `cache.r7g.large`istanza come archivio di cache semantico
+ Amazon Titan Text Embeddings V2 per gli incorporamenti
+ Claude 3 Haiku per l'inferenza LLM

La cache è stata avviata vuota e tutte le 63.796 query sono state trasmesse in streaming come traffico utente in entrata casuale, simulando il traffico delle applicazioni del mondo reale.

## Costo e precisione a diverse soglie di somiglianza
<a name="semantic-caching-cost-accuracy"></a>

La tabella seguente riassume il compromesso tra riduzione dei costi, miglioramento della latenza e precisione tra diverse soglie di somiglianza:


| Soglia di somiglianza | Rapporto di accesso alla cache | Precisione delle risposte memorizzate nella cache | Costo giornaliero totale | Risparmio sui costi | Latenza (i) media | Riduzione della latenza | 
| --- | --- | --- | --- | --- | --- | --- | 
| Linea di base (senza cache) | – | – | $49,50 | – | 4,35 | – | 
| 0,99 (molto severo) | 23.5% | 92,1% | 41,70$ | 15,8% | 3,60 | 17,1% | 
| 0,95 (rigoroso) | 56,0% | 92,6% | $23,80 | 51,9% | 1,84 | 57,7% | 
| 0.90 (moderato) | 74,5% | 92,3% | $13,60 | 72,5% | 1,21 | 72,2% | 
| 0,80 (bilanciato) | 87,6% | 91,8% | $7,60 | 84,6% | 0,60 | 86,1% | 
| 0,75 (rilassato) | 90,3% | 91,2% | $6,80 | 86,3% | 0,51 | 88,3% | 
| 0,50 (molto rilassato) | 94,3% | 87,5% | $5,90 | 88,0% | 0,46 | 89,3% | 

Con una soglia di somiglianza di 0,75, il caching semantico ha ridotto i costi di inferenza LLM fino all'86%, mantenendo al contempo una precisione di risposta del 91%. La scelta di LLM, del modello di incorporamento e del backing store influisce sia sui costi che sulla latenza. Il caching semantico offre vantaggi proporzionalmente maggiori se utilizzato con LLM più grandi e più costosi.

## Miglioramenti della latenza delle query individuali
<a name="semantic-caching-latency-improvements"></a>

La tabella seguente mostra l'impatto sulla latenza delle singole query. Un colpo alla cache ha ridotto la latenza fino a 59 volte, da diversi secondi a poche centinaia di millisecondi:


| Intento della query | Mancata latenza nella cache | Latenza di accesso alla cache | Riduzione | 
| --- | --- | --- | --- | 
| «Ci sono casi in cui i prefissi SI si discostano dalle potenze indicative di 10, esclusa la loro applicazione?» → variante parafrasata | 6,51 s | 0,11 s | 59 x | 
| «Sally è una ragazza con 3 fratelli e ognuno dei suoi fratelli ha 2 sorelle. Quante sorelle ci sono nella famiglia di Sally?» → variante parafrasata | 1,64 s | 0,13 s | 12 x | 