Costo e precisione a diverse soglie di somiglianza Miglioramenti della latenza delle query individuali

Impatto e parametri di riferimento

AWS ha valutato l'approccio sulla base di 63.796 query di chatbot di utenti reali e sulle relative varianti parafrasate tratte dal set di dati pubblico. SemBenchmarkLmArena Questo set di dati acquisisce le interazioni degli utenti con la piattaforma Chatbot Arena in tutti i casi di utilizzo dell'assistente generale come la risposta alle domande, la scrittura e l'analisi.

La valutazione ha utilizzato la seguente configurazione:

ElastiCache cache.r7g.largeistanza come archivio di cache semantico
Amazon Titan Text Embeddings V2 per gli incorporamenti
Claude 3 Haiku per l'inferenza LLM

La cache è stata avviata vuota e tutte le 63.796 query sono state trasmesse in streaming come traffico utente in entrata casuale, simulando il traffico delle applicazioni del mondo reale.

Costo e precisione a diverse soglie di somiglianza

La tabella seguente riassume il compromesso tra riduzione dei costi, miglioramento della latenza e precisione tra diverse soglie di somiglianza:

Soglia di somiglianza	Rapporto di accesso alla cache	Precisione delle risposte memorizzate nella cache	Costo giornaliero totale	Risparmio sui costi	Latenza (i) media	Riduzione della latenza
Linea di base (senza cache)	–	–	$49,50	–	4,35	–
0,99 (molto severo)	23.5%	92,1%	41,70$	15,8%	3,60	17,1%
0,95 (rigoroso)	56,0%	92,6%	$23,80	51,9%	1,84	57,7%
0.90 (moderato)	74,5%	92,3%	$13,60	72,5%	1,21	72,2%
0,80 (bilanciato)	87,6%	91,8%	$7,60	84,6%	0,60	86,1%
0,75 (rilassato)	90,3%	91,2%	$6,80	86,3%	0,51	88,3%
0,50 (molto rilassato)	94,3%	87,5%	$5,90	88,0%	0,46	89,3%

Con una soglia di somiglianza di 0,75, il caching semantico ha ridotto i costi di inferenza LLM fino all'86%, mantenendo al contempo una precisione di risposta del 91%. La scelta di LLM, del modello di incorporamento e del backing store influisce sia sui costi che sulla latenza. Il caching semantico offre vantaggi proporzionalmente maggiori se utilizzato con LLM più grandi e più costosi.

Miglioramenti della latenza delle query individuali

La tabella seguente mostra l'impatto sulla latenza delle singole query. Un colpo alla cache ha ridotto la latenza fino a 59 volte, da diversi secondi a poche centinaia di millisecondi:

Intento della query	Mancata latenza nella cache	Latenza di accesso alla cache	Riduzione
«Ci sono casi in cui i prefissi SI si discostano dalle potenze indicative di 10, esclusa la loro applicazione?» → variante parafrasata	6,51 s	0,11 s	59 x
«Sally è una ragazza con 3 fratelli e ognuno dei suoi fratelli ha 2 sorelle. Quante sorelle ci sono nella famiglia di Sally?» → variante parafrasata	1,64 s	0,13 s	12 x

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Implementazione di una cache semantica con ElastiCache for Valkey

Multi-turn memorizzazione nella cache delle conversazioni