View a markdown version of this page

Impatto e parametri di riferimento - Amazon ElastiCache

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Impatto e parametri di riferimento

AWS ha valutato l'approccio sulla base di 63.796 query di chatbot di utenti reali e sulle relative varianti parafrasate tratte dal set di dati pubblico. SemBenchmarkLmArena Questo set di dati acquisisce le interazioni degli utenti con la piattaforma Chatbot Arena in tutti i casi di utilizzo dell'assistente generale come la risposta alle domande, la scrittura e l'analisi.

La valutazione ha utilizzato la seguente configurazione:

  • ElastiCache cache.r7g.largeistanza come archivio di cache semantico

  • Amazon Titan Text Embeddings V2 per gli incorporamenti

  • Claude 3 Haiku per l'inferenza LLM

La cache è stata avviata vuota e tutte le 63.796 query sono state trasmesse in streaming come traffico utente in entrata casuale, simulando il traffico delle applicazioni del mondo reale.

Costo e precisione a diverse soglie di somiglianza

La tabella seguente riassume il compromesso tra riduzione dei costi, miglioramento della latenza e precisione tra diverse soglie di somiglianza:

Soglia di somiglianza Rapporto di accesso alla cache Precisione delle risposte memorizzate nella cache Costo giornaliero totale Risparmio sui costi Latenza (i) media Riduzione della latenza
Linea di base (senza cache) $49,50 4,35
0,99 (molto severo) 23.5% 92,1% 41,70$ 15,8% 3,60 17,1%
0,95 (rigoroso) 56,0% 92,6% $23,80 51,9% 1,84 57,7%
0.90 (moderato) 74,5% 92,3% $13,60 72,5% 1,21 72,2%
0,80 (bilanciato) 87,6% 91,8% $7,60 84,6% 0,60 86,1%
0,75 (rilassato) 90,3% 91,2% $6,80 86,3% 0,51 88,3%
0,50 (molto rilassato) 94,3% 87,5% $5,90 88,0% 0,46 89,3%

Con una soglia di somiglianza di 0,75, il caching semantico ha ridotto i costi di inferenza LLM fino all'86%, mantenendo al contempo una precisione di risposta del 91%. La scelta di LLM, del modello di incorporamento e del backing store influisce sia sui costi che sulla latenza. Il caching semantico offre vantaggi proporzionalmente maggiori se utilizzato con LLM più grandi e più costosi.

Miglioramenti della latenza delle query individuali

La tabella seguente mostra l'impatto sulla latenza delle singole query. Un colpo alla cache ha ridotto la latenza fino a 59 volte, da diversi secondi a poche centinaia di millisecondi:

Intento della query Mancata latenza nella cache Latenza di accesso alla cache Riduzione
«Ci sono casi in cui i prefissi SI si discostano dalle potenze indicative di 10, esclusa la loro applicazione?» → variante parafrasata 6,51 s 0,11 s 59 x
«Sally è una ragazza con 3 fratelli e ognuno dei suoi fratelli ha 2 sorelle. Quante sorelle ci sono nella famiglia di Sally?» → variante parafrasata 1,64 s 0,13 s 12 x