Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Impatto e parametri di riferimento
AWS ha valutato l'approccio sulla base di 63.796 query di chatbot di utenti reali e sulle relative varianti parafrasate tratte dal set di dati pubblico. SemBenchmarkLmArena Questo set di dati acquisisce le interazioni degli utenti con la piattaforma Chatbot Arena in tutti i casi di utilizzo dell'assistente generale come la risposta alle domande, la scrittura e l'analisi.
La valutazione ha utilizzato la seguente configurazione:
ElastiCache
cache.r7g.largeistanza come archivio di cache semanticoAmazon Titan Text Embeddings V2 per gli incorporamenti
Claude 3 Haiku per l'inferenza LLM
La cache è stata avviata vuota e tutte le 63.796 query sono state trasmesse in streaming come traffico utente in entrata casuale, simulando il traffico delle applicazioni del mondo reale.
Costo e precisione a diverse soglie di somiglianza
La tabella seguente riassume il compromesso tra riduzione dei costi, miglioramento della latenza e precisione tra diverse soglie di somiglianza:
| Soglia di somiglianza | Rapporto di accesso alla cache | Precisione delle risposte memorizzate nella cache | Costo giornaliero totale | Risparmio sui costi | Latenza (i) media | Riduzione della latenza |
|---|---|---|---|---|---|---|
| Linea di base (senza cache) | – | – | $49,50 | – | 4,35 | – |
| 0,99 (molto severo) | 23.5% | 92,1% | 41,70$ | 15,8% | 3,60 | 17,1% |
| 0,95 (rigoroso) | 56,0% | 92,6% | $23,80 | 51,9% | 1,84 | 57,7% |
| 0.90 (moderato) | 74,5% | 92,3% | $13,60 | 72,5% | 1,21 | 72,2% |
| 0,80 (bilanciato) | 87,6% | 91,8% | $7,60 | 84,6% | 0,60 | 86,1% |
| 0,75 (rilassato) | 90,3% | 91,2% | $6,80 | 86,3% | 0,51 | 88,3% |
| 0,50 (molto rilassato) | 94,3% | 87,5% | $5,90 | 88,0% | 0,46 | 89,3% |
Con una soglia di somiglianza di 0,75, il caching semantico ha ridotto i costi di inferenza LLM fino all'86%, mantenendo al contempo una precisione di risposta del 91%. La scelta di LLM, del modello di incorporamento e del backing store influisce sia sui costi che sulla latenza. Il caching semantico offre vantaggi proporzionalmente maggiori se utilizzato con LLM più grandi e più costosi.
Miglioramenti della latenza delle query individuali
La tabella seguente mostra l'impatto sulla latenza delle singole query. Un colpo alla cache ha ridotto la latenza fino a 59 volte, da diversi secondi a poche centinaia di millisecondi:
| Intento della query | Mancata latenza nella cache | Latenza di accesso alla cache | Riduzione |
|---|---|---|---|
| «Ci sono casi in cui i prefissi SI si discostano dalle potenze indicative di 10, esclusa la loro applicazione?» → variante parafrasata | 6,51 s | 0,11 s | 59 x |
| «Sally è una ragazza con 3 fratelli e ognuno dei suoi fratelli ha 2 sorelle. Quante sorelle ci sono nella famiglia di Sally?» → variante parafrasata | 1,64 s | 0,13 s | 12 x |