Perché una corrispondenza semantica e non esatta?Vantaggi principali Dove il caching semantico è efficace

Panoramica del caching semantico

A differenza delle cache tradizionali che si basano su corrispondenze esatte di stringhe, una cache semantica recupera i dati in base alla somiglianza semantica. Una cache semantica utilizza incorporamenti vettoriali prodotti da modelli come Amazon Titan Text Embeddings per acquisire il significato semantico in uno spazio vettoriale ad alta dimensione.

Nelle applicazioni di intelligenza artificiale generativa, una cache semantica memorizza le rappresentazioni vettoriali delle query e le risposte corrispondenti. Il sistema confronta l'incorporamento vettoriale di ogni nuova query con i vettori memorizzati nella cache delle query precedenti per determinare se a una query simile è già stata data risposta. Se la cache contiene una query simile al di sopra di una soglia di somiglianza configurata, il sistema restituisce la risposta generata in precedenza anziché richiamare l'LLM. In caso contrario, il sistema richiama l'LLM per generare una risposta e memorizza nella cache l'incorporamento e la risposta della query insieme per un riutilizzo futuro.

Perché una corrispondenza semantica e non esatta?

Prendi in considerazione un chatbot di assistenza informatica in cui migliaia di utenti fanno la stessa domanda. Le seguenti query sono stringhe diverse ma hanno lo stesso significato:

«Come faccio a installare l'app VPN sul mio laptop?»
«Puoi guidarmi nella configurazione della VPN aziendale?»
«I passaggi per far funzionare la VPN sul mio computer»

Una cache a corrispondenza esatta considera ogni query come unica e richiama l'LLM tre volte. Una cache semantica riconosce queste query come semanticamente equivalenti e restituisce la risposta memorizzata nella cache per tutte e tre, richiamando l'LLM solo una volta.

Vantaggi principali

Il caching semantico offre i seguenti vantaggi per le applicazioni di intelligenza artificiale generativa e di intelligenza artificiale agentica:

Costi ridotti: il riutilizzo delle risposte a domande simili riduce il numero di chiamate LLM e la spesa complessiva per l'inferenza. Nei benchmark, il caching semantico ha ridotto i costi di inferenza LLM fino all'86%.
Latenza inferiore: la trasmissione delle risposte dalla cache fornisce risposte più rapide rispetto all'esecuzione dell'inferenza LLM. Gli accessi alla cache restituiscono risposte in millisecondi anziché secondi, ottenendo una riduzione della latenza fino all'88%.
Scalabilità migliorata: la riduzione delle chiamate LLM per query simili o ripetute consente di soddisfare più richieste entro gli stessi limiti di throughput del modello senza aumentare la capacità.
Maggiore coerenza: l'utilizzo della stessa risposta memorizzata nella cache per richieste semanticamente simili aiuta a fornire una risposta coerente alla stessa domanda di base.

Dove il caching semantico è efficace

La memorizzazione nella cache semantica è particolarmente efficace per i seguenti tipi di applicazioni:

Tipo di applicazione	Description	Esempio
RAG-based assistenti e copiloti	Molte interrogazioni sono richieste duplicate di utenti diversi su una base di conoscenza condivisa	Chatbot di assistenza IT, bot per le domande frequenti sui prodotti, assistente alla documentazione
Applicazioni Agentic AI	Gli agenti suddividono le attività in più piccoli passaggi che possono cercare ripetutamente informazioni simili	L'addetto alla conformità riutilizza le ricerche delle politiche, l'agente di ricerca riutilizza i risultati precedenti
Applicazioni multimodali	Corrispondenza a segmenti audio, immagini o query video simili	Sistemi telefonici automatizzati che riutilizzano le indicazioni per richieste ripetute, come gli orari di apertura dei negozi

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Memorizzazione nella cache semantica

Perché scegliere Valkey ElastiCache per la memorizzazione nella cache semantica