Architettura della soluzione

La seguente architettura implementa una cache semantica di lettura per un agente su Amazon Bedrock. AgentCore Una richiesta segue uno dei due percorsi seguenti:

Cache hit: se ElastiCache trova una query precedente al di sopra della soglia di somiglianza configurata, AgentCore restituisce immediatamente la risposta memorizzata nella cache. Questo percorso richiama solo il modello di incorporamento e non richiede l'inferenza LLM. Questo percorso ha una latenza end-to-end di livello di millisecondi e non comporta costi di inferenza LLM.
Cache mancata: se non viene trovata alcuna query precedente simile, AgentCore richiama l'LLM per generare una nuova risposta e la restituisce all'utente. L'applicazione memorizza quindi nella cache l'incorporamento e la risposta del prompt in ElastiCache modo che future richieste simili possano essere servite dalla cache.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Perché scegliere Valkey ElastiCache per la memorizzazione nella cache semantica

Prerequisiti