Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Architettura della soluzione
La seguente architettura implementa una cache semantica di lettura per un agente su Amazon Bedrock. AgentCore Una richiesta segue uno dei due percorsi seguenti:
Cache hit: se ElastiCache trova una query precedente al di sopra della soglia di somiglianza configurata, AgentCore restituisce immediatamente la risposta memorizzata nella cache. Questo percorso richiama solo il modello di incorporamento e non richiede l'inferenza LLM. Questo percorso ha una latenza end-to-end di livello di millisecondi e non comporta costi di inferenza LLM.
Cache mancata: se non viene trovata alcuna query precedente simile, AgentCore richiama l'LLM per generare una nuova risposta e la restituisce all'utente. L'applicazione memorizza quindi nella cache l'incorporamento e la risposta del prompt in ElastiCache modo che future richieste simili possano essere servite dalla cache.