Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà. # Architettura della soluzione La seguente architettura implementa una cache semantica di lettura per un agente su Amazon Bedrock. AgentCore Una richiesta segue uno dei due percorsi seguenti: + **Cache hit**: se ElastiCache trova una query precedente al di sopra della soglia di somiglianza configurata, AgentCore restituisce immediatamente la risposta memorizzata nella cache. Questo percorso richiama solo il modello di incorporamento e non richiede l'inferenza LLM. Questo percorso ha una latenza end-to-end di livello di millisecondi e non comporta costi di inferenza LLM. + **Cache mancata**: se non viene trovata alcuna query precedente simile, AgentCore richiama l'LLM per generare una nuova risposta e la restituisce all'utente. L'applicazione memorizza quindi nella cache l'incorporamento e la risposta del prompt in ElastiCache modo che future richieste simili possano essere servite dalla cache.