Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra. # Architecture de la solution L'architecture suivante implémente un cache sémantique à lecture directe pour un agent sur Amazon Bedrock. AgentCore Une demande suit l'une des deux voies suivantes : + Accès au **cache** : si ElastiCache une requête précédente est trouvée au-dessus du seuil de similarité configuré, AgentCore renvoie immédiatement la réponse mise en cache. Ce chemin invoque uniquement le modèle d'intégration et ne nécessite aucune inférence LLM. Ce chemin présente une latence de bout en bout de l'ordre de la milliseconde et n'entraîne aucun coût d'inférence LLM. + **Erreur de cache** — Si aucune requête précédente similaire n'est trouvée, AgentCore invoque le LLM pour générer une nouvelle réponse et la renvoie à l'utilisateur. L'application met ensuite en cache l'intégration et la réponse de l'invite ElastiCache afin que les futures invites similaires puissent être diffusées à partir du cache.