Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Présentation de la mise en cache sémantique
Contrairement aux caches traditionnels qui reposent sur des correspondances de chaînes exactes, un cache sémantique récupère les données en fonction de la similitude sémantique. Un cache sémantique utilise des intégrations vectorielles produites par des modèles tels qu'Amazon Titan Text Embeddings pour capturer le sens sémantique dans un espace vectoriel de grande dimension.
Dans les applications d'IA générative, un cache sémantique stocke les représentations vectorielles des requêtes et leurs réponses correspondantes. Le système compare l'intégration vectorielle de chaque nouvelle requête aux vecteurs mis en cache des requêtes précédentes afin de déterminer si une demande similaire a déjà reçu une réponse. Si le cache contient une requête similaire supérieure à un seuil de similarité configuré, le système renvoie la réponse générée précédemment au lieu d'invoquer le LLM. Dans le cas contraire, le système invoque le LLM pour générer une réponse et met en cache l'intégration de la requête et la réponse en vue d'une future réutilisation.
Pourquoi une correspondance sémantique et non une correspondance exacte ?
Imaginons un chatbot d'assistance informatique où des milliers d'utilisateurs posent la même question. Les requêtes suivantes sont des chaînes différentes mais ont la même signification :
« Comment installer l'application VPN sur mon ordinateur portable ? »
« Pouvez-vous m'expliquer comment configurer le VPN de l'entreprise ? »
« Étapes pour faire fonctionner le VPN sur mon ordinateur »
Un cache à correspondance exacte traite chaque requête comme unique et invoque le LLM à trois reprises. Un cache sémantique reconnaît ces requêtes comme étant sémantiquement équivalentes et renvoie la réponse mise en cache pour les trois, en n'invoquant le LLM qu'une seule fois.
Principaux avantages
La mise en cache sémantique offre les avantages suivants pour les applications d'IA générative et d'IA agentique :
Coûts réduits — La réutilisation des réponses à des questions similaires réduit le nombre d'appels LLM et les dépenses globales d'inférence. Dans les benchmarks, la mise en cache sémantique a réduit le coût d'inférence LLM jusqu'à 86 %.
Latence réduite : le service de réponses à partir du cache fournit des réponses plus rapides que l'exécution de l'inférence LLM. Les accès au cache renvoient des réponses en millisecondes plutôt qu'en secondes, ce qui permet de réduire la latence de 88 %.
Évolutivité améliorée — La réduction des appels LLM pour des requêtes similaires ou répétées vous permet de traiter un plus grand nombre de demandes dans les mêmes limites de débit du modèle sans augmenter la capacité.
Cohérence améliorée — L'utilisation de la même réponse en cache pour des demandes sémantiquement similaires permet de fournir une réponse cohérente à la même question sous-jacente.
Où la mise en cache sémantique est efficace
La mise en cache sémantique est particulièrement efficace pour les types d'applications suivants :
| Type de demande | Description | Exemple |
|---|---|---|
| RAG-based assistants et copilotes | De nombreuses requêtes sont des demandes dupliquées émanant de différents utilisateurs et adressées à une base de connaissances partagée. | Chatbot d'aide informatique, bot FAQ sur les produits, assistant de documentation |
| Applications d'IA agentic | Les agents divisent les tâches en plusieurs petites étapes susceptibles de rechercher à plusieurs reprises des informations similaires | Agent de conformité réutilisant les recherches de politiques, agent de recherche réutilisant les résultats antérieurs |
| Applications multimodales | Correspondance de segments audio, d'images ou de requêtes vidéo similaires | Systèmes téléphoniques automatisés réutilisant les instructions pour les demandes répétées, telles que les heures d'ouverture des magasins |