Utilisation d'Amazon ElastiCache pour Valkey pour la mise en cache sémantique

Les grands modèles linguistiques (LLM) sont à la base des applications d'IA générative et d'IA agentique qui alimentent des cas d'utilisation tels que les chatbots et les assistants de recherche, les outils de génération de code et les moteurs de recommandation. À mesure que l'utilisation des applications d'IA dans la production augmente, les clients cherchent des moyens d'optimiser les coûts et les performances. La plupart des applications d'intelligence artificielle invoquent le LLM pour chaque requête utilisateur, même lorsque les requêtes sont répétées ou sémantiquement similaires. La mise en cache sémantique est une méthode permettant de réduire les coûts et la latence dans les applications d'IA génératives en réutilisant les réponses pour des demandes identiques ou sémantiquement similaires à l'aide d'intégrations vectorielles.

Cette rubrique explique comment implémenter un cache sémantique à l'aide de la recherche vectorielle sur Amazon ElastiCache pour Valkey, notamment les concepts, l'architecture, la mise en œuvre, les benchmarks et les meilleures pratiques.

Note

Pour créer une mise en cache sémantique avec des agents d'intelligence artificielle, rendez-vous Outils d'agent pour ElastiCache sur la page d'installation du serveur MCP ElastiCache Skill and Valkey. Ils fournissent les connaissances nécessaires ainsi que la génération automatique d'intégrations et la recherche de similarités pour configurer des flux de travail de mise en cache sémantique.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Cas d'utilisation

Présentation de la mise en cache sémantique