Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Impact et points de référence
<a name="semantic-caching-benchmarks"></a>

AWS a évalué l'approche sur 63 796 requêtes de chatbot utilisateur réel et leurs variantes paraphrasées à partir de l'ensemble de données public. SemBenchmarkLmArena Cet ensemble de données capture les interactions des utilisateurs avec la plateforme Chatbot Arena dans les cas d'utilisation des assistants généraux tels que la réponse aux questions, la rédaction et l'analyse.

L'évaluation a utilisé la configuration suivante :
+ ElastiCache `cache.r7g.large`instance en tant que magasin de cache sémantique
+ Amazon Titan Text Embeddings V2 pour les intégrations
+ Claude 3 Haïku pour l'inférence du LLM

Le cache a été démarré à vide et les 63 796 requêtes ont été diffusées sous forme de trafic utilisateur entrant aléatoire, simulant le trafic d'applications réel.

## Coût et précision à différents seuils de similarité
<a name="semantic-caching-cost-accuracy"></a>

Le tableau suivant résume le compromis entre la réduction des coûts, l'amélioration de la latence et la précision selon différents seuils de similarité :


| Seuil de similarité | Taux de réussite du cache | Précision des réponses mises en cache | Coût quotidien total | Économies sur les coûts | Latence (s) moyenne (s) | Réduction de la latence | 
| --- | --- | --- | --- | --- | --- | --- | 
| Base de référence (pas de cache) | – | – | 49,50$ | – | 4,35 | – | 
| 0,99 (très strict) | 23,5 % | 92,1 % | 41,70$ | 15,8 % | 3,60 | 17,1 % | 
| 0,95 (strict) | 56,0 % | 92,6 % | 23,80$ | 51,9 % | 1,84 | 57,7 % | 
| 0,90 (modéré) | 74,5 % | 92,3 % | 13,60$ | 72,5 % | 1,21 | 72,2 % | 
| 0,80 (équilibré) | 87,6 % | 91,8 % | 7,60$ | 84,6 % | 0,60 | 86,1 % | 
| 0,75 (détendu) | 90,3 % | 91,2 % | 6,80$ | 86,3 % | 0,51 | 88,3 % | 
| 0,50 (très détendu) | 94,3 % | 87,5 % | 5,90$ | 88,0 % | 0,46 | 89,3 % | 

À un seuil de similarité de 0,75, la mise en cache sémantique a réduit le coût d'inférence LLM jusqu'à 86 % tout en maintenant une précision des réponses de 91 %. Le choix du LLM, du modèle d'intégration et du magasin de sauvegarde influe à la fois sur le coût et la latence. La mise en cache sémantique offre des avantages proportionnellement plus importants lorsqu'elle est utilisée avec des LLM plus importants et plus coûteux.

## Améliorations de la latence des requêtes
<a name="semantic-caching-latency-improvements"></a>

Le tableau suivant montre l'impact sur la latence des requêtes individuelles. Un accès au cache a réduit le temps de latence jusqu'à 59 fois, passant de quelques secondes à quelques centaines de millisecondes :


| Intention de la requête | Latence manquante du cache | Latence d'accès au cache | Réduction | 
| --- | --- | --- | --- | 
| « Y a-t-il des cas où les préfixes SI s'écartent des puissances de 10, à l'exclusion de leur application ? » → variante paraphrasée | 6,51 s | 0,11 s | 59x | 
| « Sally est une fille avec 3 frères, et chacun de ses frères a 2 sœurs. Combien de sœurs y a-t-il dans la famille de Sally ? » → variante paraphrasée | 1,64 s | 0,13 s | 12 fois |