Kosten und Genauigkeit bei unterschiedlichen Ähnlichkeitsschwellenwerten Verbesserungen der individuellen Abfragelatenz

Wirkung und Benchmarks

AWS evaluierte den Ansatz anhand von 63.796 Chatbot-Anfragen von echten Nutzern und ihren paraphrasierten Varianten aus dem öffentlichen Datensatz. SemBenchmarkLmArena Dieser Datensatz erfasst Benutzerinteraktionen mit der Chatbot Arena-Plattform in allgemeinen Anwendungsfällen für Assistenten wie Beantwortung, Schreiben und Analyse von Fragen.

Bei der Evaluierung wurde die folgende Konfiguration verwendet:

ElastiCache cache.r7g.largeInstanz als semantischer Cache-Speicher
Amazon Titan Text Embeddings V2 für Einbettungen
Claude 3 Haiku für LLM-Inferenz

Der Cache wurde leer gestartet, und alle 63.796 Abfragen wurden als zufälliger eingehender Benutzerverkehr gestreamt, wodurch realer Anwendungsverkehr simuliert wurde.

Kosten und Genauigkeit bei unterschiedlichen Ähnlichkeitsschwellenwerten

In der folgenden Tabelle wird der Kompromiss zwischen Kostenreduzierung, Verbesserung der Latenz und Genauigkeit bei verschiedenen Ähnlichkeitsschwellenwerten zusammengefasst:

Schwellenwert für Ähnlichkeit	Cache-Trefferquote	Genauigkeit der zwischengespeicherten Antworten	Tägliche Gesamtkosten	Kosteneinsparungen	Durchschnittliche Latenz (en)	Reduzierung der Latenz
Basiswert (kein Cache)	–	–	49,50$	–	4,35	–
0,99 (sehr streng)	23.5%	92,1%	41,70$	15,8%	3,60	17,1%
0,95 (streng)	56,0%	92,6%	23,80$	51,9%	1,84	57,7%
0,90 (mäßig)	74,5%	92,3%	13,60$	72,5%	1,21	72,2%
0,80 (ausgewogen)	87,6%	91,8%	7,60$	84,6%	0,60	86,1%
0,75 (entspannt)	90,3%	91,2%	6,80$	86,3%	0,51	88,3%
0,50 (sehr entspannt)	94,3%	87,5%	5,90$	88,0%	0,46	89,3%

Bei einem Ähnlichkeitsschwellenwert von 0,75 reduzierte das semantische Caching die Kosten für LLM-Inferenzen um bis zu 86% bei gleichbleibender Antwortgenauigkeit von 91%. Die Wahl von LLM, Einbettungsmodell und Backing-Store wirkt sich sowohl auf die Kosten als auch auf die Latenz aus. Semantisches Caching bietet proportional größere Vorteile, wenn es mit größeren, teureren LLMs verwendet wird.

Verbesserungen der individuellen Abfragelatenz

Die folgende Tabelle zeigt die Auswirkungen auf die Latenz einzelner Abfragen. Ein Cache-Treffer reduzierte die Latenz um das bis zu 59-fache, von mehreren Sekunden auf einige hundert Millisekunden:

Absicht der Abfrage	Fehlende Latenz im Cache	Latenz bei Cache-Treffern	Reduzierung
„Gibt es Fälle, in denen SI-Präfixe von Zehnerpotenzen abweichen, ausgenommen deren Anwendung?“ → paraphrasierte Variante	6,51 s	0,11 s	59x
„Sally ist ein Mädchen mit 3 Brüdern, und jeder ihrer Brüder hat 2 Schwestern. Wie viele Schwestern gibt es in Sallys Familie?“ → paraphrasierte Variante	1,64 s	0,13 s	12 x

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Implementierung eines semantischen Caches mit ElastiCache for Valkey

Multi-turn Zwischenspeichern von Konversationen