Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Wirkung und Benchmarks
AWS evaluierte den Ansatz anhand von 63.796 Chatbot-Anfragen von echten Nutzern und ihren paraphrasierten Varianten aus dem öffentlichen Datensatz. SemBenchmarkLmArena Dieser Datensatz erfasst Benutzerinteraktionen mit der Chatbot Arena-Plattform in allgemeinen Anwendungsfällen für Assistenten wie Beantwortung, Schreiben und Analyse von Fragen.
Bei der Evaluierung wurde die folgende Konfiguration verwendet:
ElastiCache
cache.r7g.largeInstanz als semantischer Cache-SpeicherAmazon Titan Text Embeddings V2 für Einbettungen
Claude 3 Haiku für LLM-Inferenz
Der Cache wurde leer gestartet, und alle 63.796 Abfragen wurden als zufälliger eingehender Benutzerverkehr gestreamt, wodurch realer Anwendungsverkehr simuliert wurde.
Kosten und Genauigkeit bei unterschiedlichen Ähnlichkeitsschwellenwerten
In der folgenden Tabelle wird der Kompromiss zwischen Kostenreduzierung, Verbesserung der Latenz und Genauigkeit bei verschiedenen Ähnlichkeitsschwellenwerten zusammengefasst:
| Schwellenwert für Ähnlichkeit | Cache-Trefferquote | Genauigkeit der zwischengespeicherten Antworten | Tägliche Gesamtkosten | Kosteneinsparungen | Durchschnittliche Latenz (en) | Reduzierung der Latenz |
|---|---|---|---|---|---|---|
| Basiswert (kein Cache) | – | – | 49,50$ | – | 4,35 | – |
| 0,99 (sehr streng) | 23.5% | 92,1% | 41,70$ | 15,8% | 3,60 | 17,1% |
| 0,95 (streng) | 56,0% | 92,6% | 23,80$ | 51,9% | 1,84 | 57,7% |
| 0,90 (mäßig) | 74,5% | 92,3% | 13,60$ | 72,5% | 1,21 | 72,2% |
| 0,80 (ausgewogen) | 87,6% | 91,8% | 7,60$ | 84,6% | 0,60 | 86,1% |
| 0,75 (entspannt) | 90,3% | 91,2% | 6,80$ | 86,3% | 0,51 | 88,3% |
| 0,50 (sehr entspannt) | 94,3% | 87,5% | 5,90$ | 88,0% | 0,46 | 89,3% |
Bei einem Ähnlichkeitsschwellenwert von 0,75 reduzierte das semantische Caching die Kosten für LLM-Inferenzen um bis zu 86% bei gleichbleibender Antwortgenauigkeit von 91%. Die Wahl von LLM, Einbettungsmodell und Backing-Store wirkt sich sowohl auf die Kosten als auch auf die Latenz aus. Semantisches Caching bietet proportional größere Vorteile, wenn es mit größeren, teureren LLMs verwendet wird.
Verbesserungen der individuellen Abfragelatenz
Die folgende Tabelle zeigt die Auswirkungen auf die Latenz einzelner Abfragen. Ein Cache-Treffer reduzierte die Latenz um das bis zu 59-fache, von mehreren Sekunden auf einige hundert Millisekunden:
| Absicht der Abfrage | Fehlende Latenz im Cache | Latenz bei Cache-Treffern | Reduzierung |
|---|---|---|---|
| „Gibt es Fälle, in denen SI-Präfixe von Zehnerpotenzen abweichen, ausgenommen deren Anwendung?“ → paraphrasierte Variante | 6,51 s | 0,11 s | 59x |
| „Sally ist ein Mädchen mit 3 Brüdern, und jeder ihrer Brüder hat 2 Schwestern. Wie viele Schwestern gibt es in Sallys Familie?“ → paraphrasierte Variante | 1,64 s | 0,13 s | 12 x |