Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Überblick über semantisches Caching
Im Gegensatz zu herkömmlichen Caches, die auf exakten Zeichenkettenübereinstimmungen basieren, ruft ein semantischer Cache Daten auf der Grundlage semantischer Ähnlichkeit ab. Ein semantischer Cache verwendet Vektoreinbettungen, die von Modellen wie Amazon Titan Text Embeddings erzeugt wurden, um die semantische Bedeutung in einem hochdimensionalen Vektorraum zu erfassen.
In generativen KI-Anwendungen speichert ein semantischer Cache Vektordarstellungen von Abfragen und ihren entsprechenden Antworten. Das System vergleicht die Vektoreinbettung jeder neuen Abfrage mit zwischengespeicherten Vektoren früherer Abfragen, um festzustellen, ob eine ähnliche Anfrage schon einmal beantwortet wurde. Wenn der Cache eine ähnliche Abfrage über einem konfigurierten Ähnlichkeitsschwellenwert enthält, gibt das System die zuvor generierte Antwort zurück, anstatt das LLM aufzurufen. Andernfalls ruft das System das LLM auf, um eine Antwort zu generieren, und speichert die Abfrageeinbettung und die Antwort zusammen für die future Wiederverwendung.
Warum semantisch, nicht exakt übereinstimmend?
Stellen Sie sich einen Chatbot für IT-Hilfe vor, bei dem Tausende von Benutzern dieselbe Frage stellen. Bei den folgenden Abfragen handelt es sich um unterschiedliche Zeichenketten, die jedoch dieselbe Bedeutung haben:
„Wie installiere ich die VPN-App auf meinem Laptop?“
„Können Sie mich durch die Einrichtung des Unternehmens-VPN führen?“
„Schritte, um VPN auf meinem Computer zum Laufen zu bringen“
Ein Exact-Match-Cache behandelt jede Abfrage als einzigartig und ruft das LLM dreimal auf. Ein semantischer Cache erkennt diese Abfragen als semantisch gleichwertig und gibt die zwischengespeicherte Antwort für alle drei zurück, wobei das LLM nur einmal aufgerufen wird.
Wichtigste Vorteile
Semantisches Caching bietet die folgenden Vorteile für generative KI- und agentische KI-Anwendungen:
Geringere Kosten — Die Wiederverwendung von Antworten auf ähnliche Fragen reduziert die Anzahl der LLM-Anrufe und die Gesamtausgaben für Inferenzen. Bei Benchmarks reduzierte das semantische Caching die Kosten für LLM-Inferenzen um bis zu 86%.
Geringere Latenz — Die Bereitstellung von Antworten aus dem Cache ermöglicht schnellere Antworten als die Ausführung der LLM-Inferenz. Cache-Treffer geben Antworten in Millisekunden statt in Sekunden zurück, wodurch eine Latenzreduzierung von bis zu 88% erreicht wird.
Verbesserte Skalierbarkeit — Durch die Reduzierung von LLM-Aufrufen für ähnliche oder wiederholte Abfragen können Sie mehr Anfragen innerhalb der Durchsatzgrenzen desselben Modells bearbeiten, ohne die Kapazität zu erhöhen.
Verbesserte Konsistenz — Die Verwendung derselben zwischengespeicherten Antwort für semantisch ähnliche Anfragen trägt dazu bei, eine konsistente Antwort auf dieselbe zugrunde liegende Frage zu erhalten.
Wo semantisches Caching wirksam ist
Semantisches Caching ist besonders effektiv für die folgenden Arten von Anwendungen:
| Art der Anwendung | Description | Beispiel |
|---|---|---|
| RAG-based Assistenten und Copiloten | Bei vielen Anfragen handelt es sich um doppelte Anfragen von verschiedenen Benutzern anhand einer gemeinsamen Wissensdatenbank | Chatbot für IT-Hilfe, Bot mit häufig gestellten Fragen zu Produkten, Dokumentationsassistent |
| KI-Anwendungen für Agenturen | Agenten unterteilen Aufgaben in mehrere kleine Schritte, die möglicherweise wiederholt nach ähnlichen Informationen suchen | Compliance-Mitarbeiter, der nach Richtlinien sucht, Research-Mitarbeiter, der frühere Ergebnisse wiederverwendet |
| Multimodale Anwendungen | Abgleich ähnlicher Audiosegmente, Bilder oder Videoanfragen | Automatisierte Telefonsysteme, die Hinweise für wiederholte Anfragen wie Öffnungszeiten wiederverwenden |