

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Verwendung von Amazon ElastiCache for Valkey für semantisches Caching
<a name="semantic-caching"></a>

Große Sprachmodelle (LLMs) bilden die Grundlage für generative KI und agentische KI-Anwendungen, die Anwendungsfälle von Chatbots und Suchassistenten bis hin zu Tools zur Codegenerierung und Empfehlungsmaschinen unterstützen. Angesichts des zunehmenden Einsatzes von KI-Anwendungen in der Produktion suchen Kunden nach Möglichkeiten, Kosten und Leistung zu optimieren. Die meisten KI-Anwendungen rufen das LLM für jede Benutzerabfrage auf, selbst wenn Abfragen wiederholt werden oder sich semantisch ähneln. Semantisches Caching ist eine Methode zur Reduzierung von Kosten und Latenz in generativen KI-Anwendungen, indem Antworten für identische oder semantisch ähnliche Anfragen mithilfe von Vektoreinbettungen wiederverwendet werden.

In diesem Thema wird erklärt, wie ein semantischer Cache mithilfe der Vektorsuche auf Amazon ElastiCache for Valkey implementiert wird, einschließlich der Konzepte, Architektur, Implementierung, Benchmarks und bewährten Methoden.

**Topics**
+ [Überblick über semantisches Caching](semantic-caching-overview.md)
+ [Warum ElastiCache für Valkey für semantisches Caching](semantic-caching-why-elasticache.md)
+ [Architektur der Lösung](semantic-caching-architecture.md)
+ [Voraussetzungen](semantic-caching-prerequisites.md)
+ [Implementierung eines semantischen Caches mit ElastiCache for Valkey](semantic-caching-implementation.md)
+ [Wirkung und Benchmarks](semantic-caching-benchmarks.md)
+ [Multi-turn Zwischenspeichern von Konversationen](semantic-caching-multi-turn.md)
+ [Best Practices](semantic-caching-best-practices.md)
+ [Zugehörige Ressourcen](semantic-caching-related-resources.md)