Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Architektur der Lösung
Die folgende Architektur implementiert einen semantischen Lesecache für einen Agenten auf Amazon Bedrock. AgentCore Eine Anfrage folgt einem von zwei Pfaden:
Cache-Treffer — Wenn eine vorherige Abfrage ElastiCache gefunden wird, die über dem konfigurierten Ähnlichkeitsschwellenwert liegt, wird die zwischengespeicherte Antwort sofort AgentCore zurückgegeben. Dieser Pfad ruft nur das Einbettungsmodell auf und erfordert keine LLM-Inferenz. Dieser Pfad hat eine End-to-End-Latenz im Millisekundenbereich und verursacht keine LLM-Inferenzkosten.
Cache miss — Wenn keine ähnliche vorherige Abfrage gefunden wurde, AgentCore ruft das LLM auf, um eine neue Antwort zu generieren, und gibt sie an den Benutzer zurück. Die Anwendung speichert dann die Einbettung und Antwort der Aufforderung im Cache, ElastiCache sodass future ähnliche Eingabeaufforderungen aus dem Cache bereitgestellt werden können.