Architektur der Lösung

Die folgende Architektur implementiert einen semantischen Lesecache für einen Agenten auf Amazon Bedrock. AgentCore Eine Anfrage folgt einem von zwei Pfaden:

Cache-Treffer — Wenn eine vorherige Abfrage ElastiCache gefunden wird, die über dem konfigurierten Ähnlichkeitsschwellenwert liegt, wird die zwischengespeicherte Antwort sofort AgentCore zurückgegeben. Dieser Pfad ruft nur das Einbettungsmodell auf und erfordert keine LLM-Inferenz. Dieser Pfad hat eine End-to-End-Latenz im Millisekundenbereich und verursacht keine LLM-Inferenzkosten.
Cache miss — Wenn keine ähnliche vorherige Abfrage gefunden wurde, AgentCore ruft das LLM auf, um eine neue Antwort zu generieren, und gibt sie an den Benutzer zurück. Die Anwendung speichert dann die Einbettung und Antwort der Aufforderung im Cache, ElastiCache sodass future ähnliche Eingabeaufforderungen aus dem Cache bereitgestellt werden können.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Warum ElastiCache für Valkey für semantisches Caching

Voraussetzungen