翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
ソリューションアーキテクチャ
次のアーキテクチャは、Amazon Bedrock AgentCore 上のエージェントのリードスルーセマンティックキャッシュを実装します。リクエストは、次の 2 つのパスのいずれかに従います。
キャッシュヒット – ElastiCache が設定された類似度しきい値を超える以前のクエリを検出した場合、AgentCore はキャッシュされた回答をすぐに返します。このパスは埋め込みモデルのみを呼び出し、LLM 推論を必要としません。このパスにはミリ秒レベルのend-to-endのレイテンシーがあり、LLM 推論コストは発生しません。
キャッシュミス – 同様の以前のクエリが見つからない場合、AgentCore は LLM を呼び出して新しい回答を生成し、ユーザーに返します。次に、アプリケーションはプロンプトの埋め込みと回答を ElastiCache にキャッシュし、将来の同様のプロンプトをキャッシュから提供できるようにします。