Arsitektur solusi

Arsitektur berikut mengimplementasikan cache semantik read-through untuk agen di Amazon Bedrock. AgentCore Permintaan mengikuti salah satu dari dua jalur:

Cache hit - Jika ElastiCache menemukan kueri sebelumnya di atas ambang kesamaan yang dikonfigurasi, segera AgentCore mengembalikan jawaban yang di-cache. Jalur ini hanya memanggil model penyematan dan tidak memerlukan inferensi LLM. Jalur ini memiliki latensi end-to-end tingkat milidetik dan tidak menimbulkan biaya inferensi LLM.
Cache miss — Jika tidak ada kueri sebelumnya yang serupa ditemukan, AgentCore memanggil LLM untuk menghasilkan jawaban baru dan mengembalikannya ke pengguna. Aplikasi kemudian men-cache penyematan dan jawaban prompt ElastiCache sehingga prompt serupa di masa mendatang dapat disajikan dari cache.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Mengapa Valkey ElastiCache untuk caching semantik

Prasyarat