View a markdown version of this page

Menggunakan Amazon ElastiCache untuk Valkey untuk caching semantik - Amazon ElastiCache

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan Amazon ElastiCache untuk Valkey untuk caching semantik

Model bahasa besar (LLM) adalah dasar untuk aplikasi AI generatif dan AI agen yang mendukung kasus penggunaan dari chatbots dan asisten pencari hingga alat pembuat kode dan mesin rekomendasi. Seiring dengan meningkatnya penggunaan aplikasi AI dalam produksi, pelanggan mencari cara untuk mengoptimalkan biaya dan kinerja. Sebagian besar aplikasi AI memanggil LLM untuk setiap kueri pengguna, bahkan ketika kueri diulang atau serupa secara semantik. Caching semantik adalah metode untuk mengurangi biaya dan latensi dalam aplikasi AI generatif dengan menggunakan kembali respons untuk permintaan yang identik atau semantik serupa menggunakan embeddings vektor.

Topik ini menjelaskan cara menerapkan cache semantik menggunakan pencarian vektor di Amazon ElastiCache untuk Valkey, termasuk konsep, arsitektur, implementasi, tolok ukur, dan praktik terbaik.