Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Ikhtisar caching semantik
Tidak seperti cache tradisional yang mengandalkan kecocokan string yang tepat, cache semantik mengambil data berdasarkan kesamaan semantik. Cache semantik menggunakan penyematan vektor yang dihasilkan oleh model seperti Amazon Titan Text Embeddings untuk menangkap makna semantik dalam ruang vektor dimensi tinggi.
Dalam aplikasi AI generatif, cache semantik menyimpan representasi vektor kueri dan tanggapan yang sesuai. Sistem membandingkan penyematan vektor dari setiap kueri baru dengan vektor cache dari kueri sebelumnya untuk menentukan apakah kueri serupa telah dijawab sebelumnya. Jika cache berisi kueri serupa di atas ambang kesamaan yang dikonfigurasi, sistem mengembalikan respons yang dihasilkan sebelumnya alih-alih memanggil LLM. Jika tidak, sistem memanggil LLM untuk menghasilkan respons dan menyimpan penyematan kueri dan respons bersama untuk penggunaan kembali di masa mendatang.
Mengapa semantik, bukan sama persis?
Pertimbangkan chatbot bantuan TI di mana ribuan pengguna mengajukan pertanyaan yang sama. Kueri berikut adalah string yang berbeda tetapi memiliki arti yang sama:
“Bagaimana cara menginstal aplikasi VPN di laptop saya?”
“Bisakah Anda membimbing saya melalui pengaturan VPN perusahaan?”
“Langkah-langkah agar VPN berfungsi di komputer saya”
Cache pencocokan tepat memperlakukan setiap kueri sebagai unik dan memanggil LLM tiga kali. Cache semantik mengenali kueri ini sebagai setara secara semantik dan mengembalikan respons cache untuk ketiganya, memanggil LLM hanya sekali.
Manfaat utama
Caching semantik memberikan manfaat berikut untuk aplikasi AI generatif dan AI agen:
Mengurangi biaya — Menggunakan kembali jawaban untuk pertanyaan serupa mengurangi jumlah panggilan LLM dan pengeluaran inferensi keseluruhan. Dalam tolok ukur, caching semantik mengurangi biaya inferensi LLM hingga 86%.
Latensi yang lebih rendah — Melayani jawaban dari cache memberikan respons yang lebih cepat daripada menjalankan inferensi LLM. Cache mencapai respons pengembalian dalam milidetik, bukan detik, mencapai pengurangan latensi hingga 88%.
Peningkatan skalabilitas - Mengurangi panggilan LLM untuk kueri serupa atau berulang memungkinkan Anda untuk melayani lebih banyak permintaan dalam batas throughput model yang sama tanpa meningkatkan kapasitas.
Konsistensi yang ditingkatkan — Menggunakan respons cache yang sama untuk permintaan yang serupa secara semantik membantu memberikan jawaban yang konsisten untuk pertanyaan mendasar yang sama.
Dimana caching semantik efektif
Caching semantik sangat efektif untuk jenis aplikasi berikut:
| Jenis aplikasi | Deskripsi | Contoh |
|---|---|---|
| RAG-based asisten dan kopilot | Banyak kueri adalah permintaan duplikat dari pengguna yang berbeda terhadap basis pengetahuan bersama | Chatbot bantuan TI, bot FAQ produk, asisten dokumentasi |
| Aplikasi AI agen | Agen memecah tugas menjadi beberapa langkah kecil yang mungkin berulang kali mencari informasi serupa | Agen kepatuhan menggunakan kembali pencarian kebijakan, agen riset menggunakan kembali temuan sebelumnya |
| Aplikasi multimodal | Mencocokkan segmen audio, gambar, atau kueri video yang serupa | Sistem telepon otomatis menggunakan kembali panduan untuk permintaan berulang seperti jam buka toko |