Biaya dan akurasi pada ambang kesamaan yang berbeda Peningkatan latensi kueri individu

Dampak dan tolok ukur

AWS mengevaluasi pendekatan pada 63.796 kueri chatbot pengguna nyata dan varian parafrasenya dari kumpulan data publik. SemBenchmarkLmArena Dataset ini menangkap interaksi pengguna dengan platform Chatbot Arena di seluruh kasus penggunaan asisten umum seperti menjawab pertanyaan, penulisan, dan analisis.

Evaluasi menggunakan konfigurasi berikut:

ElastiCache cache.r7g.largemisalnya sebagai penyimpanan cache semantik
Amazon Titan Text Embeddings V2 untuk penyematan
Claude 3 Haiku untuk inferensi LLM

Cache mulai kosong, dan semua 63.796 kueri dialirkan sebagai lalu lintas pengguna masuk acak, mensimulasikan lalu lintas aplikasi dunia nyata.

Biaya dan akurasi pada ambang kesamaan yang berbeda

Tabel berikut merangkum trade-off antara pengurangan biaya, peningkatan latensi, dan akurasi di berbagai ambang kesamaan:

Ambang kesamaan	Rasio hit cache	Akurasi respons yang di-cache	Total biaya harian	Penghematan biaya	Latensi rata-rata	Pengurangan latensi
Baseline (tidak ada cache)	–	–	$49,50	–	4.35	–
0,99 (sangat ketat)	23,5%	92,1%	$41,70	15,8%	3.60	17,1%
0,95 (ketat)	56,0%	92,6%	$23,80	51,9%	1,84	57,7%
0,90 (sedang)	74,5%	92,3%	$13,60	72,5%	1.21	72,2%
0,80 (seimbang)	87,6%	91,8%	$7,60	84,6%	0,60	86,1%
0,75 (santai)	90,3%	91,2%	$6,80	86,3%	0,51	88,3%
0,50 (sangat santai)	94,3%	87,5%	$5,90	88,0%	0,46	89,3%

Pada ambang kesamaan 0,75, caching semantik mengurangi biaya inferensi LLM hingga 86% sambil mempertahankan akurasi jawaban 91%. Pilihan LLM, model embedding, dan backing store memengaruhi biaya dan latensi. Caching semantik memberikan manfaat yang lebih besar secara proporsional bila digunakan dengan LLM yang lebih besar dan berbiaya lebih tinggi.

Peningkatan latensi kueri individu

Tabel berikut menunjukkan dampak pada latensi kueri individu. Sebuah cache menekan mengurangi latensi hingga 59x, dari beberapa detik menjadi beberapa ratus milidetik:

Maksud kueri	Latensi kehilangan cache	Latensi hit cache	Pengurangan
“Apakah ada contoh di mana awalan SI menyimpang dari menunjukkan kekuatan 10, tidak termasuk aplikasi mereka?” → varian yang diparafrasekan	6,51 s	0,11 s	59x
“Sally adalah seorang gadis dengan 3 saudara laki-laki, dan masing-masing saudara laki-lakinya memiliki 2 saudara perempuan. Berapa banyak saudara perempuan yang ada di keluarga Sally?” → varian yang diparafrasekan	1,64 s	0,13 s	12x

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Menerapkan cache semantik dengan ElastiCache untuk Valkey

Multi-turn caching percakapan