View a markdown version of this page

Dampak dan tolok ukur - Amazon ElastiCache

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Dampak dan tolok ukur

AWS mengevaluasi pendekatan pada 63.796 kueri chatbot pengguna nyata dan varian parafrasenya dari kumpulan data publik. SemBenchmarkLmArena Dataset ini menangkap interaksi pengguna dengan platform Chatbot Arena di seluruh kasus penggunaan asisten umum seperti menjawab pertanyaan, penulisan, dan analisis.

Evaluasi menggunakan konfigurasi berikut:

  • ElastiCache cache.r7g.largemisalnya sebagai penyimpanan cache semantik

  • Amazon Titan Text Embeddings V2 untuk penyematan

  • Claude 3 Haiku untuk inferensi LLM

Cache mulai kosong, dan semua 63.796 kueri dialirkan sebagai lalu lintas pengguna masuk acak, mensimulasikan lalu lintas aplikasi dunia nyata.

Biaya dan akurasi pada ambang kesamaan yang berbeda

Tabel berikut merangkum trade-off antara pengurangan biaya, peningkatan latensi, dan akurasi di berbagai ambang kesamaan:

Ambang kesamaan Rasio hit cache Akurasi respons yang di-cache Total biaya harian Penghematan biaya Latensi rata-rata Pengurangan latensi
Baseline (tidak ada cache) $49,50 4.35
0,99 (sangat ketat) 23,5% 92,1% $41,70 15,8% 3.60 17,1%
0,95 (ketat) 56,0% 92,6% $23,80 51,9% 1,84 57,7%
0,90 (sedang) 74,5% 92,3% $13,60 72,5% 1.21 72,2%
0,80 (seimbang) 87,6% 91,8% $7,60 84,6% 0,60 86,1%
0,75 (santai) 90,3% 91,2% $6,80 86,3% 0,51 88,3%
0,50 (sangat santai) 94,3% 87,5% $5,90 88,0% 0,46 89,3%

Pada ambang kesamaan 0,75, caching semantik mengurangi biaya inferensi LLM hingga 86% sambil mempertahankan akurasi jawaban 91%. Pilihan LLM, model embedding, dan backing store memengaruhi biaya dan latensi. Caching semantik memberikan manfaat yang lebih besar secara proporsional bila digunakan dengan LLM yang lebih besar dan berbiaya lebih tinggi.

Peningkatan latensi kueri individu

Tabel berikut menunjukkan dampak pada latensi kueri individu. Sebuah cache menekan mengurangi latensi hingga 59x, dari beberapa detik menjadi beberapa ratus milidetik:

Maksud kueri Latensi kehilangan cache Latensi hit cache Pengurangan
“Apakah ada contoh di mana awalan SI menyimpang dari menunjukkan kekuatan 10, tidak termasuk aplikasi mereka?” → varian yang diparafrasekan 6,51 s 0,11 s 59x
“Sally adalah seorang gadis dengan 3 saudara laki-laki, dan masing-masing saudara laki-lakinya memiliki 2 saudara perempuan. Berapa banyak saudara perempuan yang ada di keluarga Sally?” → varian yang diparafrasekan 1,64 s 0,13 s 12x