Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Dampak dan tolok ukur
AWS mengevaluasi pendekatan pada 63.796 kueri chatbot pengguna nyata dan varian parafrasenya dari kumpulan data publik. SemBenchmarkLmArena Dataset ini menangkap interaksi pengguna dengan platform Chatbot Arena di seluruh kasus penggunaan asisten umum seperti menjawab pertanyaan, penulisan, dan analisis.
Evaluasi menggunakan konfigurasi berikut:
ElastiCache
cache.r7g.largemisalnya sebagai penyimpanan cache semantikAmazon Titan Text Embeddings V2 untuk penyematan
Claude 3 Haiku untuk inferensi LLM
Cache mulai kosong, dan semua 63.796 kueri dialirkan sebagai lalu lintas pengguna masuk acak, mensimulasikan lalu lintas aplikasi dunia nyata.
Biaya dan akurasi pada ambang kesamaan yang berbeda
Tabel berikut merangkum trade-off antara pengurangan biaya, peningkatan latensi, dan akurasi di berbagai ambang kesamaan:
| Ambang kesamaan | Rasio hit cache | Akurasi respons yang di-cache | Total biaya harian | Penghematan biaya | Latensi rata-rata | Pengurangan latensi |
|---|---|---|---|---|---|---|
| Baseline (tidak ada cache) | – | – | $49,50 | – | 4.35 | – |
| 0,99 (sangat ketat) | 23,5% | 92,1% | $41,70 | 15,8% | 3.60 | 17,1% |
| 0,95 (ketat) | 56,0% | 92,6% | $23,80 | 51,9% | 1,84 | 57,7% |
| 0,90 (sedang) | 74,5% | 92,3% | $13,60 | 72,5% | 1.21 | 72,2% |
| 0,80 (seimbang) | 87,6% | 91,8% | $7,60 | 84,6% | 0,60 | 86,1% |
| 0,75 (santai) | 90,3% | 91,2% | $6,80 | 86,3% | 0,51 | 88,3% |
| 0,50 (sangat santai) | 94,3% | 87,5% | $5,90 | 88,0% | 0,46 | 89,3% |
Pada ambang kesamaan 0,75, caching semantik mengurangi biaya inferensi LLM hingga 86% sambil mempertahankan akurasi jawaban 91%. Pilihan LLM, model embedding, dan backing store memengaruhi biaya dan latensi. Caching semantik memberikan manfaat yang lebih besar secara proporsional bila digunakan dengan LLM yang lebih besar dan berbiaya lebih tinggi.
Peningkatan latensi kueri individu
Tabel berikut menunjukkan dampak pada latensi kueri individu. Sebuah cache menekan mengurangi latensi hingga 59x, dari beberapa detik menjadi beberapa ratus milidetik:
| Maksud kueri | Latensi kehilangan cache | Latensi hit cache | Pengurangan |
|---|---|---|---|
| “Apakah ada contoh di mana awalan SI menyimpang dari menunjukkan kekuatan 10, tidak termasuk aplikasi mereka?” → varian yang diparafrasekan | 6,51 s | 0,11 s | 59x |
| “Sally adalah seorang gadis dengan 3 saudara laki-laki, dan masing-masing saudara laki-lakinya memiliki 2 saudara perempuan. Berapa banyak saudara perempuan yang ada di keluarga Sally?” → varian yang diparafrasekan | 1,64 s | 0,13 s | 12x |