View a markdown version of this page

Cara kerja Advanced Prompt Optimization - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Cara kerja Advanced Prompt Optimization

Ikhtisar

AdvPo (AdvPo) memungkinkan Anda mengoptimalkan permintaan untuk model apa pun di Bedrock sambil membandingkan permintaan asli Anda dengan petunjuk yang dioptimalkan hingga 5 model secara bersamaan. Anda dapat menggunakan ini jika Anda bermigrasi ke model baru atau hanya ingin mendapatkan kinerja yang lebih baik pada model Anda saat ini. Jika Anda mengubah model, pilih model Anda saat ini sebagai baseline dan hingga 4 model lainnya. Jika Anda tidak mengubah model, cukup pilih model Anda saat ini untuk melihat sebelum dan sesudah pengoptimalan. Pengoptimal mengambil templat prompt Anda (hingga 10 per pekerjaan), contoh input pengguna untuk nilai variabel (sampel evaluasi, hingga 100 per templat prompt), jawaban kebenaran dasar, dan metrik evaluasi untuk memandu pengoptimalan. Ini bahkan kompatibel dengan input multimodal seperti jpeg, png, atau PDF. Anda dapat memberikan LLM-as-a-judge rubrik, fungsi Lambda, atau kriteria kemudi bahasa alami pendek. Evaluasi mengarahkan optimasi yang cepat. Pengoptimal bekerja dalam loop umpan balik berbasis evaluasi untuk mengoptimalkan respons model yang cepat dan dihasilkan, dan mengeluarkan templat prompt asli dan akhir dengan skor evaluasi, perkiraan biaya, dan latensi.

Jika Anda ingin memigrasikan prompt dari model non-Bedrock dan masih ingin memiliki perbandingan berdampingan, salah satu cara yang dapat Anda lakukan adalah dengan menjalankan inferensi pada model non-Bedrock Anda secara terpisah, lalu terapkan a untuk menilai hasil tersebut. Penilai Lambda Kustom Kemudian, buat pekerjaan Advanced Prompt Optimization dengan evaluator fungsi Lambda yang sama untuk model target Bedrock Anda. Dengan begitu, Anda dapat memiliki perbandingan langsung model lama Anda dengan model baru Anda sebelum dan sesudah pengoptimalan yang cepat.

Cara kerja loop optimasi

Sampel evaluasi Anda disuntikkan ke dalam variabel placeholder di template prompt Anda, kemudian dikirim untuk inferensi dengan model target Anda. Input multimodal (gambar dan PDF) dikirim dalam muatan ke model bersama dengan prompt tetapi tidak boleh direferensikan dalam variabel braket keriting ganda. {{placeholder}} Tanggapan dinilai sesuai dengan metode evaluasi Anda. Layanan menganalisis hasil evaluasi dan secara otomatis menulis ulang permintaan Anda, lalu mengirimkannya kembali ke model. Loop umpan balik ini berulang dan diselesaikan sesuai dengan parameter optimasi internal yang dipatenkan.

Penting bagi Anda untuk menentukan metode dan kriteria evaluasi Anda setepat mungkin, karena evaluasi mengarahkan pengoptimalan yang cepat.

Baik dataset dan metric/lambda kode membentuk kualitas optimasi. Sistem menggunakan kumpulan data Anda untuk menguji kandidat prompt, dan membaca kode metrik Anda (teks sumber dan docstring) untuk memahami apa arti “baik” dan untuk mendiagnosis di mana permintaan gagal.

Apa yang Anda terima

Di akhir pekerjaan pengoptimalan, Anda menerima:

  • Templat prompt Anda sebelum dan sesudah pengoptimalan

  • Skor evaluasi untuk setiap sampel evaluasi

  • Latensi (token waktu ke pertama, atau TTFT) untuk setiap model

  • Perkiraan biaya untuk setiap model

Biaya

Semua inferensi dan pemanggilan fungsi Lambda berjalan di akun Anda. AWS Operasi Lambda dibebankan pada harga publik Lambda. Harga inferensi (termasuk LLM-as-a-judge evaluasi) dibebankan sesuai dengan harga publik Bedrock untuk inferensi sesuai permintaan. Tidak ada biaya layanan Advanced Prompt Optimization terpisah di luar biaya inferensi. LLM-as-a-judge Model default saat ini adalah Anthropic Claude Sonnet 4.6, kecuali jika Anda memilih yang berbeda untuk prompt LLMJ kustom Anda.

Lihat halaman harga publik Bedrock di bawah Optimasi Prompt, lalu Optimasi Prompt Lanjutan untuk metode perhitungan guna memperkirakan biaya menjalankan pengoptimalan.

Durasi yang diharapkan

Untuk satu prompt dengan hanya beberapa sampel evaluasi, pekerjaan dapat berjalan selama 15 hingga 20 menit. Untuk banyak petunjuk, masing-masing dengan sejumlah besar sampel evaluasi, pekerjaan dapat berjalan selama lebih dari satu jam, berpotensi selama beberapa jam. Ini karena setiap template prompt melewati beberapa putaran inferensi, evaluasi, dan loop penulisan ulang berdasarkan setiap catatan sampel evaluasi yang Anda berikan.