View a markdown version of this page

Sesuaikan model dengan fine-tuning tulangan di Amazon Bedrock - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Sesuaikan model dengan fine-tuning tulangan di Amazon Bedrock

Reinforcement fine-tuning adalah teknik penyesuaian model di Amazon Bedrock yang meningkatkan kinerja model pondasi dengan mengajarkan model apa yang merupakan respons “baik” melalui sinyal umpan balik yang disebut penghargaan. Tidak seperti metode fine-tuning tradisional yang bergantung pada kumpulan data berlabel, penyempurnaan penguatan menggunakan pendekatan berbasis umpan balik yang secara iteratif mengoptimalkan model untuk memaksimalkan imbalan ini.

Aplikasi dan skenario fine-tuning penguatan

Gunakan fine-tuning penguatan ketika Anda dapat menentukan kriteria keberhasilan yang jelas dan terukur untuk mengevaluasi kualitas respons. Penyetelan halus penguatan unggul dalam domain di mana kualitas keluaran dapat diukur secara objektif, terutama ketika ada beberapa respons yang valid atau ketika respons optimal sulit untuk didefinisikan di muka. Ini ideal untuk:

  • Pemecahan masalah matematika dan pembuatan kode (menggunakan grader berbasis aturan untuk evaluasi objektif)

  • Penalaran ilmiah dan analisis data terstruktur

  • Tugas subyektif seperti mengikuti instruksi, moderasi konten, dan penulisan kreatif (menggunakan juri berbasis AI)

  • Tugas yang membutuhkan step-by-step penalaran atau pemecahan masalah multi-putaran

  • Skenario dengan beberapa solusi valid di mana beberapa jelas lebih baik daripada yang lain

  • Aplikasi menyeimbangkan berbagai tujuan (akurasi, efisiensi, gaya)

  • Aplikasi yang membutuhkan perbaikan berulang, personalisasi, atau kepatuhan terhadap aturan bisnis yang kompleks

  • Skenario di mana keberhasilan dapat diverifikasi secara terprogram melalui hasil eksekusi atau metrik kinerja

  • Kasus di mana mengumpulkan contoh berlabel berkualitas tinggi mahal atau tidak praktis

Manfaat fine-tuning penguatan

  • Peningkatan kinerja model - Penyetelan halus penguatan meningkatkan akurasi model hingga rata-rata 66% dibandingkan dengan model dasar. Hal ini memungkinkan optimalisasi harga dan kinerja dengan menyempurnakan varian model yang lebih kecil, lebih cepat, dan lebih efisien.

  • Kemudahan penggunaan - Amazon Bedrock mengotomatiskan kompleksitas penyempurnaan penguatan, membuatnya dapat diakses oleh pengembang yang membangun aplikasi AI. Anda dapat menyempurnakan model menggunakan kumpulan data yang diunggah atau log pemanggilan API yang ada. Anda dapat menentukan fungsi reward yang menilai output model dengan kode kustom menggunakan Lambda model-as-a-judge atau grader, dengan templat bawaan yang membantu penyiapan cepat.

  • Keamanan dan kepatuhan — Data kepemilikan Anda tidak pernah meninggalkan AWS lingkungan yang aman dan diatur selama proses penyesuaian.

Model yang didukung untuk fine-tuning penguatan

Tabel berikut menunjukkan model pondasi yang dapat Anda sesuaikan dengan fine-tuning tulangan:

Model yang didukung untuk fine-tuning penguatan
Penyedia Model ID Model Nama wilayah Region
Amazon Nova 2 Lite amazon.nova-2-lite-v 1:0:256 k

US East (Northern Virginia)

us-east-1

OpenAI GPT-OSS-20b openai.gpt-oss-20b AS Barat (Oregon) us-west-2
Qwen Qwen3 32B qwen.qwen3-32b AS Barat (Oregon) us-west-2

Cara kerja fine-tuning penguatan

Amazon Bedrock sepenuhnya mengotomatiskan alur kerja fine-tuning penguatan. Model menerima petunjuk dari kumpulan data pelatihan Anda dan menghasilkan beberapa respons per prompt. Tanggapan ini kemudian dinilai oleh fungsi hadiah. Amazon Bedrock menggunakan pasangan prompt respons dengan skor untuk melatih model melalui pembelajaran berbasis kebijakan menggunakan Group Relative Policy Optimization (GRPO). Loop pelatihan berlanjut hingga mencapai akhir data pelatihan Anda atau Anda menghentikan pekerjaan di pos pemeriksaan yang dipilih, menghasilkan model yang dioptimalkan untuk metrik yang penting bagi Anda.

Praktik terbaik fine-tuning penguatan

  • Mulai dari yang kecil - Mulailah dengan 100-200 contoh, validasi kebenaran fungsi hadiah, dan skala secara bertahap berdasarkan hasil

  • Evaluasi pra-fine-tuning - Uji kinerja model dasar sebelum fine-tuning penguatan. Jika hadiah secara konsisten 0 persen, gunakan fine-tuning yang diawasi terlebih dahulu untuk membangun kemampuan dasar. Jika hadiah lebih besar dari 95 persen, penyetelan penguatan mungkin tidak diperlukan

  • Monitor pelatihan — Lacak skor dan distribusi hadiah rata-rata. Perhatikan overfitting (hadiah pelatihan meningkat sementara imbalan validasi berkurang). Cari pola terkait seperti imbalan yang berada di bawah 0,15, meningkatkan varians hadiah dari waktu ke waktu, dan penurunan kinerja validasi

  • Optimalkan fungsi reward — Jalankan dalam hitungan detik (bukan menit), minimalkan panggilan API eksternal, gunakan algoritme yang efisien, terapkan penanganan kesalahan yang tepat, dan manfaatkan penskalaan paralel Lambda

  • Strategi iterasi - Jika hadiah tidak membaik, sesuaikan desain fungsi hadiah, tingkatkan keragaman kumpulan data, tambahkan lebih banyak contoh yang representatif, dan verifikasi sinyal hadiah jelas dan konsisten