Aplikasi dan skenario fine-tuning penguatan Manfaat fine-tuning penguatan Model yang didukung untuk fine-tuning penguatan Cara kerja fine-tuning penguatan Praktik terbaik fine-tuning penguatan

Sesuaikan model dengan fine-tuning tulangan di Amazon Bedrock

Reinforcement fine-tuning adalah teknik penyesuaian model di Amazon Bedrock yang meningkatkan kinerja model pondasi dengan mengajarkan model apa yang merupakan respons “baik” melalui sinyal umpan balik yang disebut penghargaan. Tidak seperti metode fine-tuning tradisional yang bergantung pada kumpulan data berlabel, penyempurnaan penguatan menggunakan pendekatan berbasis umpan balik yang secara iteratif mengoptimalkan model untuk memaksimalkan imbalan ini.

Aplikasi dan skenario fine-tuning penguatan

Gunakan fine-tuning penguatan ketika Anda dapat menentukan kriteria keberhasilan yang jelas dan terukur untuk mengevaluasi kualitas respons. Penyetelan halus penguatan unggul dalam domain di mana kualitas keluaran dapat diukur secara objektif, terutama ketika ada beberapa respons yang valid atau ketika respons optimal sulit untuk didefinisikan di muka. Ini ideal untuk:

Pemecahan masalah matematika dan pembuatan kode (menggunakan grader berbasis aturan untuk evaluasi objektif)
Penalaran ilmiah dan analisis data terstruktur
Tugas subyektif seperti mengikuti instruksi, moderasi konten, dan penulisan kreatif (menggunakan juri berbasis AI)
Tugas yang membutuhkan step-by-step penalaran atau pemecahan masalah multi-putaran
Skenario dengan beberapa solusi valid di mana beberapa jelas lebih baik daripada yang lain
Aplikasi menyeimbangkan berbagai tujuan (akurasi, efisiensi, gaya)
Aplikasi yang membutuhkan perbaikan berulang, personalisasi, atau kepatuhan terhadap aturan bisnis yang kompleks
Skenario di mana keberhasilan dapat diverifikasi secara terprogram melalui hasil eksekusi atau metrik kinerja
Kasus di mana mengumpulkan contoh berlabel berkualitas tinggi mahal atau tidak praktis

Manfaat fine-tuning penguatan

Peningkatan kinerja model - Penyetelan halus penguatan meningkatkan akurasi model hingga rata-rata 66% dibandingkan dengan model dasar. Hal ini memungkinkan optimalisasi harga dan kinerja dengan menyempurnakan varian model yang lebih kecil, lebih cepat, dan lebih efisien.
Kemudahan penggunaan - Amazon Bedrock mengotomatiskan kompleksitas penyempurnaan penguatan, membuatnya dapat diakses oleh pengembang yang membangun aplikasi AI. Anda dapat menyempurnakan model menggunakan kumpulan data yang diunggah atau log pemanggilan API yang ada. Anda dapat menentukan fungsi reward yang menilai output model dengan kode kustom menggunakan Lambda model-as-a-judge atau grader, dengan templat bawaan yang membantu penyiapan cepat.
Keamanan dan kepatuhan — Data kepemilikan Anda tidak pernah meninggalkan AWS lingkungan yang aman dan diatur selama proses penyesuaian.

Model yang didukung untuk fine-tuning penguatan

Tabel berikut menunjukkan model pondasi yang dapat Anda sesuaikan dengan fine-tuning tulangan:

Model yang didukung untuk fine-tuning penguatan
Penyedia	Model	ID Model	Nama wilayah	Region
Amazon	Nova 2 Lite	amazon.nova-2-lite-v 1:0:256 k	US East (Northern Virginia)	us-east-1
OpenAI	GPT-OSS-20b	openai.gpt-oss-20b	AS Barat (Oregon)	us-west-2
Qwen	Qwen3 32B	qwen.qwen3-32b	AS Barat (Oregon)	us-west-2

Cara kerja fine-tuning penguatan

Amazon Bedrock sepenuhnya mengotomatiskan alur kerja fine-tuning penguatan. Model menerima petunjuk dari kumpulan data pelatihan Anda dan menghasilkan beberapa respons per prompt. Tanggapan ini kemudian dinilai oleh fungsi hadiah. Amazon Bedrock menggunakan pasangan prompt respons dengan skor untuk melatih model melalui pembelajaran berbasis kebijakan menggunakan Group Relative Policy Optimization (GRPO). Loop pelatihan berlanjut hingga mencapai akhir data pelatihan Anda atau Anda menghentikan pekerjaan di pos pemeriksaan yang dipilih, menghasilkan model yang dioptimalkan untuk metrik yang penting bagi Anda.

Praktik terbaik fine-tuning penguatan

Mulai dari yang kecil - Mulailah dengan 100-200 contoh, validasi kebenaran fungsi hadiah, dan skala secara bertahap berdasarkan hasil
Evaluasi pra-fine-tuning - Uji kinerja model dasar sebelum fine-tuning penguatan. Jika hadiah secara konsisten 0 persen, gunakan fine-tuning yang diawasi terlebih dahulu untuk membangun kemampuan dasar. Jika hadiah lebih besar dari 95 persen, penyetelan penguatan mungkin tidak diperlukan
Monitor pelatihan — Lacak skor dan distribusi hadiah rata-rata. Perhatikan overfitting (hadiah pelatihan meningkat sementara imbalan validasi berkurang). Cari pola terkait seperti imbalan yang berada di bawah 0,15, meningkatkan varians hadiah dari waktu ke waktu, dan penurunan kinerja validasi
Optimalkan fungsi reward — Jalankan dalam hitungan detik (bukan menit), minimalkan panggilan API eksternal, gunakan algoritme yang efisien, terapkan penanganan kesalahan yang tepat, dan manfaatkan penskalaan paralel Lambda
Strategi iterasi - Jika hadiah tidak membaik, sesuaikan desain fungsi hadiah, tingkatkan keragaman kumpulan data, tambahkan lebih banyak contoh yang representatif, dan verifikasi sinyal hadiah jelas dan konsisten

Topik

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Kirim pekerjaan fine-tuning model

Sempurnakan model Amazon Nova