Metrik kunci untuk dilacak Evaluasi setelah RFT Menggunakan model yang disetel dengan baik Keterbatasan dan praktik terbaik Pemecahan masalah

Memantau pelatihan RFT

Pantau metrik utama selama pelatihan untuk memastikan pembelajaran yang efektif dan mengidentifikasi potensi masalah sejak dini.

Topik

Metrik kunci untuk dilacak
Evaluasi setelah RFT
Menggunakan model yang disetel dengan baik
Keterbatasan dan praktik terbaik
Pemecahan masalah

Metrik kunci untuk dilacak

Pantau metrik berikut yang digunakan MlFlow selama pelatihan:

Metrik hadiah:

Skor hadiah rata-rata: Kualitas keseluruhan respons model (harus meningkat seiring waktu)
Distribusi hadiah: Persentase tanggapan yang menerima hadiah tinggi, sedang, dan rendah
Hadiah pelatihan vs. validasi: Bandingkan untuk mendeteksi overfitting

Metrik pelatihan:

Pembaruan kebijakan: Jumlah pembaruan bobot yang berhasil
Tingkat penyelesaian peluncuran: Persentase sampel yang berhasil dievaluasi

Mengenai pola:

Imbalan dataran tinggi (menunjukkan pembelajaran yang buruk)
Hadiah validasi turun saat hadiah pelatihan meningkat (overfitting)
Varians hadiah meningkat secara signifikan dari waktu ke waktu (ketidakstabilan)
Persentase kesalahan fungsi hadiah yang tinggi (masalah implementasi)

Kapan harus menghentikan pelatihan:

Metrik kinerja target tercapai
Imbalan dataran tinggi dan tidak lagi membaik
Kinerja validasi menurun (overfitting terdeteksi)
Anggaran pelatihan maksimum tercapai

Evaluasi setelah RFT

Setelah pelatihan selesai, evaluasi model yang disetel dengan baik untuk menilai peningkatan kinerja:

Jalankan pekerjaan evaluasi RFT: Gunakan pos pemeriksaan dari pelatihan RFT Anda sebagai model
Bandingkan dengan baseline: Evaluasi model dasar dan model yang disetel dengan baik pada set pengujian yang sama
Analisis metrik: Tinjau metrik khusus tugas (akurasi, skor hadiah, dll.)
Melakukan tinjauan kualitatif: Periksa secara manual keluaran sampel untuk kualitas

Untuk prosedur evaluasi terperinci, lihat bagian Evaluasi.

Menggunakan model yang disetel dengan baik

Mengakses pos pemeriksaan:

Setelah pelatihan selesai, cari pos pemeriksaan Anda:

Arahkan ke Anda output_path di S3
Unduh dan ekstrak output.tar.gz
Terbuka manifest.json
Salin checkpoint_s3_bucket nilainya

Menerapkan untuk inferensi:

Gunakan jalur pos pemeriksaan S3 untuk inferensi atau pelatihan lebih lanjut:


run:
    model_type: amazon.nova-2-lite-v1:0:256k
    model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"

Untuk instruksi penyebaran dan inferensi, lihat bagian Inferensi.

Keterbatasan dan praktik terbaik

Keterbatasan saat ini:

Pembatasan beta:

Perlu membuat grup RIG baru untuk RFT. Batasan ini akan diselesaikan oleh GA.
Persyaratan tipe instans: Hanya instans P5 yang didukung (minimal 8x p5.48xLarge). Segera Hadir: Dukungan untuk jenis instans yang lebih kecil (ETA: pertengahan Januari 2025).

Keterbatasan fungsional:

Batas waktu Lambda 15 menit: Fungsi hadiah harus selesai dalam 15 menit
Hanya satu putaran: Percakapan multi-putaran tidak didukung
Kumpulan data validasi: Tidak didukung selama pelatihan. Gunakan pekerjaan evaluasi terpisah untuk menilai kemajuan pelatihan.

Pertimbangan pelatihan:

Skenario hadiah rendah: Mungkin kesulitan ketika kurang dari 5% contoh menerima hadiah positif - pertimbangkan SFT terlebih dahulu
Persyaratan data: Membutuhkan keragaman yang cukup untuk belajar secara efektif
Biaya komputasi: Lebih mahal daripada fine-tuning yang diawasi

Nova Forge menghapus beberapa keterbatasan ini:

Mendukung percakapan multi-putaran
Memungkinkan fungsi hadiah melebihi batas waktu 15 menit
Menyediakan algoritma canggih dan opsi penyetelan
Dirancang untuk kasus penggunaan perusahaan yang kompleks, yang secara khusus disetel untuk membangun model perbatasan

Praktik terbaik:

Mulai kecil dan skala:

Mulailah dengan kumpulan data minimal (100-200 contoh) dan beberapa zaman pelatihan
Validasi pendekatan Anda sebelum meningkatkan
Secara bertahap meningkatkan ukuran dataset dan langkah-langkah pelatihan berdasarkan hasil

Baseline dengan SFT terlebih dahulu:

Jika skor hadiah secara konsisten rendah (misalnya, selalu 0), lakukan SFT sebelum RFT
RFT membutuhkan kinerja dasar yang wajar untuk meningkatkan secara efektif

Desain fungsi hadiah yang efisien:

Jalankan dalam hitungan detik, bukan menit
Minimalkan panggilan API eksternal
Gunakan algoritma dan struktur data yang efisien
Menerapkan penanganan kesalahan yang tepat
Uji secara menyeluruh sebelum pelatihan
Memanfaatkan kemampuan penskalaan paralel Lambda

Pantau pelatihan secara aktif:

Lacak skor hadiah rata-rata dari waktu ke waktu
Tonton distribusi hadiah di seluruh sampel
Bandingkan hadiah pelatihan vs. validasi
Cari pola yang menyangkut (dataran tinggi, overfitting, ketidakstabilan)

Iterasi berdasarkan hasil:

Jika reward tidak membaik setelah beberapa iterasi, sesuaikan desain fungsi reward
Tingkatkan keragaman kumpulan data untuk memberikan sinyal pembelajaran yang lebih jelas
Pertimbangkan untuk beralih ke SFT jika hadiah tetap mendekati nol
Bereksperimenlah dengan hiperparameter yang berbeda (tingkat pembelajaran, ukuran batch)

Optimalkan kualitas data:

Pastikan contoh yang beragam dan representatif
Sertakan kasing tepi dan sampel yang sulit
Verifikasi fungsi hadiah dengan benar menilai semua jenis contoh
Hapus atau perbaiki sampel yang membingungkan fungsi hadiah

Pemecahan masalah

Kesalahan fungsi hadiah:

Gejala: Tingkat kesalahan tinggi dalam panggilan fungsi hadiah selama pelatihan

Isu	Gejala	Resolusi
Batas waktu Lambda	Batas waktu yang sering setelah 15 menit	Optimalkan kinerja fungsi; pertimbangkan Nova Forge untuk evaluasi kompleks
Konkurensi tidak cukup	Kesalahan pelambatan Lambda	Tingkatkan lambda_concurrency_limit atau minta kenaikan kuota
Format pengembalian tidak valid	Pelatihan gagal dengan kesalahan format	Verifikasi struktur pengembalian cocok dengan format antarmuka yang diperlukan
Pengecualian yang tidak tertangani	Kesalahan intermiten	Tambahkan penanganan kesalahan dan pencatatan yang komprehensif
Kegagalan API eksternal	Penilaian yang tidak konsisten	Menerapkan logika coba lagi dan strategi mundur

Kinerja pelatihan yang buruk:

Gejala: Imbalan tidak membaik atau mendatar pada nilai rendah

Resolusi:

Verifikasi kebenaran fungsi hadiah: Uji dengan contoh yang diketahui good/bad
Periksa kinerja dasar: Evaluasi model dasar; jika akurasi mendekati nol, lakukan SFT terlebih dahulu
Tingkatkan keragaman data: Tambahkan contoh yang lebih bervariasi yang mencakup skenario berbeda
Sesuaikan hiperparameter: Coba tingkat pembelajaran atau ukuran batch yang berbeda
Tinjau kualitas sinyal hadiah: Pastikan hadiah membedakan antara respons yang baik dan buruk

Overfitting:

Gejala: Hadiah pelatihan meningkat sementara imbalan validasi menurun

Resolusi:

Kurangi langkah pelatihan: Hentikan pelatihan lebih awal
Tingkatkan ukuran kumpulan data: Tambahkan lebih banyak contoh pelatihan
Tambahkan regularisasi: Sesuaikan atau weight_decay entropy_coeff
Meningkatkan keragaman data: Pastikan set pelatihan mewakili distribusi penuh

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

RFT pada Nova 2.0

Evaluasi