Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Memantau pelatihan RFT
Pantau metrik utama selama pelatihan untuk memastikan pembelajaran yang efektif dan mengidentifikasi potensi masalah sejak dini.
Topik
Metrik kunci untuk dilacak
Pantau metrik berikut yang digunakan MlFlow selama pelatihan:
Metrik hadiah:
-
Skor hadiah rata-rata: Kualitas keseluruhan respons model (harus meningkat seiring waktu)
-
Distribusi hadiah: Persentase tanggapan yang menerima hadiah tinggi, sedang, dan rendah
-
Hadiah pelatihan vs. validasi: Bandingkan untuk mendeteksi overfitting
Metrik pelatihan:
-
Pembaruan kebijakan: Jumlah pembaruan bobot yang berhasil
-
Tingkat penyelesaian peluncuran: Persentase sampel yang berhasil dievaluasi
Mengenai pola:
-
Imbalan dataran tinggi (menunjukkan pembelajaran yang buruk)
-
Hadiah validasi turun saat hadiah pelatihan meningkat (overfitting)
-
Varians hadiah meningkat secara signifikan dari waktu ke waktu (ketidakstabilan)
-
Persentase kesalahan fungsi hadiah yang tinggi (masalah implementasi)
Kapan harus menghentikan pelatihan:
-
Metrik kinerja target tercapai
-
Imbalan dataran tinggi dan tidak lagi membaik
-
Kinerja validasi menurun (overfitting terdeteksi)
-
Anggaran pelatihan maksimum tercapai
Evaluasi setelah RFT
Setelah pelatihan selesai, evaluasi model yang disetel dengan baik untuk menilai peningkatan kinerja:
-
Jalankan pekerjaan evaluasi RFT: Gunakan pos pemeriksaan dari pelatihan RFT Anda sebagai model
-
Bandingkan dengan baseline: Evaluasi model dasar dan model yang disetel dengan baik pada set pengujian yang sama
-
Analisis metrik: Tinjau metrik khusus tugas (akurasi, skor hadiah, dll.)
-
Melakukan tinjauan kualitatif: Periksa secara manual keluaran sampel untuk kualitas
Untuk prosedur evaluasi terperinci, lihat bagian Evaluasi.
Menggunakan model yang disetel dengan baik
Mengakses pos pemeriksaan:
Setelah pelatihan selesai, cari pos pemeriksaan Anda:
-
Arahkan ke Anda
output_pathdi S3 -
Unduh dan ekstrak
output.tar.gz -
Terbuka
manifest.json -
Salin
checkpoint_s3_bucketnilainya
Menerapkan untuk inferensi:
Gunakan jalur pos pemeriksaan S3 untuk inferensi atau pelatihan lebih lanjut:
run: model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"
Untuk instruksi penyebaran dan inferensi, lihat bagian Inferensi.
Keterbatasan dan praktik terbaik
Keterbatasan saat ini:
Pembatasan beta:
-
Perlu membuat grup RIG baru untuk RFT. Batasan ini akan diselesaikan oleh GA.
-
Persyaratan tipe instans: Hanya instans P5 yang didukung (minimal 8x p5.48xLarge). Segera Hadir: Dukungan untuk jenis instans yang lebih kecil (ETA: pertengahan Januari 2025).
Keterbatasan fungsional:
-
Batas waktu Lambda 15 menit: Fungsi hadiah harus selesai dalam 15 menit
-
Hanya satu putaran: Percakapan multi-putaran tidak didukung
-
Kumpulan data validasi: Tidak didukung selama pelatihan. Gunakan pekerjaan evaluasi terpisah untuk menilai kemajuan pelatihan.
Pertimbangan pelatihan:
-
Skenario hadiah rendah: Mungkin kesulitan ketika kurang dari 5% contoh menerima hadiah positif - pertimbangkan SFT terlebih dahulu
-
Persyaratan data: Membutuhkan keragaman yang cukup untuk belajar secara efektif
-
Biaya komputasi: Lebih mahal daripada fine-tuning yang diawasi
Nova Forge menghapus beberapa keterbatasan ini:
-
Mendukung percakapan multi-putaran
-
Memungkinkan fungsi hadiah melebihi batas waktu 15 menit
-
Menyediakan algoritma canggih dan opsi penyetelan
-
Dirancang untuk kasus penggunaan perusahaan yang kompleks, yang secara khusus disetel untuk membangun model perbatasan
Praktik terbaik:
Mulai kecil dan skala:
-
Mulailah dengan kumpulan data minimal (100-200 contoh) dan beberapa zaman pelatihan
-
Validasi pendekatan Anda sebelum meningkatkan
-
Secara bertahap meningkatkan ukuran dataset dan langkah-langkah pelatihan berdasarkan hasil
Baseline dengan SFT terlebih dahulu:
-
Jika skor hadiah secara konsisten rendah (misalnya, selalu 0), lakukan SFT sebelum RFT
-
RFT membutuhkan kinerja dasar yang wajar untuk meningkatkan secara efektif
Desain fungsi hadiah yang efisien:
-
Jalankan dalam hitungan detik, bukan menit
-
Minimalkan panggilan API eksternal
-
Gunakan algoritma dan struktur data yang efisien
-
Menerapkan penanganan kesalahan yang tepat
-
Uji secara menyeluruh sebelum pelatihan
-
Memanfaatkan kemampuan penskalaan paralel Lambda
Pantau pelatihan secara aktif:
-
Lacak skor hadiah rata-rata dari waktu ke waktu
-
Tonton distribusi hadiah di seluruh sampel
-
Bandingkan hadiah pelatihan vs. validasi
-
Cari pola yang menyangkut (dataran tinggi, overfitting, ketidakstabilan)
Iterasi berdasarkan hasil:
-
Jika reward tidak membaik setelah beberapa iterasi, sesuaikan desain fungsi reward
-
Tingkatkan keragaman kumpulan data untuk memberikan sinyal pembelajaran yang lebih jelas
-
Pertimbangkan untuk beralih ke SFT jika hadiah tetap mendekati nol
-
Bereksperimenlah dengan hiperparameter yang berbeda (tingkat pembelajaran, ukuran batch)
Optimalkan kualitas data:
-
Pastikan contoh yang beragam dan representatif
-
Sertakan kasing tepi dan sampel yang sulit
-
Verifikasi fungsi hadiah dengan benar menilai semua jenis contoh
-
Hapus atau perbaiki sampel yang membingungkan fungsi hadiah
Pemecahan masalah
Kesalahan fungsi hadiah:
Gejala: Tingkat kesalahan tinggi dalam panggilan fungsi hadiah selama pelatihan
Isu |
Gejala |
Resolusi |
|---|---|---|
Batas waktu Lambda |
Batas waktu yang sering setelah 15 menit |
Optimalkan kinerja fungsi; pertimbangkan Nova Forge untuk evaluasi kompleks |
Konkurensi tidak cukup |
Kesalahan pelambatan Lambda |
Tingkatkan lambda_concurrency_limit atau minta kenaikan kuota |
Format pengembalian tidak valid |
Pelatihan gagal dengan kesalahan format |
Verifikasi struktur pengembalian cocok dengan format antarmuka yang diperlukan |
Pengecualian yang tidak tertangani |
Kesalahan intermiten |
Tambahkan penanganan kesalahan dan pencatatan yang komprehensif |
Kegagalan API eksternal |
Penilaian yang tidak konsisten |
Menerapkan logika coba lagi dan strategi mundur |
Kinerja pelatihan yang buruk:
Gejala: Imbalan tidak membaik atau mendatar pada nilai rendah
Resolusi:
-
Verifikasi kebenaran fungsi hadiah: Uji dengan contoh yang diketahui good/bad
-
Periksa kinerja dasar: Evaluasi model dasar; jika akurasi mendekati nol, lakukan SFT terlebih dahulu
-
Tingkatkan keragaman data: Tambahkan contoh yang lebih bervariasi yang mencakup skenario berbeda
-
Sesuaikan hiperparameter: Coba tingkat pembelajaran atau ukuran batch yang berbeda
-
Tinjau kualitas sinyal hadiah: Pastikan hadiah membedakan antara respons yang baik dan buruk
Overfitting:
Gejala: Hadiah pelatihan meningkat sementara imbalan validasi menurun
Resolusi:
-
Kurangi langkah pelatihan: Hentikan pelatihan lebih awal
-
Tingkatkan ukuran kumpulan data: Tambahkan lebih banyak contoh pelatihan
-
Tambahkan regularisasi: Sesuaikan atau
weight_decayentropy_coeff -
Meningkatkan keragaman data: Pastikan set pelatihan mewakili distribusi penuh