View a markdown version of this page

Memantau pelatihan RFT - Amazon Nova

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memantau pelatihan RFT

Pantau metrik utama selama pelatihan untuk memastikan pembelajaran yang efektif dan mengidentifikasi potensi masalah sejak dini.

Metrik kunci untuk dilacak

Pantau metrik berikut yang digunakan MlFlow selama pelatihan:

Metrik hadiah:

  • Skor hadiah rata-rata: Kualitas keseluruhan respons model (harus meningkat seiring waktu)

  • Distribusi hadiah: Persentase tanggapan yang menerima hadiah tinggi, sedang, dan rendah

  • Hadiah pelatihan vs. validasi: Bandingkan untuk mendeteksi overfitting

Metrik pelatihan:

  • Pembaruan kebijakan: Jumlah pembaruan bobot yang berhasil

  • Tingkat penyelesaian peluncuran: Persentase sampel yang berhasil dievaluasi

Mengenai pola:

  • Imbalan dataran tinggi (menunjukkan pembelajaran yang buruk)

  • Hadiah validasi turun saat hadiah pelatihan meningkat (overfitting)

  • Varians hadiah meningkat secara signifikan dari waktu ke waktu (ketidakstabilan)

  • Persentase kesalahan fungsi hadiah yang tinggi (masalah implementasi)

Kapan harus menghentikan pelatihan:

  • Metrik kinerja target tercapai

  • Imbalan dataran tinggi dan tidak lagi membaik

  • Kinerja validasi menurun (overfitting terdeteksi)

  • Anggaran pelatihan maksimum tercapai

Evaluasi setelah RFT

Setelah pelatihan selesai, evaluasi model yang disetel dengan baik untuk menilai peningkatan kinerja:

  • Jalankan pekerjaan evaluasi RFT: Gunakan pos pemeriksaan dari pelatihan RFT Anda sebagai model

  • Bandingkan dengan baseline: Evaluasi model dasar dan model yang disetel dengan baik pada set pengujian yang sama

  • Analisis metrik: Tinjau metrik khusus tugas (akurasi, skor hadiah, dll.)

  • Melakukan tinjauan kualitatif: Periksa secara manual keluaran sampel untuk kualitas

Untuk prosedur evaluasi terperinci, lihat bagian Evaluasi.

Menggunakan model yang disetel dengan baik

Mengakses pos pemeriksaan:

Setelah pelatihan selesai, cari pos pemeriksaan Anda:

  1. Arahkan ke Anda output_path di S3

  2. Unduh dan ekstrak output.tar.gz

  3. Terbuka manifest.json

  4. Salin checkpoint_s3_bucket nilainya

Menerapkan untuk inferensi:

Gunakan jalur pos pemeriksaan S3 untuk inferensi atau pelatihan lebih lanjut:

run: model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"

Untuk instruksi penyebaran dan inferensi, lihat bagian Inferensi.

Keterbatasan dan praktik terbaik

Keterbatasan saat ini:

Pembatasan beta:

  • Perlu membuat grup RIG baru untuk RFT. Batasan ini akan diselesaikan oleh GA.

  • Persyaratan tipe instans: Hanya instans P5 yang didukung (minimal 8x p5.48xLarge). Segera Hadir: Dukungan untuk jenis instans yang lebih kecil (ETA: pertengahan Januari 2025).

Keterbatasan fungsional:

  • Batas waktu Lambda 15 menit: Fungsi hadiah harus selesai dalam 15 menit

  • Hanya satu putaran: Percakapan multi-putaran tidak didukung

  • Kumpulan data validasi: Tidak didukung selama pelatihan. Gunakan pekerjaan evaluasi terpisah untuk menilai kemajuan pelatihan.

Pertimbangan pelatihan:

  • Skenario hadiah rendah: Mungkin kesulitan ketika kurang dari 5% contoh menerima hadiah positif - pertimbangkan SFT terlebih dahulu

  • Persyaratan data: Membutuhkan keragaman yang cukup untuk belajar secara efektif

  • Biaya komputasi: Lebih mahal daripada fine-tuning yang diawasi

Nova Forge menghapus beberapa keterbatasan ini:

  • Mendukung percakapan multi-putaran

  • Memungkinkan fungsi hadiah melebihi batas waktu 15 menit

  • Menyediakan algoritma canggih dan opsi penyetelan

  • Dirancang untuk kasus penggunaan perusahaan yang kompleks, yang secara khusus disetel untuk membangun model perbatasan

Praktik terbaik:

Mulai kecil dan skala:

  • Mulailah dengan kumpulan data minimal (100-200 contoh) dan beberapa zaman pelatihan

  • Validasi pendekatan Anda sebelum meningkatkan

  • Secara bertahap meningkatkan ukuran dataset dan langkah-langkah pelatihan berdasarkan hasil

Baseline dengan SFT terlebih dahulu:

  • Jika skor hadiah secara konsisten rendah (misalnya, selalu 0), lakukan SFT sebelum RFT

  • RFT membutuhkan kinerja dasar yang wajar untuk meningkatkan secara efektif

Desain fungsi hadiah yang efisien:

  • Jalankan dalam hitungan detik, bukan menit

  • Minimalkan panggilan API eksternal

  • Gunakan algoritma dan struktur data yang efisien

  • Menerapkan penanganan kesalahan yang tepat

  • Uji secara menyeluruh sebelum pelatihan

  • Memanfaatkan kemampuan penskalaan paralel Lambda

Pantau pelatihan secara aktif:

  • Lacak skor hadiah rata-rata dari waktu ke waktu

  • Tonton distribusi hadiah di seluruh sampel

  • Bandingkan hadiah pelatihan vs. validasi

  • Cari pola yang menyangkut (dataran tinggi, overfitting, ketidakstabilan)

Iterasi berdasarkan hasil:

  • Jika reward tidak membaik setelah beberapa iterasi, sesuaikan desain fungsi reward

  • Tingkatkan keragaman kumpulan data untuk memberikan sinyal pembelajaran yang lebih jelas

  • Pertimbangkan untuk beralih ke SFT jika hadiah tetap mendekati nol

  • Bereksperimenlah dengan hiperparameter yang berbeda (tingkat pembelajaran, ukuran batch)

Optimalkan kualitas data:

  • Pastikan contoh yang beragam dan representatif

  • Sertakan kasing tepi dan sampel yang sulit

  • Verifikasi fungsi hadiah dengan benar menilai semua jenis contoh

  • Hapus atau perbaiki sampel yang membingungkan fungsi hadiah

Pemecahan masalah

Kesalahan fungsi hadiah:

Gejala: Tingkat kesalahan tinggi dalam panggilan fungsi hadiah selama pelatihan

Isu

Gejala

Resolusi

Batas waktu Lambda

Batas waktu yang sering setelah 15 menit

Optimalkan kinerja fungsi; pertimbangkan Nova Forge untuk evaluasi kompleks

Konkurensi tidak cukup

Kesalahan pelambatan Lambda

Tingkatkan lambda_concurrency_limit atau minta kenaikan kuota

Format pengembalian tidak valid

Pelatihan gagal dengan kesalahan format

Verifikasi struktur pengembalian cocok dengan format antarmuka yang diperlukan

Pengecualian yang tidak tertangani

Kesalahan intermiten

Tambahkan penanganan kesalahan dan pencatatan yang komprehensif

Kegagalan API eksternal

Penilaian yang tidak konsisten

Menerapkan logika coba lagi dan strategi mundur

Kinerja pelatihan yang buruk:

Gejala: Imbalan tidak membaik atau mendatar pada nilai rendah

Resolusi:

  • Verifikasi kebenaran fungsi hadiah: Uji dengan contoh yang diketahui good/bad

  • Periksa kinerja dasar: Evaluasi model dasar; jika akurasi mendekati nol, lakukan SFT terlebih dahulu

  • Tingkatkan keragaman data: Tambahkan contoh yang lebih bervariasi yang mencakup skenario berbeda

  • Sesuaikan hiperparameter: Coba tingkat pembelajaran atau ukuran batch yang berbeda

  • Tinjau kualitas sinyal hadiah: Pastikan hadiah membedakan antara respons yang baik dan buruk

Overfitting:

Gejala: Hadiah pelatihan meningkat sementara imbalan validasi menurun

Resolusi:

  • Kurangi langkah pelatihan: Hentikan pelatihan lebih awal

  • Tingkatkan ukuran kumpulan data: Tambahkan lebih banyak contoh pelatihan

  • Tambahkan regularisasi: Sesuaikan atau weight_decay entropy_coeff

  • Meningkatkan keragaman data: Pastikan set pelatihan mewakili distribusi penuh