

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Memantau pelatihan RFT
<a name="nova-hp-rft-monitoring"></a>

Pantau metrik utama selama pelatihan untuk memastikan pembelajaran yang efektif dan mengidentifikasi potensi masalah sejak dini.

**Topics**
+ [

## Metrik kunci untuk dilacak
](#nova-hp-rft-monitoring-metrics)
+ [

## Evaluasi setelah RFT
](#nova-hp-rft-monitoring-evaluation)
+ [

## Menggunakan model yang disetel dengan baik
](#nova-hp-rft-monitoring-checkpoints)
+ [

## Keterbatasan dan praktik terbaik
](#nova-hp-rft-monitoring-limitations)
+ [

## Pemecahan masalah
](#nova-hp-rft-monitoring-troubleshooting)

## Metrik kunci untuk dilacak
<a name="nova-hp-rft-monitoring-metrics"></a>

Pantau metrik berikut yang digunakan MlFlow selama pelatihan:

**Metrik hadiah:**
+ **Skor hadiah rata-rata**: Kualitas keseluruhan respons model (harus meningkat seiring waktu)
+ **Distribusi hadiah**: Persentase tanggapan yang menerima hadiah tinggi, sedang, dan rendah
+ **Hadiah pelatihan vs. validasi**: Bandingkan untuk mendeteksi overfitting

**Metrik pelatihan:**
+ **Pembaruan kebijakan**: Jumlah pembaruan bobot yang berhasil
+ **Tingkat penyelesaian peluncuran**: Persentase sampel yang berhasil dievaluasi

**Mengenai pola:**
+ Imbalan dataran tinggi (menunjukkan pembelajaran yang buruk)
+ Hadiah validasi turun saat hadiah pelatihan meningkat (overfitting)
+ Varians hadiah meningkat secara signifikan dari waktu ke waktu (ketidakstabilan)
+ Persentase kesalahan fungsi hadiah yang tinggi (masalah implementasi)

**Kapan harus menghentikan pelatihan:**
+ Metrik kinerja target tercapai
+ Imbalan dataran tinggi dan tidak lagi membaik
+ Kinerja validasi menurun (overfitting terdeteksi)
+ Anggaran pelatihan maksimum tercapai

## Evaluasi setelah RFT
<a name="nova-hp-rft-monitoring-evaluation"></a>

Setelah pelatihan selesai, evaluasi model yang disetel dengan baik untuk menilai peningkatan kinerja:
+ **Jalankan pekerjaan evaluasi RFT**: Gunakan pos pemeriksaan dari pelatihan RFT Anda sebagai model
+ **Bandingkan dengan baseline**: Evaluasi model dasar dan model yang disetel dengan baik pada set pengujian yang sama
+ **Analisis metrik**: Tinjau metrik khusus tugas (akurasi, skor hadiah, dll.)
+ **Melakukan tinjauan kualitatif**: Periksa secara manual keluaran sampel untuk kualitas

Untuk prosedur evaluasi terperinci, lihat bagian Evaluasi.

## Menggunakan model yang disetel dengan baik
<a name="nova-hp-rft-monitoring-checkpoints"></a>

**Mengakses pos pemeriksaan:**

Setelah pelatihan selesai, cari pos pemeriksaan Anda:

1. Arahkan ke Anda `output_path` di S3

1. Unduh dan ekstrak `output.tar.gz`

1. Terbuka `manifest.json`

1. Salin `checkpoint_s3_bucket` nilainya

**Menerapkan untuk inferensi:**

Gunakan jalur pos pemeriksaan S3 untuk inferensi atau pelatihan lebih lanjut:

```
run:
    model_type: amazon.nova-2-lite-v1:0:256k
    model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"
```

Untuk instruksi penyebaran dan inferensi, lihat bagian Inferensi.

## Keterbatasan dan praktik terbaik
<a name="nova-hp-rft-monitoring-limitations"></a>

**Keterbatasan saat ini:**

**Pembatasan beta:**
+ Perlu membuat grup RIG baru untuk RFT. Batasan ini akan diselesaikan oleh GA.
+ Persyaratan tipe instans: Hanya instans P5 yang didukung (minimal 8x p5.48xLarge). Segera Hadir: Dukungan untuk jenis instans yang lebih kecil (ETA: pertengahan Januari 2025).

**Keterbatasan fungsional:**
+ Batas waktu Lambda 15 menit: Fungsi hadiah harus selesai dalam 15 menit
+ Hanya satu putaran: Percakapan multi-putaran tidak didukung
+ Kumpulan data validasi: Tidak didukung selama pelatihan. Gunakan pekerjaan evaluasi terpisah untuk menilai kemajuan pelatihan.

**Pertimbangan pelatihan:**
+ Skenario hadiah rendah: Mungkin kesulitan ketika kurang dari 5% contoh menerima hadiah positif - pertimbangkan SFT terlebih dahulu
+ Persyaratan data: Membutuhkan keragaman yang cukup untuk belajar secara efektif
+ Biaya komputasi: Lebih mahal daripada fine-tuning yang diawasi

**Nova Forge menghapus beberapa keterbatasan ini:**
+ Mendukung percakapan multi-putaran
+ Memungkinkan fungsi hadiah melebihi batas waktu 15 menit
+ Menyediakan algoritma canggih dan opsi penyetelan
+ Dirancang untuk kasus penggunaan perusahaan yang kompleks, yang secara khusus disetel untuk membangun model perbatasan

**Praktik terbaik:**

**Mulai kecil dan skala:**
+ Mulailah dengan kumpulan data minimal (100-200 contoh) dan beberapa zaman pelatihan
+ Validasi pendekatan Anda sebelum meningkatkan
+ Secara bertahap meningkatkan ukuran dataset dan langkah-langkah pelatihan berdasarkan hasil

**Baseline dengan SFT terlebih dahulu:**
+ Jika skor hadiah secara konsisten rendah (misalnya, selalu 0), lakukan SFT sebelum RFT
+ RFT membutuhkan kinerja dasar yang wajar untuk meningkatkan secara efektif

**Desain fungsi hadiah yang efisien:**
+ Jalankan dalam hitungan detik, bukan menit
+ Minimalkan panggilan API eksternal
+ Gunakan algoritma dan struktur data yang efisien
+ Menerapkan penanganan kesalahan yang tepat
+ Uji secara menyeluruh sebelum pelatihan
+ Memanfaatkan kemampuan penskalaan paralel Lambda

**Pantau pelatihan secara aktif:**
+ Lacak skor hadiah rata-rata dari waktu ke waktu
+ Tonton distribusi hadiah di seluruh sampel
+ Bandingkan hadiah pelatihan vs. validasi
+ Cari pola yang menyangkut (dataran tinggi, overfitting, ketidakstabilan)

**Iterasi berdasarkan hasil:**
+ Jika reward tidak membaik setelah beberapa iterasi, sesuaikan desain fungsi reward
+ Tingkatkan keragaman kumpulan data untuk memberikan sinyal pembelajaran yang lebih jelas
+ Pertimbangkan untuk beralih ke SFT jika hadiah tetap mendekati nol
+ Bereksperimenlah dengan hiperparameter yang berbeda (tingkat pembelajaran, ukuran batch)

**Optimalkan kualitas data:**
+ Pastikan contoh yang beragam dan representatif
+ Sertakan kasing tepi dan sampel yang sulit
+ Verifikasi fungsi hadiah dengan benar menilai semua jenis contoh
+ Hapus atau perbaiki sampel yang membingungkan fungsi hadiah

## Pemecahan masalah
<a name="nova-hp-rft-monitoring-troubleshooting"></a>

**Kesalahan fungsi hadiah:**

Gejala: Tingkat kesalahan tinggi dalam panggilan fungsi hadiah selama pelatihan


| Isu | Gejala | Resolusi | 
| --- |--- |--- |
| Batas waktu Lambda | Batas waktu yang sering setelah 15 menit | Optimalkan kinerja fungsi; pertimbangkan Nova Forge untuk evaluasi kompleks | 
| Konkurensi tidak cukup | Kesalahan pelambatan Lambda | Tingkatkan lambda\$1concurrency\$1limit atau minta kenaikan kuota | 
| Format pengembalian tidak valid | Pelatihan gagal dengan kesalahan format | Verifikasi struktur pengembalian cocok dengan format antarmuka yang diperlukan | 
| Pengecualian yang tidak tertangani | Kesalahan intermiten | Tambahkan penanganan kesalahan dan pencatatan yang komprehensif | 
| Kegagalan API eksternal | Penilaian yang tidak konsisten | Menerapkan logika coba lagi dan strategi mundur | 

**Kinerja pelatihan yang buruk:**

Gejala: Imbalan tidak membaik atau mendatar pada nilai rendah

Resolusi:
+ **Verifikasi kebenaran fungsi hadiah**: Uji dengan contoh yang diketahui good/bad 
+ **Periksa kinerja dasar**: Evaluasi model dasar; jika akurasi mendekati nol, lakukan SFT terlebih dahulu
+ **Tingkatkan keragaman data**: Tambahkan contoh yang lebih bervariasi yang mencakup skenario berbeda
+ **Sesuaikan hiperparameter**: Coba tingkat pembelajaran atau ukuran batch yang berbeda
+ **Tinjau kualitas sinyal hadiah**: Pastikan hadiah membedakan antara respons yang baik dan buruk

**Overfitting:**

Gejala: Hadiah pelatihan meningkat sementara imbalan validasi menurun

Resolusi:
+ **Kurangi langkah pelatihan**: Hentikan pelatihan lebih awal
+ **Tingkatkan ukuran kumpulan data**: Tambahkan lebih banyak contoh pelatihan
+ **Tambahkan regularisasi**: Sesuaikan atau `weight_decay` `entropy_coeff`
+ **Meningkatkan keragaman data**: Pastikan set pelatihan mewakili distribusi penuh