本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
監控 RFT 訓練
在訓練期間監控關鍵指標,以確保有效學習並及早識別潛在問題。
要追蹤的關鍵指標
在訓練期間使用 MlFlow 監控下列指標:
獎勵指標:
-
平均獎勵分數:模型回應的整體品質 (應隨時間增加)
-
獎勵分配:獲得高、中和低獎勵的回應百分比
-
訓練與驗證獎勵:比較以偵測過度擬合
訓練指標:
-
政策更新:成功權重更新的數量
-
推展完成率:成功評估的範例百分比
關注模式:
-
獎勵穩定 (表示學習不佳)
-
驗證獎勵在訓練獎勵增加時下降 (過度擬合)
-
獎勵差異會隨著時間大幅增加 (不穩定)
-
獎勵函數錯誤的高百分比 (實作問題)
停止訓練的時機:
-
實現目標效能指標
-
獎勵穩定且不再改善
-
驗證效能降低 (偵測到過度擬合)
-
達到訓練預算上限
RFT 之後的評估
訓練完成後,請評估微調後的模型,以評估效能改善:
-
執行 RFT 評估任務:使用 RFT 訓練中的檢查點做為模型
-
與基準比較:在相同的測試集中評估基礎模型和微調模型
-
分析指標:檢閱任務特定的指標 (準確性、獎勵分數等)
-
執行定性審查:手動檢查範例輸出的品質
如需詳細評估程序,請參閱評估一節。
使用微調的模型
存取檢查點:
訓練完成後,找到您的檢查點:
-
在 S3
output_path中導覽至您的 -
下載並擷取
output.tar.gz -
開啟
manifest.json -
複製
checkpoint_s3_bucket值
部署以進行推論:
使用檢查點 S3 路徑進行推論或進一步訓練:
run: model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"
如需部署和推論說明,請參閱推論一節。
限制和最佳實務
目前的限制:
Beta 限制:
-
需要為 RFT 建立新的 RIG 群組。此限制將由 GA 解決。
-
執行個體類型需求:僅支援 P5 執行個體 (最低 8x P5.48xlarge)。即將推出:支援較小的執行個體類型 (ETA:2025 年 1 月中)。
功能限制:
-
15 分鐘 Lambda 逾時:獎勵函數必須在 15 分鐘內完成
-
僅限單轉:不支援多轉對話
-
驗證資料集:訓練期間不支援。使用個別的評估任務來評估訓練進度。
訓練考量事項:
-
低獎勵案例:當少於 5% 的範例獲得正面獎勵時可能會遇到困難 - 首先考慮 SFT
-
資料需求:需要足夠的多樣性才能有效地學習
-
運算成本:比監督式微調更昂貴
Nova Forge 會移除其中一些限制:
-
支援多轉對話
-
允許超過 15 分鐘逾時的獎勵函數
-
提供進階演算法和調校選項
-
專為複雜的企業使用案例而設計,專門調校以建置前沿模型
最佳實務:
從小開始並擴展:
-
從最少的資料集 (100-200 個範例) 和很少的訓練 epoch 開始
-
在向上擴展之前驗證您的方法
-
根據結果逐漸增加資料集大小和訓練步驟
先使用 SFT 的基準:
-
如果獎勵分數持續較低 (例如,一律為 0),請在 RFT 之前執行 SFT
-
RFT 需要合理的基準效能才能有效改善
設計有效率的獎勵函數:
-
以秒為單位執行,而非以分鐘為單位
-
將外部 API 呼叫降至最低
-
使用有效率的演算法和資料結構
-
實作適當的錯誤處理
-
訓練前徹底測試
-
利用 Lambda 的平行擴展功能
主動監控訓練:
-
追蹤一段時間內的平均獎勵分數
-
觀看跨範例的獎勵分佈
-
比較訓練與驗證獎勵
-
尋找相關的模式 (平穩、過度擬合、不穩定)
根據結果反覆運算:
-
如果反覆運算後獎勵未改善,請調整獎勵函數設計
-
增加資料集多樣性,以提供更清晰的學習訊號
-
如果獎勵保持接近零,請考慮切換至 SFT
-
使用不同的超參數進行實驗 (學習率、批次大小)
最佳化資料品質:
-
確保多樣化的代表性範例
-
包含邊緣案例和困難的範例
-
驗證獎勵函數是否正確為所有範例類型評分
-
移除或修正混淆獎勵函數的範例
疑難排解
獎勵函數錯誤:
症狀:訓練期間獎勵函數呼叫的高錯誤率
問題 |
徵狀 |
Resolution |
|---|---|---|
Lambda 逾時 |
15 分鐘後頻繁逾時 |
最佳化函數效能;考慮使用 Nova Forge 進行複雜的評估 |
並行不足 |
Lambda 限流錯誤 |
增加 lambda_concurrency_limit 或請求增加配額 |
無效的傳回格式 |
訓練失敗,格式錯誤 |
確認傳回結構符合所需的界面格式 |
未處理的例外狀況 |
間歇性錯誤 |
新增全面的錯誤處理和記錄 |
外部 API 失敗 |
不一致的評分 |
實作重試邏輯和備用策略 |
訓練效能不佳:
症狀:獎勵未改善或在低值時保持穩定
解決方法:
-
驗證獎勵函數正確性:使用已知良好/不良的範例進行測試
-
檢查基準效能:評估基礎模型;如果準確度接近零,請先執行 SFT
-
增加資料多樣性:新增涵蓋不同案例的更多不同範例
-
調整超參數:嘗試不同的學習率或批次大小
-
檢閱獎勵訊號品質:確保獎勵區分好回應和壞回應
過度擬合:
症狀:訓練獎勵增加,而驗證獎勵減少
解決方法:
-
減少訓練步驟:提早停止訓練
-
增加資料集大小:新增更多訓練範例
-
新增正規化:調整
weight_decay或entropy_coeff -
增加資料多樣性:確保訓練集代表完整分佈