View a markdown version of this page

監控 RFT 訓練 - Amazon Nova

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

監控 RFT 訓練

在訓練期間監控關鍵指標,以確保有效學習並及早識別潛在問題。

要追蹤的關鍵指標

在訓練期間使用 MlFlow 監控下列指標:

獎勵指標:

  • 平均獎勵分數:模型回應的整體品質 (應隨時間增加)

  • 獎勵分配:獲得高、中和低獎勵的回應百分比

  • 訓練與驗證獎勵:比較以偵測過度擬合

訓練指標:

  • 政策更新:成功權重更新的數量

  • 推展完成率:成功評估的範例百分比

關注模式:

  • 獎勵穩定 (表示學習不佳)

  • 驗證獎勵在訓練獎勵增加時下降 (過度擬合)

  • 獎勵差異會隨著時間大幅增加 (不穩定)

  • 獎勵函數錯誤的高百分比 (實作問題)

停止訓練的時機:

  • 實現目標效能指標

  • 獎勵穩定且不再改善

  • 驗證效能降低 (偵測到過度擬合)

  • 達到訓練預算上限

RFT 之後的評估

訓練完成後,請評估微調後的模型,以評估效能改善:

  • 執行 RFT 評估任務:使用 RFT 訓練中的檢查點做為模型

  • 與基準比較:在相同的測試集中評估基礎模型和微調模型

  • 分析指標:檢閱任務特定的指標 (準確性、獎勵分數等)

  • 執行定性審查:手動檢查範例輸出的品質

如需詳細評估程序,請參閱評估一節。

使用微調的模型

存取檢查點:

訓練完成後,找到您的檢查點:

  1. 在 S3 output_path中導覽至您的

  2. 下載並擷取 output.tar.gz

  3. 開啟 manifest.json

  4. 複製 checkpoint_s3_bucket

部署以進行推論:

使用檢查點 S3 路徑進行推論或進一步訓練:

run: model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"

如需部署和推論說明,請參閱推論一節。

限制和最佳實務

目前的限制:

Beta 限制:

  • 需要為 RFT 建立新的 RIG 群組。此限制將由 GA 解決。

  • 執行個體類型需求:僅支援 P5 執行個體 (最低 8x P5.48xlarge)。即將推出:支援較小的執行個體類型 (ETA:2025 年 1 月中)。

功能限制:

  • 15 分鐘 Lambda 逾時:獎勵函數必須在 15 分鐘內完成

  • 僅限單轉:不支援多轉對話

  • 驗證資料集:訓練期間不支援。使用個別的評估任務來評估訓練進度。

訓練考量事項:

  • 低獎勵案例:當少於 5% 的範例獲得正面獎勵時可能會遇到困難 - 首先考慮 SFT

  • 資料需求:需要足夠的多樣性才能有效地學習

  • 運算成本:比監督式微調更昂貴

Nova Forge 會移除其中一些限制:

  • 支援多轉對話

  • 允許超過 15 分鐘逾時的獎勵函數

  • 提供進階演算法和調校選項

  • 專為複雜的企業使用案例而設計,專門調校以建置前沿模型

最佳實務:

從小開始並擴展:

  • 從最少的資料集 (100-200 個範例) 和很少的訓練 epoch 開始

  • 在向上擴展之前驗證您的方法

  • 根據結果逐漸增加資料集大小和訓練步驟

先使用 SFT 的基準:

  • 如果獎勵分數持續較低 (例如,一律為 0),請在 RFT 之前執行 SFT

  • RFT 需要合理的基準效能才能有效改善

設計有效率的獎勵函數:

  • 以秒為單位執行,而非以分鐘為單位

  • 將外部 API 呼叫降至最低

  • 使用有效率的演算法和資料結構

  • 實作適當的錯誤處理

  • 訓練前徹底測試

  • 利用 Lambda 的平行擴展功能

主動監控訓練:

  • 追蹤一段時間內的平均獎勵分數

  • 觀看跨範例的獎勵分佈

  • 比較訓練與驗證獎勵

  • 尋找相關的模式 (平穩、過度擬合、不穩定)

根據結果反覆運算:

  • 如果反覆運算後獎勵未改善,請調整獎勵函數設計

  • 增加資料集多樣性,以提供更清晰的學習訊號

  • 如果獎勵保持接近零,請考慮切換至 SFT

  • 使用不同的超參數進行實驗 (學習率、批次大小)

最佳化資料品質:

  • 確保多樣化的代表性範例

  • 包含邊緣案例和困難的範例

  • 驗證獎勵函數是否正確為所有範例類型評分

  • 移除或修正混淆獎勵函數的範例

疑難排解

獎勵函數錯誤:

症狀:訓練期間獎勵函數呼叫的高錯誤率

問題

徵狀

Resolution

Lambda 逾時

15 分鐘後頻繁逾時

最佳化函數效能;考慮使用 Nova Forge 進行複雜的評估

並行不足

Lambda 限流錯誤

增加 lambda_concurrency_limit 或請求增加配額

無效的傳回格式

訓練失敗,格式錯誤

確認傳回結構符合所需的界面格式

未處理的例外狀況

間歇性錯誤

新增全面的錯誤處理和記錄

外部 API 失敗

不一致的評分

實作重試邏輯和備用策略

訓練效能不佳:

症狀:獎勵未改善或在低值時保持穩定

解決方法:

  • 驗證獎勵函數正確性:使用已知良好/不良的範例進行測試

  • 檢查基準效能:評估基礎模型;如果準確度接近零,請先執行 SFT

  • 增加資料多樣性:新增涵蓋不同案例的更多不同範例

  • 調整超參數:嘗試不同的學習率或批次大小

  • 檢閱獎勵訊號品質:確保獎勵區分好回應和壞回應

過度擬合:

症狀:訓練獎勵增加,而驗證獎勵減少

解決方法:

  • 減少訓練步驟:提早停止訓練

  • 增加資料集大小:新增更多訓練範例

  • 新增正規化:調整 weight_decayentropy_coeff

  • 增加資料多樣性:確保訓練集代表完整分佈