監控 RFT 訓練

在訓練期間監控關鍵指標，以確保有效學習並及早識別潛在問題。

主題

要追蹤的關鍵指標
RFT 之後的評估
使用微調的模型
限制和最佳實務
疑難排解

要追蹤的關鍵指標

在訓練期間使用 MlFlow 監控下列指標：

獎勵指標：

平均獎勵分數：模型回應的整體品質（應隨時間增加）
獎勵分配：獲得高、中和低獎勵的回應百分比
訓練與驗證獎勵：比較以偵測過度擬合

訓練指標：

政策更新：成功權重更新的數量
推展完成率：成功評估的範例百分比

關注模式：

獎勵穩定（表示學習不佳）
驗證獎勵在訓練獎勵增加時下降（過度擬合）
獎勵差異會隨著時間大幅增加（不穩定）
獎勵函數錯誤的高百分比（實作問題）

停止訓練的時機：

實現目標效能指標
獎勵穩定且不再改善
驗證效能降低（偵測到過度擬合）
達到訓練預算上限

RFT 之後的評估

訓練完成後，請評估微調後的模型，以評估效能改善：

執行 RFT 評估任務：使用 RFT 訓練中的檢查點做為模型
與基準比較：在相同的測試集中評估基礎模型和微調模型
分析指標：檢閱任務特定的指標（準確性、獎勵分數等）
執行定性審查：手動檢查範例輸出的品質

如需詳細評估程序，請參閱評估一節。

使用微調的模型

存取檢查點：

訓練完成後，找到您的檢查點：

在 S3 output_path中導覽至您的
下載並擷取 output.tar.gz
開啟 manifest.json
複製 checkpoint_s3_bucket值

部署以進行推論：

使用檢查點 S3 路徑進行推論或進一步訓練：


run:
    model_type: amazon.nova-2-lite-v1:0:256k
    model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"

如需部署和推論說明，請參閱推論一節。

限制和最佳實務

目前的限制：

Beta 限制：

需要為 RFT 建立新的 RIG 群組。此限制將由 GA 解決。
執行個體類型需求：僅支援 P5 執行個體（最低 8x P5.48xlarge)。即將推出：支援較小的執行個體類型 (ETA：2025 年 1 月中）。

功能限制：

15 分鐘 Lambda 逾時：獎勵函數必須在 15 分鐘內完成
僅限單轉：不支援多轉對話
驗證資料集：訓練期間不支援。使用個別的評估任務來評估訓練進度。

訓練考量事項：

低獎勵案例：當少於 5% 的範例獲得正面獎勵時可能會遇到困難 - 首先考慮 SFT
資料需求：需要足夠的多樣性才能有效地學習
運算成本：比監督式微調更昂貴

Nova Forge 會移除其中一些限制：

支援多轉對話
允許超過 15 分鐘逾時的獎勵函數
提供進階演算法和調校選項
專為複雜的企業使用案例而設計，專門調校以建置前沿模型

最佳實務：

從小開始並擴展：

從最少的資料集 (100-200 個範例）和很少的訓練 epoch 開始
在向上擴展之前驗證您的方法
根據結果逐漸增加資料集大小和訓練步驟

先使用 SFT 的基準：

如果獎勵分數持續較低（例如，一律為 0)，請在 RFT 之前執行 SFT
RFT 需要合理的基準效能才能有效改善

設計有效率的獎勵函數：

以秒為單位執行，而非以分鐘為單位
將外部 API 呼叫降至最低
使用有效率的演算法和資料結構
實作適當的錯誤處理
訓練前徹底測試
利用 Lambda 的平行擴展功能

主動監控訓練：

追蹤一段時間內的平均獎勵分數
觀看跨範例的獎勵分佈
比較訓練與驗證獎勵
尋找相關的模式（平穩、過度擬合、不穩定）

根據結果反覆運算：

如果反覆運算後獎勵未改善，請調整獎勵函數設計
增加資料集多樣性，以提供更清晰的學習訊號
如果獎勵保持接近零，請考慮切換至 SFT
使用不同的超參數進行實驗（學習率、批次大小）

最佳化資料品質：

確保多樣化的代表性範例
包含邊緣案例和困難的範例
驗證獎勵函數是否正確為所有範例類型評分
移除或修正混淆獎勵函數的範例

疑難排解

獎勵函數錯誤：

症狀：訓練期間獎勵函數呼叫的高錯誤率

問題	徵狀	Resolution
Lambda 逾時	15 分鐘後頻繁逾時	最佳化函數效能；考慮使用 Nova Forge 進行複雜的評估
並行不足	Lambda 限流錯誤	增加 lambda_concurrency_limit 或請求增加配額
無效的傳回格式	訓練失敗，格式錯誤	確認傳回結構符合所需的界面格式
未處理的例外狀況	間歇性錯誤	新增全面的錯誤處理和記錄
外部 API 失敗	不一致的評分	實作重試邏輯和備用策略

訓練效能不佳：

症狀：獎勵未改善或在低值時保持穩定

解決方法：

驗證獎勵函數正確性：使用已知良好/不良的範例進行測試
檢查基準效能：評估基礎模型；如果準確度接近零，請先執行 SFT
增加資料多樣性：新增涵蓋不同案例的更多不同範例
調整超參數：嘗試不同的學習率或批次大小
檢閱獎勵訊號品質：確保獎勵區分好回應和壞回應

過度擬合：

症狀：訓練獎勵增加，而驗證獎勵減少

解決方法：

減少訓練步驟：提早停止訓練
增加資料集大小：新增更多訓練範例
新增正規化：調整 weight_decay或 entropy_coeff
增加資料多樣性：確保訓練集代表完整分佈

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

Nova 2.0 上的 RFT

評估