

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 監控 RFT 訓練
<a name="nova-hp-rft-monitoring"></a>

在訓練期間監控關鍵指標，以確保有效學習並及早識別潛在問題。

**Topics**
+ [要追蹤的關鍵指標](#nova-hp-rft-monitoring-metrics)
+ [RFT 之後的評估](#nova-hp-rft-monitoring-evaluation)
+ [使用微調的模型](#nova-hp-rft-monitoring-checkpoints)
+ [限制和最佳實務](#nova-hp-rft-monitoring-limitations)
+ [疑難排解](#nova-hp-rft-monitoring-troubleshooting)

## 要追蹤的關鍵指標
<a name="nova-hp-rft-monitoring-metrics"></a>

在訓練期間使用 MlFlow 監控下列指標：

**獎勵指標：**
+ **平均獎勵分數**：模型回應的整體品質 （應隨時間增加）
+ **獎勵分配**：獲得高、中和低獎勵的回應百分比
+ **訓練與驗證獎勵**：比較以偵測過度擬合

**訓練指標：**
+ **政策更新**：成功權重更新的數量
+ **推展完成率**：成功評估的範例百分比

**關注模式：**
+ 獎勵穩定 （表示學習不佳）
+ 驗證獎勵在訓練獎勵增加時下降 （過度擬合）
+ 獎勵差異會隨著時間大幅增加 （不穩定）
+ 獎勵函數錯誤的高百分比 （實作問題）

**停止訓練的時機：**
+ 實現目標效能指標
+ 獎勵穩定且不再改善
+ 驗證效能降低 （偵測到過度擬合）
+ 達到訓練預算上限

## RFT 之後的評估
<a name="nova-hp-rft-monitoring-evaluation"></a>

訓練完成後，請評估微調後的模型，以評估效能改善：
+ **執行 RFT 評估任務**：使用 RFT 訓練中的檢查點做為模型
+ **與基準比較**：在相同的測試集中評估基礎模型和微調模型
+ **分析指標**：檢閱任務特定的指標 （準確性、獎勵分數等）
+ **執行定性審查**：手動檢查範例輸出的品質

如需詳細評估程序，請參閱評估一節。

## 使用微調的模型
<a name="nova-hp-rft-monitoring-checkpoints"></a>

**存取檢查點：**

訓練完成後，找到您的檢查點：

1. 在 S3 `output_path`中導覽至您的

1. 下載並擷取 `output.tar.gz`

1. 開啟 `manifest.json`

1. 複製 `checkpoint_s3_bucket`值

**部署以進行推論：**

使用檢查點 S3 路徑進行推論或進一步訓練：

```
run:
    model_type: amazon.nova-2-lite-v1:0:256k
    model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"
```

如需部署和推論說明，請參閱推論一節。

## 限制和最佳實務
<a name="nova-hp-rft-monitoring-limitations"></a>

**目前的限制：**

**Beta 限制：**
+ 需要為 RFT 建立新的 RIG 群組。此限制將由 GA 解決。
+ 執行個體類型需求：僅支援 P5 執行個體 （最低 8x P5.48xlarge)。即將推出：支援較小的執行個體類型 (ETA：2025 年 1 月中）。

**功能限制：**
+ 15 分鐘 Lambda 逾時：獎勵函數必須在 15 分鐘內完成
+ 僅限單轉：不支援多轉對話
+ 驗證資料集：訓練期間不支援。使用個別的評估任務來評估訓練進度。

**訓練考量事項：**
+ 低獎勵案例：當少於 5% 的範例獲得正面獎勵時可能會遇到困難 - 首先考慮 SFT
+ 資料需求：需要足夠的多樣性才能有效地學習
+ 運算成本：比監督式微調更昂貴

**Nova Forge 會移除其中一些限制：**
+ 支援多轉對話
+ 允許超過 15 分鐘逾時的獎勵函數
+ 提供進階演算法和調校選項
+ 專為複雜的企業使用案例而設計，專門調校以建置前沿模型

**最佳實務：**

**從小開始並擴展：**
+ 從最少的資料集 (100-200 個範例） 和很少的訓練 epoch 開始
+ 在向上擴展之前驗證您的方法
+ 根據結果逐漸增加資料集大小和訓練步驟

**先使用 SFT 的基準：**
+ 如果獎勵分數持續較低 （例如，一律為 0)，請在 RFT 之前執行 SFT
+ RFT 需要合理的基準效能才能有效改善

**設計有效率的獎勵函數：**
+ 以秒為單位執行，而非以分鐘為單位
+ 將外部 API 呼叫降至最低
+ 使用有效率的演算法和資料結構
+ 實作適當的錯誤處理
+ 訓練前徹底測試
+ 利用 Lambda 的平行擴展功能

**主動監控訓練：**
+ 追蹤一段時間內的平均獎勵分數
+ 觀看跨範例的獎勵分佈
+ 比較訓練與驗證獎勵
+ 尋找相關的模式 （平穩、過度擬合、不穩定）

**根據結果反覆運算：**
+ 如果反覆運算後獎勵未改善，請調整獎勵函數設計
+ 增加資料集多樣性，以提供更清晰的學習訊號
+ 如果獎勵保持接近零，請考慮切換至 SFT
+ 使用不同的超參數進行實驗 （學習率、批次大小）

**最佳化資料品質：**
+ 確保多樣化的代表性範例
+ 包含邊緣案例和困難的範例
+ 驗證獎勵函數是否正確為所有範例類型評分
+ 移除或修正混淆獎勵函數的範例

## 疑難排解
<a name="nova-hp-rft-monitoring-troubleshooting"></a>

**獎勵函數錯誤：**

症狀：訓練期間獎勵函數呼叫的高錯誤率


| 問題 | 徵狀 | Resolution | 
| --- |--- |--- |
| Lambda 逾時 | 15 分鐘後頻繁逾時 | 最佳化函數效能；考慮使用 Nova Forge 進行複雜的評估 | 
| 並行不足 | Lambda 限流錯誤 | 增加 lambda\$1concurrency\$1limit 或請求增加配額 | 
| 無效的傳回格式 | 訓練失敗，格式錯誤 | 確認傳回結構符合所需的界面格式 | 
| 未處理的例外狀況 | 間歇性錯誤 | 新增全面的錯誤處理和記錄 | 
| 外部 API 失敗 | 不一致的評分 | 實作重試邏輯和備用策略 | 

**訓練效能不佳：**

症狀：獎勵未改善或在低值時保持穩定

解決方法：
+ **驗證獎勵函數正確性**：使用已知良好/不良的範例進行測試
+ **檢查基準效能**：評估基礎模型；如果準確度接近零，請先執行 SFT
+ **增加資料多樣性**：新增涵蓋不同案例的更多不同範例
+ **調整超參數**：嘗試不同的學習率或批次大小
+ **檢閱獎勵訊號品質**：確保獎勵區分好回應和壞回應

**過度擬合：**

症狀：訓練獎勵增加，而驗證獎勵減少

解決方法：
+ **減少訓練步驟**：提早停止訓練
+ **增加資料集大小**：新增更多訓練範例
+ **新增正規化**：調整 `weight_decay`或 `entropy_coeff`
+ **增加資料多樣性**：確保訓練集代表完整分佈