

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 評估您的 RFT 模型
<a name="rft-evaluate-model"></a>

強化微調任務成功完成後，您可以使用多個評估方法來評估自訂模型的效能。Amazon Bedrock 提供內建的評估工具，可協助您比較 RFT 模型與基礎模型，並驗證改善項目。

**Topics**
+ [評估方法](#rft-evaluation-methods)
+ [設定要評估的推論](#rft-setup-inference-evaluation)
+ [評估最佳實務](#rft-evaluation-best-practices)

## 評估方法
<a name="rft-evaluation-methods"></a>

Amazon Bedrock 提供多種方法來評估您的 RFT 模型效能。

### 驗證指標
<a name="rft-validation-metrics"></a>

如果您上傳驗證資料集，您會在訓練指標中看到兩個額外的圖形。
+ **驗證獎勵** - 顯示模型在訓練範例以外的一般程度。分數低於訓練獎勵是正常且預期的。
+ **驗證片段長度** - 未看到驗證資料的平均回應長度。顯示相較於訓練範例，模型回應新輸入的效率。

### 在遊樂場測試
<a name="rft-test-playground"></a>

使用遊樂場測試功能進行快速、臨機操作的評估。若要使用遊樂場測試功能，需要設定推論。如需詳細資訊，請參閱[設定要評估的推論](#rft-setup-inference-evaluation)。

此互動式工具可讓您：
+ 使用 RFT 模型直接測試提示
+ 比較自訂模型和基礎模型之間的side-by-side 
+ 即時評估回應品質改善
+ 使用不同的提示進行實驗，以評估模型功能

### Bedrock 模型評估
<a name="rft-model-evaluation"></a>

使用 Amazon Bedrock 的模型評估，使用您自己的資料集評估 RFT 模型。這可提供具有標準化指標和基準的完整效能分析。以下是 Amazon Bedrock 模型評估優點的一些範例。
+ 使用自訂測試資料集進行系統性評估
+ 量化效能比較
+ 一致評估的標準化指標
+ 與現有 Amazon Bedrock 評估工作流程整合

## 設定要評估的推論
<a name="rft-setup-inference-evaluation"></a>

在評估 RFT 模型之前，請使用下列其中一個選項設定推論：

### 隨需推論
<a name="rft-on-demand-inference"></a>

建立自訂模型隨需部署，以進行彈性pay-per-use評估。此選項包含以字符為基礎的定價，根據推論期間處理的字符數量收費。

## 評估最佳實務
<a name="rft-evaluation-best-practices"></a>
+ **有系統地比較** - 一律使用相同的測試提示和評估條件，對照基礎模型評估 RFT 模型。
+ **使用多樣化的測試案例** - 包含代表實際使用案例的各種提示類型和案例。
+ **驗證獎勵一致性** - 確保您的模型改進符合訓練期間使用的獎勵函數。
+ **測試邊緣案例** - 評估具有挑戰性或不尋常輸入的模型行為，以評估穩健性。
+ **監控回應一致性** - 檢查您的模型是否在具有類似提示的多個執行中提供一致的品質。