本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。 # 評估您的 RFT 模型強化微調任務成功完成後，您可以使用多個評估方法來評估自訂模型的效能。Amazon Bedrock 提供內建的評估工具，可協助您比較 RFT 模型與基礎模型，並驗證改善項目。 **Topics** + [評估方法](#rft-evaluation-methods) + [設定要評估的推論](#rft-setup-inference-evaluation) + [評估最佳實務](#rft-evaluation-best-practices) ## 評估方法 Amazon Bedrock 提供多種方法來評估您的 RFT 模型效能。 ### 驗證指標如果您上傳驗證資料集，您會在訓練指標中看到兩個額外的圖形。 + **驗證獎勵** - 顯示模型在訓練範例以外的一般程度。分數低於訓練獎勵是正常且預期的。 + **驗證片段長度** - 未看到驗證資料的平均回應長度。顯示相較於訓練範例，模型回應新輸入的效率。 ### 在遊樂場測試使用遊樂場測試功能進行快速、臨機操作的評估。若要使用遊樂場測試功能，需要設定推論。如需詳細資訊，請參閱[設定要評估的推論](#rft-setup-inference-evaluation)。此互動式工具可讓您： + 使用 RFT 模型直接測試提示 + 比較自訂模型和基礎模型之間的side-by-side + 即時評估回應品質改善 + 使用不同的提示進行實驗，以評估模型功能 ### Bedrock 模型評估使用 Amazon Bedrock 的模型評估，使用您自己的資料集評估 RFT 模型。這可提供具有標準化指標和基準的完整效能分析。以下是 Amazon Bedrock 模型評估優點的一些範例。 + 使用自訂測試資料集進行系統性評估 + 量化效能比較 + 一致評估的標準化指標 + 與現有 Amazon Bedrock 評估工作流程整合 ## 設定要評估的推論在評估 RFT 模型之前，請使用下列其中一個選項設定推論： ### 隨需推論建立自訂模型隨需部署，以進行彈性pay-per-use評估。此選項包含以字符為基礎的定價，根據推論期間處理的字符數量收費。 ## 評估最佳實務 + **有系統地比較** - 一律使用相同的測試提示和評估條件，對照基礎模型評估 RFT 模型。 + **使用多樣化的測試案例** - 包含代表實際使用案例的各種提示類型和案例。 + **驗證獎勵一致性** - 確保您的模型改進符合訓練期間使用的獎勵函數。 + **測試邊緣案例** - 評估具有挑戰性或不尋常輸入的模型行為，以評估穩健性。 + **監控回應一致性** - 檢查您的模型是否在具有類似提示的多個執行中提供一致的品質。