強化微調應用程式和案例強化微調的優點支援強化微調的模型強化微調的運作方式強化微調最佳實務

在 Amazon Bedrock 中使用強化微調來自訂模型

強化微調是 Amazon Bedrock 中的模型自訂技術，透過透過稱為獎勵的回饋訊號，教導構成「良好」回應的模型來改善基礎模型效能。與依賴標記資料集的傳統微調方法不同，強化微調使用意見回饋驅動的方法，反覆最佳化模型以最大化這些獎勵。

強化微調應用程式和案例

當您可以定義明確且可衡量的成功條件來評估回應品質時，請使用強化微調。增強式微調在可以客觀測量輸出品質的網域中表現優異，特別是當存在多個有效回應或難以預先定義最佳回應時。它非常適合：

數學問題解決和程式碼產生（使用規則型評分器進行目標評估）
科學推理和結構化資料分析
主觀任務，例如以下指示、內容管制和創意撰寫（使用 AI 型判斷）
需要step-by-step推理或多迴轉問題解決的任務
具有多個有效解決方案的案例，其中有些解決方案明顯優於其他解決方案
應用程式平衡多個目標（準確性、效率、風格）
需要反覆改進、個人化或遵守複雜業務規則的應用程式
可透過執行結果或效能指標以程式設計方式驗證成功的案例
收集高品質標籤範例昂貴或不切實際的案例

強化微調的優點

改善模型效能 – 與基礎模型相比，強化微調可將模型準確度平均提高 66%。這可透過微調較小、更快速且更有效率的模型變體，來最佳化價格和效能。
易於使用 – Amazon Bedrock 可自動化強化微調的複雜性，讓建置 AI 應用程式的開發人員能夠存取。您可以使用上傳的資料集或現有的 API 調用日誌來微調模型。您可以使用 Lambda 或 model-as-a-judge 分級器，透過內建範本來協助快速設定，來定義使用自訂程式碼對模型輸出進行分級的獎勵函數。
安全與合規 – 在自訂程序期間，您的專屬資料永遠不會離開 AWS安全、受管的環境。

支援強化微調的模型

下表顯示您可以使用強化微調來自訂的基礎模型：

支援強化微調的模型
供應商	模型	模型 ID	區域名稱	區域
Amazon	Nova 2 Lite	amazon.nova-2-lite-v1：0：256k	美國東部 (維吉尼亞北部)	us-east-1
OpenAI	gpt-oss-20B	openai.gpt-oss-20b	美國西部 (奧勒岡)	us-west-2
Qwen	Qwen3 32B	qwen.qwen3-32b	美國西部 (奧勒岡)	us-west-2

強化微調的運作方式

Amazon Bedrock 完全自動化強化微調工作流程。模型會從訓練資料集接收提示，並為每個提示產生數個回應。然後，獎勵函數會對這些回應進行評分。Amazon Bedrock 使用具有分數的提示回應對，透過使用群組相對政策最佳化 (GRPO) 的政策型學習來訓練模型。訓練迴圈會持續進行，直到訓練資料結束，或您在選擇的檢查點停止任務，針對對您重要的指標產生最佳化的模型。

強化微調最佳實務

從小開始 – 從 100-200 個範例開始，驗證獎勵函數正確性，並根據結果逐步擴展
預先微調評估 – 在強化微調之前測試基準模型效能。如果獎勵持續為 0%，請先使用監督式微調來建立基本功能。如果獎勵大於 95%，則可能不需要加強微調
監控訓練 – 追蹤平均獎勵分數和分佈。注意過度擬合（訓練獎勵增加，而驗證獎勵減少）。尋找相關的模式，例如獎勵穩定低於 0.15、隨時間增加獎勵差異，以及驗證效能下降
最佳化獎勵函數 – 在幾秒鐘（而非幾分鐘）內執行、將外部 API 呼叫降至最低、使用高效演算法、實作適當的錯誤處理，並利用 Lambda 的平行擴展
反覆運算策略 – 如果獎勵未改善，請調整獎勵函數設計、增加資料集多樣性、新增更多具代表性的範例，並確認獎勵訊號清晰一致

主題

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

提交模型微調任務

微調 Amazon Nova 模型