本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 Amazon Bedrock 中使用強化微調來自訂模型
強化微調是 Amazon Bedrock 中的模型自訂技術,透過教導模型,透過稱為獎勵的回饋訊號構成「良好」回應,來改善基礎模型效能。與依賴標籤資料集的傳統微調方法不同,強化微調使用回饋驅動的方法,反覆最佳化模型以最大化這些獎勵。
強化微調應用程式和案例
當您可以定義明確且可衡量的成功標準來評估回應品質時,請使用強化微調。強化微調在可以客觀測量輸出品質的網域中表現優異,特別是當存在多個有效回應或難以預先定義最佳回應時。它非常適合:
數學問題解決和程式碼產生 (使用規則型分級器進行目標評估)
科學推理和結構化資料分析
主觀任務,例如以下指示、內容管制和創意撰寫 (使用 AI 型判斷)
需要step-by-step推理或多迴轉問題解決的任務
具有多個有效解決方案的案例,其中有些解決方案明顯優於其他解決方案
應用程式平衡多個目標 (準確性、效率、風格)
需要反覆改進、個人化或遵守複雜業務規則的應用程式
可透過執行結果或效能指標以程式設計方式驗證成功的案例
收集高品質標籤範例昂貴或不切實際的案例
強化微調的優點
-
改善模型效能 – 與基礎模型相比,強化微調可將模型準確度平均提高 66%。這可透過微調較小、更快速且更有效率的模型變體,來最佳化價格和效能。
-
易於使用 – Amazon Bedrock 可自動化強化微調的複雜性,讓建置 AI 應用程式的開發人員能夠存取。您可以使用上傳的資料集或現有的 API 調用日誌來微調模型。您可以使用 Lambda 或 model-as-a-judge 分級器,透過內建範本來協助快速設定,來定義使用自訂程式碼對模型輸出進行分級的獎勵函數。
-
安全與合規 – 在自訂程序期間,您的專屬資料永遠不會離開 AWS安全、受管的環境。
支援強化微調的模型
下表顯示您可以使用強化微調來自訂的基礎模型:
| 供應商 | 模型 | 模型 ID | 區域名稱 | 區域 |
|---|---|---|---|---|
| Amazon | Nova 2 Lite | amazon.nova-2-lite-v1:0:256k |
美國東部 (維吉尼亞北部) |
us-east-1 |
| OpenAI | gpt-oss-20B | openai.gpt-oss-20b | 美國西部 (奧勒岡) | us-west-2 |
| Qwen | Qwen3 32B | qwen.qwen3-32b | 美國西部 (奧勒岡) | us-west-2 |
強化微調的運作方式
Amazon Bedrock 完全自動化強化微調工作流程。模型會從訓練資料集接收提示,並為每個提示產生數個回應。然後,獎勵函數會對這些回應進行評分。Amazon Bedrock 使用具有分數的提示回應對,透過使用群組相對政策最佳化 (GRPO) 的政策型學習來訓練模型。訓練迴圈會持續進行,直到訓練資料結束,或您在所選的檢查點停止任務,針對對您重要的指標產生最佳化的模型。
強化微調最佳實務
從小開始 – 從 100-200 個範例開始,驗證獎勵函數正確性,並根據結果逐步擴展
預先微調評估 – 在強化微調之前測試基準模型效能。如果獎勵持續為 0%,請先使用監督式微調來建立基本功能。如果獎勵大於 95%,則可能不需要加強微調
監控訓練 – 追蹤平均獎勵分數和分佈。注意過度擬合 (訓練獎勵增加,而驗證獎勵減少)。尋找相關的模式,例如低於 0.15 的獎勵穩定、隨時間增加獎勵差異,以及驗證效能下降
最佳化獎勵函數 – 在幾秒鐘內執行 (而非幾分鐘)、將外部 API 呼叫降至最低、使用高效演算法、實作適當的錯誤處理,並利用 Lambda 的平行擴展
反覆運算策略 – 如果獎勵未改善,請調整獎勵函數設計、增加資料集多樣性、新增更多代表性的範例,並確認獎勵訊號清晰一致