本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
設定開放權重模型的獎勵函數
獎勵函數會評估回應品質,並為模型訓練提供意見回饋訊號。您可以使用自訂 Lambda 函數設定獎勵函數。選擇符合您任務需求的方法。
用於獎勵評估的自訂 Lambda 函數
您可以使用自訂 Lambda 函數設定獎勵函數。在 Lambda 函數中,您可以靈活地實作評估邏輯:
-
目標任務 – 針對程式碼產生或數學推理等目標任務,請使用可驗證的規則型分級器,檢查已知標準或測試案例的正確性。
-
主觀任務 – 對於如下指示或聊天機器人互動等主觀任務,請呼叫 Amazon Bedrock 基礎模型做為 Lambda 函數中的判斷,以根據您的條件評估回應品質。
您的 Lambda 函數可以實作複雜的邏輯、整合外部 APIs、執行多步驟計算,或根據您的任務需求結合多個評估條件。
注意
使用自訂 Lambda 函數時:
-
將複雜評估的 Lambda 逾時從預設 3 秒增加到最長 15 分鐘。
-
Lambda 執行角色需要許可,才能叫用 Lambda 函數,如中所述獎勵函數的 Lambda 許可。
Lambda 函數實作詳細資訊
實作自訂 Lambda 獎勵函數時,您的函數必須接受並傳回下列格式的資料。
設計指導方針
排名回應 – 給予最佳答案明顯較高的分數
使用一致性檢查 – 評估任務完成、格式遵循、安全性和合理長度
維持穩定的擴展 – 保持標準化和不可利用的分數