

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 設定開放權重模型的獎勵函數
<a name="reward-functions-open-weight"></a>

獎勵函數會評估回應品質，並為模型訓練提供意見回饋訊號。您可以使用自訂 Lambda 函數設定獎勵函數。選擇符合您任務需求的方法。

## 用於獎勵評估的自訂 Lambda 函數
<a name="rft-custom-lambda-functions"></a>

您可以使用自訂 Lambda 函數設定獎勵函數。在 Lambda 函數中，您可以靈活地實作評估邏輯：
+ **目標任務** – 針對程式碼產生或數學推理等目標任務，請使用可驗證的規則型分級器，檢查已知標準或測試案例的正確性。
+ **主觀任務** – 對於如下指示或聊天機器人互動等主觀任務，請呼叫 Amazon Bedrock 基礎模型做為 Lambda 函數中的判斷，以根據您的條件評估回應品質。

您的 Lambda 函數可以實作複雜的邏輯、整合外部 APIs、執行多步驟計算，或根據您的任務需求結合多個評估條件。

**注意**  
使用自訂 Lambda 函數時：  
將複雜評估的 Lambda 逾時從預設 3 秒增加到最長 15 分鐘。
Lambda 執行角色需要許可，才能叫用 Lambda 函數，如中所述[獎勵函數的 Lambda 許可](rft-open-weight-access-security.md#openai-fine-tuning-lambda-permissions)。

## Lambda 函數實作詳細資訊
<a name="rft-lambda-implementation-open-weight"></a>

實作自訂 Lambda 獎勵函數時，您的函數必須接受並傳回下列格式的資料。

------
#### [ Input structure ]

```
[{
  "id": "123",
  "messages": [
    {
      "role": "user",
      "content": "Do you have a dedicated security team?"
    },
    {
      "role": "assistant",
      "content": "As an AI developed by Amazon, I don not have a dedicated security team..."
    }
  ],
  "metadata": {
    "reference_answer": {
      "compliant": "No",
      "explanation": "As an AI developed by Company, I do not have a traditional security team..."
    },
    "my_key": "sample-001"
  }
}]
```

------
#### [ Output structure ]

```
[{
  "id": "123",
  "aggregate_reward_score": 0.85,
  "metrics_list": [
    {
      "name": "accuracy",
      "value": 0.9,
      "type": "Reward"
    },
    {
      "name": "policy_compliance",
      "value": 0.8,
      "type": "Metric"
    }
  ]
}]
```

------

**設計指導方針**
+ **排名回應** – 給予最佳答案明顯較高的分數
+ **使用一致性檢查** – 評估任務完成、格式遵循、安全性和合理長度
+ **維持穩定的擴展** – 保持標準化和不可利用的分數