

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 为 Amazon Nova 机型设置奖励功能
<a name="reward-functions"></a>

奖励函数评估响应质量并为模型训练提供反馈信号。您可以使用自定义 Lambda 函数或 Amazon Bedrock 托管的基础模型作为评委来设置奖励函数。引导式模板可用于简化常见任务的奖励功能创建，例如指导跟踪和格式验证。选择符合您的任务要求的方法。

## 通过可验证奖励 (RLVR) 进行强化学习
<a name="rft-rlvr"></a>

RLVR 使用可验证的基于规则的评分器或模板来优化目标任务（例如代码生成或数学推理）的模型。 ready-to-use

RLVR（自定义代码）有两个选项：

### 选项 1：使用控制台提供的模板
<a name="w2aac15c25c17c17b5b7b1"></a>

Amazon Bedrock 控制台为平地机 Lambda 函数提供了示例模板：
+ 具有真实性验证的数学推理
+ 格式验证和约束检查
+ 带有样板代码的通用评分器 Lambda 模板

按照 [Amazon Bedrock](https://console.aws.amazon.com/bedrock) 控制台中**创建 RFT 任务**页面上提供的模板中的说明进行操作。

### 选项 2：自带自己的 Lambda 函数
<a name="w2aac15c25c17c17b5b7b3"></a>

使用您自己的 Lambda ARN 创建自定义奖励函数，用于复杂逻辑、外部计算 APIs、多步骤计算或组合多个评估标准。

**注意**  
如果您自带了 Lambda 函数，请记住以下几点：  
将复杂评估的 Lambda 超时时间从默认 3 秒增加到最长 15 分钟。
Lambda 执行角色需要权限才能调用模型，如中所述。[Amazon Nova 机型的访问和安全](rft-access-security.md)

## 通过人工智能反馈进行强化学习 (RLAIF)
<a name="rft-rlaif"></a>

RLAIF使用带有模板的基于人工智能的评委来优化主观任务的模型，例如教学跟踪或聊天机器人互动。 ready-to-use

**对于 RLAIF（模特作为评委）：**
+ 选择 Amazon Bedrock 托管的基本模型作为评委
+ 配置评估指令
+ 定义评估标准和评分指南

Amazon Bedrock 控制台中可用的 LLM-as-Judge提示模板：
+ 指导如下（裁判模型训练）
+ 摘要（多回合对话框）
+ 推理评估（专门领域的 CoT）
+ RAG 忠诚度（基于情境的问答）

**注意**  
在训练期间，控制台的 “**模型即判断**” 选项会自动将您的配置转换为 Lambda 函数。

## Lambda 函数实现细节
<a name="rft-lambda-implementation"></a>

实现自定义 Lambda 奖励函数时，您的函数必须接受并返回以下格式的数据。

------
#### [ Input structure ]

```
[{
  "id": "123",
  "messages": [
    {
      "role": "user",
      "content": "Do you have a dedicated security team?"
    },
    {
      "role": "assistant",
      "content": "As an AI developed by Amazon, I don not have a dedicated security team..."
    }
  ],
  "metadata": {
    "reference_answer": {
      "compliant": "No",
      "explanation": "As an AI developed by Company, I do not have a traditional security team..."
    },
    "my_key": "sample-001"
  }
}]
```

------
#### [ Output structure ]

```
[{
  "id": "123",
  "aggregate_reward_score": 0.85,
  "metrics_list": [
    {
      "name": "accuracy",
      "value": 0.9,
      "type": "Reward"
    },
    {
      "name": "policy_compliance",
      "value": 0.8,
      "type": "Metric"
    }
  ]
}]
```

------

**设计指南**
+ **对回复进行排名** — 给最佳答案一个明显更高的分数
+ **使用一致的检查** — 评估任务完成情况、格式遵守情况、安全性和合理的长度
+ **保持稳定的缩放比例** — 保持分数标准化且不可被利用