# SageMaker HyperPod 上的强化微调（RFT）
<a name="nova-hp-rft"></a>

强化微调（RFT）是一种机器学习技术，它通过反馈信号（即可衡量响应质量的分数或奖励）提升模型性能，而非借助精确标准答案进行直接监督。与从输入-输出对中学习的传统监督式微调不同，RFT 使用奖励函数评测模型响应，并迭代优化模型以最大化奖励。

这种方法尤其适用于难以定义精确输出但能可靠衡量响应质量的任务。RFT 使模型能够通过尝试和反馈来学习复杂的行为与偏好，因此非常适合需要精细决策、创造性解决问题，或遵守可通过编程方式评测的特定质量标准等应用场景。

**何时使用 RFT**  
当您能够定义清晰、可衡量的成功标准，但难以提供精确的正确输出用于训练时，便可使用 RFT。该方法适用于质量具有主观性或多维度的任务，例如创意写作、代码优化或复杂推理。这类任务存在多种可行方案，但部分方案明显更优。

RFT 在以下条件下效果最佳：
+ 具备可通过程序评测模型输出的可靠奖励函数
+ 需要使模型行为与特定偏好或约束保持一致
+ 传统监督式微调因高质量标注数据采集成本高昂或不切实际而难以奏效的场景

应用需要迭代优化、个性化，或需遵循可编码为奖励信号的复杂业务规则时，可考虑采用 RFT。

**RFT 最适合哪些场景**  
在输出质量可客观衡量、但最优应答难以预先定义的领域，RFT 表现优异：
+ **数学问题求解**：存在多种求解路径，但正确性可验证
+ **代码生成和优化**：执行结果与性能指标可测试
+ **科学推理任务**：逻辑一致性与事实准确性
+ **结构化数据分析**：可通过编程方式验证输出
+ **多步推理**：需逐步逻辑推演的任务
+ **工具使用和 API 调用**：成功与否可通过执行结果来衡量
+ **复杂的工作流程**：遵守特定约束和业务规则

当您需要平衡多个相互竞争的目标（如准确性、效率和风格）时，RFT 效果尤为出色。

**何时在 RFT 训练中使用推理模式**  
Amazon Nova 2.0 支持在 RFT 训练期间使用推理模式。可用模式如下：
+ **none**：无推理（省略 reasoning\_effort 字段）
+ **low**：最小推理开销
+ **high**：最大推理能力（指定了 reasoning\_effort 时，此为默认值）

**注意**  
RFT 无中等选项。如果配置中不含 reasoning\_effort 字段，则禁用推理。

在以下场景使用高强度推理：
+ 复杂分析任务
+ 数学问题求解
+ 多步逻辑推导
+ 逐步思考能带来价值的任务

在以下场景使用无（省略 reasoning\_effort）或低强度推理：
+ 简单事实查询
+ 直接分类
+ 速度与成本优化
+ 直接问答

**重要**  
较高强度的推理模式会增加训练时间和成本、推理延迟和成本，但同时也会提升模型在复杂推理任务方面的能力。

**支持的模型**  
SageMaker HyperPod 上的 RFT 支持 Amazon Nova Lite 2.0（amazon.nova-2-lite-v1:0:256k）。

**主要步骤**  
RFT 过程包括四个关键阶段：
+ **实现评测器**：创建奖励函数，根据质量标准以编程方式对模型响应进行评分。
+ **上传提示**：准备并上传指定对话格式的训练数据，同时提供用于评测的参考数据。
+ **开始作业**：使用配置的参数启动强化微调过程。
+ **监控**：通过指标控制面板跟踪训练进度，确保模型有效学习。

每个步骤都建立在前一步的基础上，其中评测器是指导整个训练过程的基础，它通过提供一致的反馈信号来引导模型学习。

**Topics**
+ [Nova 2.0 上的 RFT](nova-hp-rft-nova2.md)