View a markdown version of this page

在 Amazon Bedrock 中通过钢筋微调来自定义模型 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Amazon Bedrock 中通过钢筋微调来自定义模型

强化微调是 Amazon Bedrock 中的一种模型定制技术,它通过称为奖励的反馈信号向模型传授什么构成 “良好” 的响应,从而提高基础模型的性能。与依赖于标记数据集的传统微调方法不同,强化微调使用反馈驱动的方法来迭代优化模型,以最大限度地提高这些回报。

加固微调应用和场景

当您可以定义清晰、可衡量的成功标准来评估响应质量时,请使用强化微调。钢筋微调在可以客观测量输出质量的领域中表现出色,尤其是在存在多个有效响应或难以预先定义最佳响应时。它非常适合:

  • 数学问题解决和代码生成(使用基于规则的评分器进行客观评估)

  • 科学推理和结构化数据分析

  • 主观任务,例如教学跟踪、内容审核和创意写作(使用基于人工智能的评委)

  • 需要 step-by-step推理或多轮解决问题的任务

  • 有多种有效解决方案的场景,其中一些解决方案明显优于其他解决方案

  • 平衡多个目标(准确性、效率、风格)的应用程序

  • 需要迭代改进、个性化或遵守复杂业务规则的应用程序

  • 可以通过执行结果或性能指标以编程方式验证成功的场景

  • 收集带有标签的高质量样本昂贵或不切实际的情况

钢筋微调的好处

  • 提高模型性能 — 与基础模型相比,钢筋微调平均可将模型精度提高多达 66%。这可以通过微调更小、更快、更高效的模型变体来优化价格和性能。

  • 易用性 — Amazon Bedrock 可自动完成复杂的强化微调,让开发者可以轻松构建 AI 应用程序。您可以使用上传的数据集或现有的 API 调用日志对模型进行微调。您可以使用 Lambda 或评分 model-as-a-judge器定义奖励函数,使用自定义代码对模型输出进行评分,并使用有助于快速设置的内置模板。

  • 安全性与合规性 — 在定制过程中,您的专有数据永远不会离开 AWS安全、受管控的环境。

支持钢筋微调的模型

下表显示了可以通过钢筋微调进行自定义的基础模型:

支持钢筋微调的模型
Provider 模型 模型 ID 区域名称 Region
Amazon 新星 2 精简版 amazon.nova-2-lite-v 1:0:256 k

美国东部(弗吉尼亚州北部)

us-east-1

OpenAI gpt-oss-20b openai.gpt-oss-20b 美国西部(俄勒冈州) us-west-2
Qwen Qwen3 32B qwen.qwen3-32b 美国西部(俄勒冈州) us-west-2

钢筋微调的工作原理

Amazon Bedrock 可实现钢筋微调工作流程的完全自动化。该模型从您的训练数据集中接收提示,并针对每个提示生成多个响应。然后通过奖励函数对这些响应进行评分。Amazon Bedrock 使用带有分数的即时响应对,使用组相对策略优化 (GRPO) 通过基于策略的学习来训练模型。训练循环一直持续到训练数据的末尾,或者你在选定的检查点停止作业,生成一个针对你重要的指标进行了优化的模型。

强化微调最佳实践

  • 从小处着手 — 从 100-200 个示例开始,验证奖励功能的正确性,然后根据结果逐步缩放

  • 预微调评估 — 在钢筋微调之前测试基线模型性能。如果奖励始终为0%,请先使用监督微调来建立基本能力。如果奖励大于95%,则可能没有必要进行强化微调

  • 监控培训-跟踪平均奖励分数和分配。注意是否过度拟合(训练奖励增加,而验证奖励减少)。寻找令人担忧的模式,例如奖励稳定在 0.15 以下、奖励差异随着时间的推移而增加以及验证绩效下降

  • 优化奖励函数 — 在几秒钟(而不是几分钟)内执行,尽量减少外部 API 调用,使用高效算法,实施适当的错误处理,并利用 Lambda 的并行扩展

  • 迭代策略 — 如果奖励没有改善,请调整奖励功能设计,增加数据集的多样性,添加更多具有代表性的示例,并验证奖励信号是否清晰一致