为开放式权重模型设置奖励函数

奖励函数评估响应质量并为模型训练提供反馈信号。您可以使用自定义 Lambda 函数设置奖励函数。选择符合您的任务要求的方法。

用于奖励评估的自定义 Lambda 函数

您可以使用自定义 Lambda 函数设置奖励函数。在您的 Lambda 函数中，您可以灵活地实现评估逻辑：

目标任务 — 对于代码生成或数学推理等客观任务，请使用基于规则的可验证评分器，根据已知标准或测试用例检查正确性。
主观任务 — 对于主观任务，例如指导关注或聊天机器人互动，请在 Lambda 函数中调用 Amazon Bedrock 基础模型作为评委，根据您的标准评估响应质量。

根据您的任务要求，您的 Lambda 函数可以实现复杂逻辑、集成外部 API、执行多步骤计算或组合多个评估标准。

使用自定义 Lambda 函数时：

实现自定义 Lambda 奖励函数时，您的函数必须接受并返回以下格式的数据。

设计指南

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

准备数据

创建微调作业