

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 评估您的 RFT 模型
<a name="rft-evaluate-model"></a>

成功完成钢筋微调工作后，您可以使用多种评估方法评估自定义模型的性能。Amazon Bedrock 提供了内置评估工具，可帮助您将 RFT 模型与基本模型进行比较，并验证改进情况。

**Topics**
+ [评估方法](#rft-evaluation-methods)
+ [为评估设置推理](#rft-setup-inference-evaluation)
+ [评估最佳实践](#rft-evaluation-best-practices)

## 评估方法
<a name="rft-evaluation-methods"></a>

Amazon Bedrock 提供了多种评估您的 RFT 模型性能的方法。

### 验证指标
<a name="rft-validation-metrics"></a>

如果您上传验证数据集，您将在训练指标中看到另外两个图表。
+ **验证奖励**-显示您的模型在训练示例之外的泛化效果。分数低于训练奖励是正常的，也是预期的。
+ **验证剧集长度**-看不见的验证数据的平均响应时长。显示与训练示例相比，您的模型对新输入的响应效率如何。

### 在操场上测试
<a name="rft-test-playground"></a>

使用 Playground 测试功能进行快速、临时的评估。要使用 Playground 中的测试功能，需要设置推理。有关更多信息，请参阅 [为评估设置推理](#rft-setup-inference-evaluation)。

此交互式工具允许您：
+ 直接使用您的 RFT 模型测试提示
+ 比较您的自定义模型和基础模型 side-by-side之间的响应
+ 实时评估响应质量的改进
+ 尝试使用不同的提示来评估模型能力

### 基岩模型评估
<a name="rft-model-evaluation"></a>

使用 Amazon Bedrock 的模型评估，使用您自己的数据集来评估您的 RFT 模型。这提供了具有标准化指标和基准的全面性能分析。以下是 Amazon Bedrock 模型评估优势的一些示例。
+ 使用自定义测试数据集进行系统评估
+ 定量绩效比较
+ 用于一致评估的标准化指标
+ 与现有的 Amazon Bedrock 评估工作流程集成

## 为评估设置推理
<a name="rft-setup-inference-evaluation"></a>

在评估 RFT 模型之前，请使用以下选项之一设置推理：

### 按需型推理
<a name="rft-on-demand-inference"></a>

创建自定义模型按需部署，以实现灵活的 pay-per-use评估。此选项包括基于代币的定价，根据推理期间处理的代币数量收费。

## 评估最佳实践
<a name="rft-evaluation-best-practices"></a>
+ **系统地比较** ——始终使用相同的测试提示和评估标准对照基础模型评估您的 RFT 模型。
+ **使用不同的测试用例**-包括代表您的真实用例的各种提示类型和场景。
+ **验证奖励一致性**-确保您的模型改进与训练期间使用的奖励功能保持一致。
+ **测试边缘案例**-评估具有挑战性或异常输入的模型行为，以评估稳健性。
+ **监控响应一致性**-使用相似的提示检查您的模型在多次运行中是否提供一致的质量。