推理模型评测

概述

推理模型支持功能可借助具备推理能力的 Nova 模型开展评估，这类模型会在生成最终响应前执行显式的内部推理。该功能通过 reasoning_effort 参数实现 API 级别的控制，可动态启用/禁用推理功能，有助于提升复杂分析类任务的响应质量。

支持的模型

amazon.nova-2-lite-v1:0:256k

配方配置

在配方的 inference 模块中添加 reasoning_effort 参数，即可启用推理功能：


run:  
  name: reasoning-eval-job-name                          # [MODIFIABLE] Unique identifier for your evaluation job  
  model_type: amazon.nova-2-lite-v1:0:256k               # [FIXED] Must be a reasoning-supported model  
  model_name_or_path: nova-lite-2/prod                   # [FIXED] Path to model checkpoint or identifier  
  replicas: 1                                            # [MODIFIABLE] Number of replicas for SageMaker Training job  
  data_s3_path: ""                                       # [MODIFIABLE] Leave empty for SageMaker Training job; optional for SageMaker HyperPod job  
  output_s3_path: ""                                     # [MODIFIABLE] Output path for SageMaker HyperPod job (not compatible with SageMaker Training jobs)  
  
evaluation:  
  task: mmlu                                             # [MODIFIABLE] Evaluation task  
  strategy: zs_cot                                       # [MODIFIABLE] Evaluation strategy  
  metric: accuracy                                       # [MODIFIABLE] Metric calculation method  
  
inference:  
  reasoning_effort: high                                 # [MODIFIABLE] Enables reasoning mode; options: low/high or null to disable  
  max_new_tokens: 32768                                  # [MODIFIABLE] Maximum tokens to generate, recommended value when reasoning_effort set to high  
  top_k: -1                                              # [MODIFIABLE] Top-k sampling parameter  
  top_p: 1.0                                             # [MODIFIABLE] Nucleus sampling parameter  
  temperature: 0                                         # [MODIFIABLE] Sampling temperature (0 = deterministic)

reasing_effort 参数使用说明

reasoning_effort 参数用于控制具备推理能力模型的推理行为。

先决条件

模型兼容性：仅当 model_type 指定了具备推理能力的模型（当前为 amazon.nova-2-lite-v1:0:256k）时，才需设置 reasoning_effort
错误处理：对不受支持的模型使用 reasoning_effort 将会失败，并返回 ConfigValidationError: "Reasoning mode is enabled but model '{model_type}' does not support reasoning. Please use a reasoning-capable model or disable reasoning mode." 错误

可用选项

Option	行为	词元限制	使用案例
null（默认）	禁用推理模式	不适用	无需推理开销的标准评估
low	启用推理并施加约束	内部推理占用 4000 词元	需要简洁推理的场景；兼顾速度与成本优化
high	启用推理且无约束	内部推理无词元上限	需要深度分析与分步推理的复杂问题

训练模型	可用选项	配置方法
监督式微调（SFT）	仅限 High 或 Off	使用 reasoning_enabled: true（high）或 reasoning_enabled: false（off）
强化微调（RFT）	Low、High 或 Off	使用 reasoning_effort: low 或 reasoning_effort: high。省略字段以禁用。
评估	Low、High 或 Off	使用 reasoning_effort: low 或 reasoning_effort: high。设为 null 即可禁用。

何时启用推理

满足以下场景时，建议使用推理模式（low 或 high）

复杂问题求解任务（数学、逻辑谜题、编程）
需要中间推理过程的多步分析类问题
详细推导或分步思考可提升准确率的任务
优先保证响应质量而非速度的场景

满足以下场景时，建议使用非推理模式（null 或不设置该参数）

简单问答或事实查询
创意写作类任务
对响应速度要求极高的场景
需要排除推理开销的性能基准测试
推理无法提升效果、需优化成本的场景

问题排查

错误：“Reasoning mode is enabled but model does not support reasoning”

原因：reasoning_effort 参数被设为非空值，但指定的 model_type 支持推理。

解决方法：

确认模型类型为 amazon.nova-2-lite-v1:0:256k
若使用其他模型，或切换为具备推理能力的模型，或从配方中移除 reasoning_effort 参数

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

评测执行

RFT 评测