推理模型评测
概述
推理模型支持功能可借助具备推理能力的 Nova 模型开展评估,这类模型会在生成最终响应前执行显式的内部推理。该功能通过 reasoning_effort 参数实现 API 级别的控制,可动态启用/禁用推理功能,有助于提升复杂分析类任务的响应质量。
支持的模型
-
amazon.nova-2-lite-v1:0:256k
配方配置
在配方的 inference 模块中添加 reasoning_effort 参数,即可启用推理功能:
run: name: reasoning-eval-job-name # [MODIFIABLE] Unique identifier for your evaluation job model_type: amazon.nova-2-lite-v1:0:256k # [FIXED] Must be a reasoning-supported model model_name_or_path: nova-lite-2/prod # [FIXED] Path to model checkpoint or identifier replicas: 1 # [MODIFIABLE] Number of replicas for SageMaker Training job data_s3_path: "" # [MODIFIABLE] Leave empty for SageMaker Training job; optional for SageMaker HyperPod job output_s3_path: "" # [MODIFIABLE] Output path for SageMaker HyperPod job (not compatible with SageMaker Training jobs) evaluation: task: mmlu # [MODIFIABLE] Evaluation task strategy: zs_cot # [MODIFIABLE] Evaluation strategy metric: accuracy # [MODIFIABLE] Metric calculation method inference: reasoning_effort: high # [MODIFIABLE] Enables reasoning mode; options: low/high or null to disable max_new_tokens: 32768 # [MODIFIABLE] Maximum tokens to generate, recommended value when reasoning_effort set to high top_k: -1 # [MODIFIABLE] Top-k sampling parameter top_p: 1.0 # [MODIFIABLE] Nucleus sampling parameter temperature: 0 # [MODIFIABLE] Sampling temperature (0 = deterministic)
reasing_effort 参数使用说明
reasoning_effort 参数用于控制具备推理能力模型的推理行为。
先决条件
-
模型兼容性:仅当
model_type指定了具备推理能力的模型(当前为amazon.nova-2-lite-v1:0:256k)时,才需设置reasoning_effort -
错误处理:对不受支持的模型使用
reasoning_effort将会失败,并返回ConfigValidationError: "Reasoning mode is enabled but model '{model_type}' does not support reasoning. Please use a reasoning-capable model or disable reasoning mode."错误
可用选项
| Option | 行为 | 词元限制 | 使用案例 |
|---|---|---|---|
| null(默认) | 禁用推理模式 | 不适用 | 无需推理开销的标准评估 |
| low | 启用推理并施加约束 | 内部推理占用 4000 词元 | 需要简洁推理的场景;兼顾速度与成本优化 |
| high | 启用推理且无约束 | 内部推理无词元上限 | 需要深度分析与分步推理的复杂问题 |
| 训练模型 | 可用选项 | 配置方法 |
|---|---|---|
| 监督式微调(SFT) | 仅限 High 或 Off | 使用 reasoning_enabled: true(high)或 reasoning_enabled: false(off) |
| 强化微调(RFT) | Low、High 或 Off | 使用 reasoning_effort: low 或 reasoning_effort: high。省略字段以禁用。 |
| 评估 | Low、High 或 Off | 使用 reasoning_effort: low 或 reasoning_effort: high。设为 null 即可禁用。 |
何时启用推理
满足以下场景时,建议使用推理模式(low 或 high)
-
复杂问题求解任务(数学、逻辑谜题、编程)
-
需要中间推理过程的多步分析类问题
-
详细推导或分步思考可提升准确率的任务
-
优先保证响应质量而非速度的场景
满足以下场景时,建议使用非推理模式(null 或不设置该参数)
-
简单问答或事实查询
-
创意写作类任务
-
对响应速度要求极高的场景
-
需要排除推理开销的性能基准测试
-
推理无法提升效果、需优化成本的场景
问题排查
错误:“Reasoning mode is enabled but model does not support reasoning”
原因:reasoning_effort 参数被设为非空值,但指定的 model_type 支持推理。
解决方法:
-
确认模型类型为
amazon.nova-2-lite-v1:0:256k -
若使用其他模型,或切换为具备推理能力的模型,或从配方中移除
reasoning_effort参数