View a markdown version of this page

推理模型评测 - Amazon Nova

推理模型评测

概述

推理模型支持功能可借助具备推理能力的 Nova 模型开展评估,这类模型会在生成最终响应前执行显式的内部推理。该功能通过 reasoning_effort 参数实现 API 级别的控制,可动态启用/禁用推理功能,有助于提升复杂分析类任务的响应质量。

支持的模型

  • amazon.nova-2-lite-v1:0:256k

配方配置

在配方的 inference 模块中添加 reasoning_effort 参数,即可启用推理功能:

run: name: reasoning-eval-job-name # [MODIFIABLE] Unique identifier for your evaluation job model_type: amazon.nova-2-lite-v1:0:256k # [FIXED] Must be a reasoning-supported model model_name_or_path: nova-lite-2/prod # [FIXED] Path to model checkpoint or identifier replicas: 1 # [MODIFIABLE] Number of replicas for SageMaker Training job data_s3_path: "" # [MODIFIABLE] Leave empty for SageMaker Training job; optional for SageMaker HyperPod job output_s3_path: "" # [MODIFIABLE] Output path for SageMaker HyperPod job (not compatible with SageMaker Training jobs) evaluation: task: mmlu # [MODIFIABLE] Evaluation task strategy: zs_cot # [MODIFIABLE] Evaluation strategy metric: accuracy # [MODIFIABLE] Metric calculation method inference: reasoning_effort: high # [MODIFIABLE] Enables reasoning mode; options: low/high or null to disable max_new_tokens: 32768 # [MODIFIABLE] Maximum tokens to generate, recommended value when reasoning_effort set to high top_k: -1 # [MODIFIABLE] Top-k sampling parameter top_p: 1.0 # [MODIFIABLE] Nucleus sampling parameter temperature: 0 # [MODIFIABLE] Sampling temperature (0 = deterministic)

reasing_effort 参数使用说明

reasoning_effort 参数用于控制具备推理能力模型的推理行为。

先决条件

  • 模型兼容性:仅当 model_type 指定了具备推理能力的模型(当前为 amazon.nova-2-lite-v1:0:256k)时,才需设置 reasoning_effort

  • 错误处理:对不受支持的模型使用 reasoning_effort 将会失败,并返回 ConfigValidationError: "Reasoning mode is enabled but model '{model_type}' does not support reasoning. Please use a reasoning-capable model or disable reasoning mode." 错误

可用选项

Option 行为 词元限制 使用案例
null(默认) 禁用推理模式 不适用 无需推理开销的标准评估
low 启用推理并施加约束 内部推理占用 4000 词元 需要简洁推理的场景;兼顾速度与成本优化
high 启用推理且无约束 内部推理无词元上限 需要深度分析与分步推理的复杂问题
训练模型 可用选项 配置方法
监督式微调(SFT) 仅限 High 或 Off 使用 reasoning_enabled: true(high)或 reasoning_enabled: false(off)
强化微调(RFT) Low、High 或 Off 使用 reasoning_effort: low 或 reasoning_effort: high。省略字段以禁用。
评估 Low、High 或 Off 使用 reasoning_effort: low 或 reasoning_effort: high。设为 null 即可禁用。

何时启用推理

满足以下场景时,建议使用推理模式(lowhigh

  • 复杂问题求解任务(数学、逻辑谜题、编程)

  • 需要中间推理过程的多步分析类问题

  • 详细推导或分步思考可提升准确率的任务

  • 优先保证响应质量而非速度的场景

满足以下场景时,建议使用非推理模式(null 或不设置该参数)

  • 简单问答或事实查询

  • 创意写作类任务

  • 对响应速度要求极高的场景

  • 需要排除推理开销的性能基准测试

  • 推理无法提升效果、需优化成本的场景

问题排查

错误:“Reasoning mode is enabled but model does not support reasoning”

原因reasoning_effort 参数被设为非空值,但指定的 model_type 支持推理。

解决方法:

  • 确认模型类型为 amazon.nova-2-lite-v1:0:256k

  • 若使用其他模型,或切换为具备推理能力的模型,或从配方中移除 reasoning_effort 参数