访问和分析评估结果

成功完成评估作业后，您可以参考本节中的信息访问并分析结果。根据配方中定义的 output_s3_path（例如 s3://output_path/），输出结构如下所示：


job_name/
├── eval-result/
│    └── results_[timestamp].json
│    └── inference_output.jsonl (only present for gen_qa)
│    └── details/
│        └── model/
│            └── execution-date-time/
│                └──details_task_name_#_datetime.parquet
└── tensorboard-results/
    └── eval/
        └── events.out.tfevents.[timestamp]

指标结果存储在指定的 S3 输出位置 s3://output_path/job_name/eval-result/result-timestamp.json。

Tensorboard 结果存储在 S3 路径 s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip 中。

除 llm_judge 和 strong_reject 之外的所有推理输出都存储在 S3 路径中：s3://output_path/job_name/eval-result/details/model/taskname.parquet。

对于 gen_qa，inference_output.jsonl 文件针对每个 JSON 对象均包含以下字段：

prompt：提交给模型的最终提示
推理：模型的原始推理输出
gold：来自输入数据集的目标响应
metadata：来自输入数据集的元数据字符串（如果提供）

要在 Tensorboard 中直观显示您的评估指标，请完成以下步骤：

导航到 SageMaker AI Tensorboard。
选择 S3 文件夹。
添加您的 S3 文件夹路径，例如 s3://output_path/job-name/eval-tensorboard-result/eval。
等待同步完成。

时间序列、标量和文本可视化均可用。

我们建议您遵循以下最佳实操：

按模型和基准测试类型整理输出路径。
保持一致的命名约定以便于跟踪。
将解压缩的结果保存在安全的位置。
监控 TensorBoard 同步状态以成功加载数据。

您可以在 CloudWatch 日志组 /aws/sagemaker/Clusters/cluster-id 中找到 SageMaker HyperPod 作业错误日志。

对数概率输出格式

在推理设置中配置 top_logprobs 后，评估输出会在 parquet 文件中包含词元级别的对数概率。每个词元位置都会以字典形式，返回排名靠前的候选词元及其对数概率，结构如下：


{
"Ġint": {"logprob_value": -17.8125, "decoded_value": " int"},
"Ġthe": {"logprob_value": -2.345, "decoded_value": " the"}
}

每个词元条目包含：

logprob_value：词元的对数概率值
decoded_value：词元经解码后人类可读的字符串形式

原始分词器词元作为字典键以确保唯一性，decoded_value 则提供可读形式。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

启动评估作业

MLflow 监控