

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 存取和分析評估結果
<a name="customize-fine-tune-evaluate-access-results"></a>

評估任務成功完成後，您可以使用本節中的資訊來存取和分析結果。根據配方中定義的 `output_s3_path` (例如 `s3://output_path/`)，輸出結構如下：

```
job_name/
├── eval-result/
│    └── results_[timestamp].json
│    └── inference_output.jsonl (only present for gen_qa)
│    └── details/
│        └── model/
│            └── execution-date-time/
│                └──details_task_name_#_datetime.parquet
└── tensorboard-results/
    └── eval/
        └── events.out.tfevents.[timestamp]
```

指標結果會存放在指定的 S3 輸出位置 `s3://output_path/job_name/eval-result/result-timestamp.json`。

Tensorboard 結果會存放在 S3 路徑 `s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip` 中。

`llm_judge` 和 `strong_reject` 除外，所有的推論輸出都存放在 S3 路徑：`s3://output_path/job_name/eval-result/details/model/taskname.parquet`。

對於 `gen_qa`，`inference_output.jsonl` 檔案包含每個 JSON 物件的下列欄位：
+ 提示 - 提交到模型的最終提示
+ 推論 - 來自模型的原始推論輸出
+ gold - 來自輸入資料集的目標回應
+ 中繼資料 - 如果提供，來自輸入資料集的中繼資料字串

若要在 Tensorboard 中視覺化您的評估指標，請完成下列步驟：

1. 導覽至 SageMaker AI Tensorboard。

1. 選取 **S3 資料夾**。

1. 新增 S3 資料夾路徑，例如 `s3://output_path/job-name/eval-tensorboard-result/eval`。

1. 等待同步完成

時間序列、純量和文字視覺化可供使用。

建議遵循下列最佳實務：
+ 透過模型和基準類型讓輸出路徑井然有序。
+ 維持一致的命名慣例，以便於追蹤。
+ 將擷取的結果儲存在安全的位置。
+ 監控 TensorBoard 同步狀態以成功載入資料。

您可以在 CloudWatch 日誌群組 中找到 SageMaker HyperPod 任務錯誤日誌`/aws/sagemaker/Clusters/cluster-id`。

## 日誌機率輸出格式
<a name="nova-hp-access-results-logprobs"></a>

在推論設定中設定 `top_logprobs` 時，評估輸出會在 parquet 檔案中包含字符層級日誌機率。每個字符位置都包含最佳候選字符的字典，其日誌機率位於下列結構中：

```
{
"Ġint": {"logprob_value": -17.8125, "decoded_value": " int"},
"Ġthe": {"logprob_value": -2.345, "decoded_value": " the"}
}
```

每個字符項目都包含：
+ `logprob_value`：字符的日誌機率值
+ `decoded_value`：字符的人類可讀取解碼字串表示

原始字符化器字符用作字典索引鍵，以確保唯一性，同時`decoded_value`提供可讀取的解釋。