存取和分析評估結果

評估任務成功完成後，您可以使用本節中的資訊來存取和分析結果。根據配方中定義的 output_s3_path (例如 s3://output_path/)，輸出結構如下：


job_name/
├── eval-result/
│    └── results_[timestamp].json
│    └── inference_output.jsonl (only present for gen_qa)
│    └── details/
│        └── model/
│            └── execution-date-time/
│                └──details_task_name_#_datetime.parquet
└── tensorboard-results/
    └── eval/
        └── events.out.tfevents.[timestamp]

指標結果會存放在指定的 S3 輸出位置 s3://output_path/job_name/eval-result/result-timestamp.json。

Tensorboard 結果會存放在 S3 路徑 s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip 中。

llm_judge 和 strong_reject 除外，所有的推論輸出都存放在 S3 路徑：s3://output_path/job_name/eval-result/details/model/taskname.parquet。

對於 gen_qa，inference_output.jsonl 檔案包含每個 JSON 物件的下列欄位：

提示 - 提交到模型的最終提示
推論 - 來自模型的原始推論輸出
gold - 來自輸入資料集的目標回應
中繼資料 - 如果提供，來自輸入資料集的中繼資料字串

若要在 Tensorboard 中視覺化您的評估指標，請完成下列步驟：

導覽至 SageMaker AI Tensorboard。
選取 S3 資料夾。
新增 S3 資料夾路徑，例如 s3://output_path/job-name/eval-tensorboard-result/eval。
等待同步完成

時間序列、純量和文字視覺化可供使用。

建議遵循下列最佳實務：

透過模型和基準類型讓輸出路徑井然有序。
維持一致的命名慣例，以便於追蹤。
將擷取的結果儲存在安全的位置。
監控 TensorBoard 同步狀態以成功載入資料。

您可以在 CloudWatch 日誌群組中找到 SageMaker HyperPod 任務錯誤日誌/aws/sagemaker/Clusters/cluster-id。

日誌機率輸出格式

在推論設定中設定 top_logprobs 時，評估輸出會在 parquet 檔案中包含字符層級日誌機率。每個字符位置都包含最佳候選字符的字典，其日誌機率位於下列結構中：


{
"Ġint": {"logprob_value": -17.8125, "decoded_value": " int"},
"Ġthe": {"logprob_value": -2.345, "decoded_value": " the"}
}

每個字符項目都包含：

logprob_value：字符的日誌機率值
decoded_value：字符的人類可讀取解碼字串表示

原始字符化器字符用作字典索引鍵，以確保唯一性，同時decoded_value提供可讀取的解釋。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

啟動評估任務

MLflow 監控