本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
存取和分析評估結果
評估任務成功完成後,您可以使用本節中的資訊來存取和分析結果。根據配方中定義的 output_s3_path (例如 s3://output_path/),輸出結構如下:
job_name/ ├── eval-result/ │ └── results_[timestamp].json │ └── inference_output.jsonl (only present for gen_qa) │ └── details/ │ └── model/ │ └── execution-date-time/ │ └──details_task_name_#_datetime.parquet └── tensorboard-results/ └── eval/ └── events.out.tfevents.[timestamp]
指標結果會存放在指定的 S3 輸出位置 s3://output_path/job_name/eval-result/result-timestamp.json。
Tensorboard 結果會存放在 S3 路徑 s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip 中。
llm_judge 和 strong_reject 除外,所有的推論輸出都存放在 S3 路徑:s3://output_path/job_name/eval-result/details/model/taskname.parquet。
對於 gen_qa,inference_output.jsonl 檔案包含每個 JSON 物件的下列欄位:
-
提示 - 提交到模型的最終提示
-
推論 - 來自模型的原始推論輸出
-
gold - 來自輸入資料集的目標回應
-
中繼資料 - 如果提供,來自輸入資料集的中繼資料字串
若要在 Tensorboard 中視覺化您的評估指標,請完成下列步驟:
-
導覽至 SageMaker AI Tensorboard。
-
選取 S3 資料夾。
-
新增 S3 資料夾路徑,例如
s3://output_path/job-name/eval-tensorboard-result/eval。 -
等待同步完成
時間序列、純量和文字視覺化可供使用。
建議遵循下列最佳實務:
-
透過模型和基準類型讓輸出路徑井然有序。
-
維持一致的命名慣例,以便於追蹤。
-
將擷取的結果儲存在安全的位置。
-
監控 TensorBoard 同步狀態以成功載入資料。
您可以在 CloudWatch 日誌群組 /aws/sagemaker/Clusters/cluster-id 中找到 HyperPod 任務錯誤日誌。