本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
存取和分析評估結果
評估任務成功完成後,您可以使用本節中的資訊來存取和分析結果。根據配方中定義的 output_s3_path (例如 s3://output_path/),輸出結構如下:
job_name/ ├── eval-result/ │ └── results_[timestamp].json │ └── inference_output.jsonl (only present for gen_qa) │ └── details/ │ └── model/ │ └── execution-date-time/ │ └──details_task_name_#_datetime.parquet └── tensorboard-results/ └── eval/ └── events.out.tfevents.[timestamp]
指標結果會存放在指定的 S3 輸出位置 s3://output_path/job_name/eval-result/result-timestamp.json。
Tensorboard 結果會存放在 S3 路徑 s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip 中。
llm_judge 和 strong_reject 除外,所有的推論輸出都存放在 S3 路徑:s3://output_path/job_name/eval-result/details/model/taskname.parquet。
對於 gen_qa,inference_output.jsonl 檔案包含每個 JSON 物件的下列欄位:
-
提示 - 提交到模型的最終提示
-
推論 - 來自模型的原始推論輸出
-
gold - 來自輸入資料集的目標回應
-
中繼資料 - 如果提供,來自輸入資料集的中繼資料字串
若要在 Tensorboard 中視覺化您的評估指標,請完成下列步驟:
-
導覽至 SageMaker AI Tensorboard。
-
選取 S3 資料夾。
-
新增 S3 資料夾路徑,例如
s3://output_path/job-name/eval-tensorboard-result/eval。 -
等待同步完成
時間序列、純量和文字視覺化可供使用。
建議遵循下列最佳實務:
-
透過模型和基準類型讓輸出路徑井然有序。
-
維持一致的命名慣例,以便於追蹤。
-
將擷取的結果儲存在安全的位置。
-
監控 TensorBoard 同步狀態以成功載入資料。
您可以在 CloudWatch 日誌群組 中找到 SageMaker HyperPod 任務錯誤日誌/aws/sagemaker/Clusters/cluster-id。
日誌機率輸出格式
在推論設定中設定 top_logprobs 時,評估輸出會在 parquet 檔案中包含字符層級日誌機率。每個字符位置都包含最佳候選字符的字典,其日誌機率位於下列結構中:
{ "Ġint": {"logprob_value": -17.8125, "decoded_value": " int"}, "Ġthe": {"logprob_value": -2.345, "decoded_value": " the"} }
每個字符項目都包含:
-
logprob_value:字符的日誌機率值 -
decoded_value:字符的人類可讀取解碼字串表示
原始字符化器字符用作字典索引鍵,以確保唯一性,同時decoded_value提供可讀取的解釋。