評価結果へのアクセスと分析

評価ジョブが正常に完了したら、このセクションの情報を使用して結果にアクセスして分析できます。レシピで定義されている output_s3_path (s3://output_path/ など) に基づいて、出力構造は次のようになります。


job_name/
├── eval-result/
│    └── results_[timestamp].json
│    └── inference_output.jsonl (only present for gen_qa)
│    └── details/
│        └── model/
│            └── execution-date-time/
│                └──details_task_name_#_datetime.parquet
└── tensorboard-results/
    └── eval/
        └── events.out.tfevents.[timestamp]

メトリクスの結果は、指定された S3 出力場所 s3://output_path/job_name/eval-result/result-timestamp.json に保存されます。

Tensorboard の結果は S3 パス s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip に保存されます。

llm_judge と strong_reject を除くすべての推論出力は S3 パス s3://output_path/job_name/eval-result/details/model/taskname.parquet に保存されます。

gen_qa では、JSON オブジェクトごとに inference_output.jsonl ファイルに以下のフィールドが含まれています。

prompt - モデルに送信された最終的なプロンプト
inference - モデルからの生の推論出力
gold - 入力データセットからのターゲットレスポンス
metadata - 指定した場合の入力データセットからのメタデータ文字列

Tensorboard で評価メトリクスを視覚化するには、次の手順を実行します。

SageMaker AI Tensorboard に移動します。
S3 フォルダーを選択します。
S3 フォルダーパスを追加します (例: s3://output_path/job-name/eval-tensorboard-result/eval)。
同期が完了するまで待ちます。

時系列、スカラー、テキストの視覚化を使用できます。

推奨されるベストプラクティスを以下に示します:

モデルとベンチマークタイプ別に出力パスを整理しておきます。
追跡を容易にするために、命名規則には一貫性を持たせます。
抽出した結果を安全な場所に保存します。
TensorBoard 同期ステータスをモニタリングして、データのロードが成功するようにします。

HyperPod ジョブエラーログは、CloudWatch ロググループ /aws/sagemaker/Clusters/cluster-id にあります。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

評価ジョブの開始

RFT 評価