

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Mengakses dan menganalisis hasil evaluasi
<a name="customize-fine-tune-evaluate-access-results"></a>

Setelah pekerjaan evaluasi Anda selesai dengan sukses, Anda dapat mengakses dan menganalisis hasilnya menggunakan informasi di bagian ini. Berdasarkan `output_s3_path` (seperti`s3://output_path/`) yang didefinisikan dalam resep, struktur output adalah sebagai berikut:

```
job_name/
├── eval-result/
│    └── results_[timestamp].json
│    └── inference_output.jsonl (only present for gen_qa)
│    └── details/
│        └── model/
│            └── execution-date-time/
│                └──details_task_name_#_datetime.parquet
└── tensorboard-results/
    └── eval/
        └── events.out.tfevents.[timestamp]
```

Hasil metrik disimpan di lokasi output S3 yang ditentukan. `s3://output_path/job_name/eval-result/result-timestamp.json`

Hasil tensorboard disimpan di jalur S3. `s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip`

Semua output inferensi, kecuali untuk `llm_judge` dan`strong_reject`, disimpan di jalur S3:. `s3://output_path/job_name/eval-result/details/model/taskname.parquet`

Untuk`gen_qa`, `inference_output.jsonl` file berisi bidang berikut untuk setiap objek JSON:
+ prompt - Prompt akhir yang dikirimkan ke model
+ inferensi - Output inferensi mentah dari model
+ gold - Respon target dari dataset input
+ metadata - String metadata dari dataset input jika disediakan

Untuk memvisualisasikan metrik evaluasi Anda di Tensorboard, selesaikan langkah-langkah berikut:

1. Arahkan ke SageMaker AI Tensorboard.

1. Pilih **folder S3**.

1. Tambahkan jalur folder S3 Anda, misalnya`s3://output_path/job-name/eval-tensorboard-result/eval`.

1. Tunggu sinkronisasi selesai.

Deret waktu, skalar, dan visualisasi teks tersedia.

Kami merekomendasikan praktik terbaik berikut:
+ Jaga agar jalur keluaran Anda diatur berdasarkan model dan tipe benchmark.
+ Pertahankan konvensi penamaan yang konsisten untuk memudahkan pelacakan.
+ Simpan hasil yang diekstraksi di lokasi yang aman.
+ Pantau status TensorBoard sinkronisasi untuk pemuatan data yang berhasil.

Anda dapat menemukan log kesalahan SageMaker HyperPod pekerjaan di grup CloudWatch log`/aws/sagemaker/Clusters/cluster-id`.

## Format Keluaran Probabilitas Log
<a name="nova-hp-access-results-logprobs"></a>

Ketika `top_logprobs` dikonfigurasi dalam pengaturan inferensi Anda, output evaluasi mencakup probabilitas log tingkat token dalam file parket. Setiap posisi token berisi kamus token kandidat teratas dengan probabilitas log mereka dalam struktur berikut:

```
{
"Ġint": {"logprob_value": -17.8125, "decoded_value": " int"},
"Ġthe": {"logprob_value": -2.345, "decoded_value": " the"}
}
```

Setiap entri token berisi:
+ `logprob_value`: Nilai probabilitas log untuk token
+ `decoded_value`: Representasi string decoded yang dapat dibaca manusia dari token

Token tokenizer mentah digunakan sebagai kunci kamus untuk memastikan keunikan, sekaligus `decoded_value` memberikan interpretasi yang dapat dibaca.