Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mengakses dan menganalisis hasil evaluasi
Setelah pekerjaan evaluasi Anda selesai dengan sukses, Anda dapat mengakses dan menganalisis hasilnya menggunakan informasi di bagian ini. Berdasarkan output_s3_path (sepertis3://output_path/) yang didefinisikan dalam resep, struktur output adalah sebagai berikut:
job_name/ ├── eval-result/ │ └── results_[timestamp].json │ └── inference_output.jsonl (only present for gen_qa) │ └── details/ │ └── model/ │ └── execution-date-time/ │ └──details_task_name_#_datetime.parquet └── tensorboard-results/ └── eval/ └── events.out.tfevents.[timestamp]
Hasil metrik disimpan di lokasi output S3 yang ditentukan. s3://output_path/job_name/eval-result/result-timestamp.json
Hasil tensorboard disimpan di jalur S3. s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip
Semua output inferensi, kecuali untuk llm_judge danstrong_reject, disimpan di jalur S3:. s3://output_path/job_name/eval-result/details/model/taskname.parquet
Untukgen_qa, inference_output.jsonl file berisi bidang berikut untuk setiap objek JSON:
-
prompt - Prompt akhir yang dikirimkan ke model
-
inferensi - Output inferensi mentah dari model
-
gold - Respon target dari dataset input
-
metadata - String metadata dari dataset input jika disediakan
Untuk memvisualisasikan metrik evaluasi Anda di Tensorboard, selesaikan langkah-langkah berikut:
-
Arahkan ke SageMaker AI Tensorboard.
-
Pilih folder S3.
-
Tambahkan jalur folder S3 Anda, misalnya
s3://output_path/job-name/eval-tensorboard-result/eval. -
Tunggu sinkronisasi selesai.
Deret waktu, skalar, dan visualisasi teks tersedia.
Kami merekomendasikan praktik terbaik berikut:
-
Jaga agar jalur keluaran Anda diatur berdasarkan model dan tipe benchmark.
-
Pertahankan konvensi penamaan yang konsisten untuk memudahkan pelacakan.
-
Simpan hasil yang diekstraksi di lokasi yang aman.
-
Pantau status TensorBoard sinkronisasi untuk pemuatan data yang berhasil.
Anda dapat menemukan log kesalahan HyperPod pekerjaan di grup CloudWatch log/aws/sagemaker/Clusters/cluster-id.