

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Memahami parameter resep
<a name="customize-fine-tune-evaluate-understand-modify"></a>

**Jalankan konfigurasi**  
Berikut ini adalah konfigurasi run umum dan penjelasan tentang parameter yang terlibat.

```
run:
  name: eval_job_name
  model_type: amazon.nova-micro-v1:0:128k
  model_name_or_path: nova-micro/prod
  replicas: 1
  data_s3_path: ""
  output_s3_path: s3://output_path
  mlflow_tracking_uri: ""
  mlflow_experiment_name : ""
  mlflow_run_name : ""
```
+ `name`: (Wajib) Nama deskriptif untuk pekerjaan evaluasi Anda. Ini membantu mengidentifikasi pekerjaan Anda di AWS konsol.
+ `model_type`: (Wajib) Menentukan varian model Amazon Nova yang akan digunakan. Jangan memodifikasi bidang ini secara manual. Opsinya meliputi:
  + `amazon.nova-micro-v1:0:128k`
  + `amazon.nova-lite-v1:0:300k`
  + `amazon.nova-pro-v1:0:300k`
  + `amazon.nova-2-lite-v1:0:256k`
+ `model_name_or_path`: (Wajib) Jalur ke model dasar atau jalur S3 untuk pos pemeriksaan pasca-terlatih. Opsinya meliputi:
  + `nova-micro/prod`
  + `nova-lite/prod`
  + `nova-pro/prod`
  + `nova-lite-2/prod`
  + (Jalur S3 untuk pos pemeriksaan pasca-terlatih) `s3://<escrow bucket>/<job id>/outputs/checkpoints`
+ `replicas`: (Wajib) Jumlah instance komputasi yang akan digunakan untuk pelatihan terdistribusi. Anda harus menetapkan nilai ini ke 1 karena multi-node tidak didukung.
+ `data_s3_path`: (Wajib) Jalur S3 ke dataset input. Biarkan parameter ini kosong kecuali Anda menggunakan *set data atau LLM bawa sendiri* *sebagai resep juri*.
+ `output_s3_path`: (Wajib) Jalur S3 untuk menyimpan artefak evaluasi keluaran. Perhatikan bahwa bucket output S3 harus dibuat oleh akun yang sama yang membuat pekerjaan.
+ `mlflow_tracking_uri`: (Opsional) server MLflow pelacakan ARN untuk melacak MLFlow jalanan/eksperimen. Pastikan Anda memiliki izin untuk mengakses server pelacakan dari peran eksekusi SageMaker AI

**Konfigurasi evaluasi**  
Berikut ini adalah konfigurasi evaluasi model dan penjelasan tentang parameter yang terlibat.

```
evaluation:
  task: mmlu
  strategy: zs_cot
  subtask: mathematics
  metric: accuracy
```
+ `task`: (Wajib) Menentukan benchmark evaluasi atau tugas untuk digunakan.

  Daftar tugas yang didukung:
  + mmlu
  + mmlu\$1pro
  + bbh
  + gpqa
  + matematika
  + strong\$1tolak
  + gen\$1qa
  + ifeval
  + llm\$1hakim
  + kemanusiaan
  + mm\$1llm\$1hakim
  + rubric\$1llm\$1judge
  + aime\$12024
  + calendar\$1scheduling
  + kemanusiaan
+ `strategy`: (Wajib) Mendefinisikan pendekatan evaluasi:
  + zs\$1cot: Zero-shot Chain-of-Thought - Pendekatan untuk mendorong model bahasa besar yang mendorong penalaran tanpa memerlukan contoh eksplisit. step-by-step
  + zs: Zero-shot - Pendekatan untuk memecahkan masalah tanpa contoh pelatihan sebelumnya.
  + gen\$1qa: Strategi khusus untuk bawa resep dataset Anda sendiri.
  + hakim: Strategi khusus untuk Amazon Nova LLM sebagai Hakim dan mm\$1llm\$1judge.
+ `subtask`: (Opsional dan Dapat Dilepas) Menentukan subtugas tertentu untuk tugas evaluasi tertentu. Hapus ini dari resep Anda jika tugas Anda tidak memiliki subtugas.
+ `metric`: (Wajib) Metrik evaluasi yang akan digunakan.
  + akurasi: Persentase jawaban yang benar
  + exact\$1match: (Untuk `math` benchmark), mengembalikan tingkat di mana string yang diprediksi input sama persis dengan referensi mereka.
  + defleksi: (Untuk `strong reject` benchmark), mengembalikan defleksi relatif ke model dasar dan perbedaan metrik signifikansi.
  + pass @1: (Untuk `humaneval` benchmark) adalah metrik yang digunakan untuk mengukur persentase kasus di mana prediksi kepercayaan tertinggi model cocok dengan jawaban yang benar.
  + `all`: Mengembalikan metrik berikut:
    + Untuk `gen_qa` dan bawa benchmark dataset Anda sendiri, kembalikan metrik berikut:
      + `rouge1`: Mengukur tumpang tindih unigram (kata tunggal) antara teks yang dihasilkan dan referensi.
      + `rouge2`: Mengukur tumpang tindih bigram (dua kata berturut-turut) antara teks yang dihasilkan dan referensi.
      + `rougeL`: Mengukur urutan umum terpanjang antara teks, memungkinkan celah dalam pencocokan.
      + `exact_match`: Skor biner (0 atau 1) menunjukkan apakah teks yang dihasilkan cocok dengan teks referensi persis, karakter demi karakter.
      + `quasi_exact_match`: Mirip dengan kecocokan persis tetapi lebih lunak, biasanya mengabaikan kasus, tanda baca, dan perbedaan ruang putih.
      + `f1_score`: Rata-rata harmonik presisi dan ingatan, mengukur tumpang tindih kata antara jawaban yang diprediksi dan referensi.
      + `f1_score_quasi`: Mirip dengan f1\$1score tetapi dengan pencocokan yang lebih lunak, menggunakan perbandingan teks yang dinormalisasi yang mengabaikan perbedaan kecil.
      + `bleu`: Mengukur presisi kecocokan n-gram antara teks yang dihasilkan dan referensi, yang biasa digunakan dalam evaluasi terjemahan.
    + Untuk `llm_judge` dan`mm_llm_judge`, bawa benchmark dataset Anda sendiri, kembalikan metrik berikut:
      + `a_scores`: Jumlah kemenangan untuk `response_A` lintasan evaluasi maju dan mundur.
      + `a_scores_stderr`: Kesalahan standar `response_A scores` lintas penilaian berpasangan.
      + `b_scores`: Jumlah kemenangan untuk `response_B` lintasan evaluasi maju dan mundur.
      + `b_scores_stderr`: Kesalahan standar `response_B scores` lintas penilaian berpasangan.
      + `ties`: Jumlah penilaian di mana `response_A` dan `response_B` dievaluasi sebagai sama.
      + `ties_stderr`: Kesalahan standar ikatan di seluruh penilaian berpasangan.
      + `inference_error`: Hitungan penilaian yang tidak dapat dievaluasi dengan benar.
      + `inference_error_stderr`: Kesalahan standar kesalahan inferensi di seluruh penilaian.
      + `score`: Skor agregat berdasarkan kemenangan dari umpan maju dan mundur untuk. `response_B`
      + `score_stderr`: Kesalahan standar skor agregat di seluruh penilaian berpasangan.
      + `winrate`: probabilitas bahwa response\$1B akan lebih disukai daripada response\$1A dihitung menggunakan probabilitas Bradley-Terry.
      + `lower_rate`: Batas bawah (persentil 2.5) dari perkiraan tingkat kemenangan dari pengambilan sampel bootstrap.

**Konfigurasi inferensi**  
Berikut ini adalah konfigurasi inferensi dan penjelasan tentang parameter yang terlibat. Semua parameter bersifat opsional.

```
inference:
  max_new_tokens: 200
  top_k: -1
  top_p: 1.0
  temperature: 0
  top_logprobs: 10
  reasoning_effort: null  # options: low/high to enable reasoning or null to disable reasoning
```
+ `max_new_tokens`: Jumlah maksimum token yang akan dihasilkan. Ini harus berupa bilangan bulat.
+ `top_k`: Jumlah token probabilitas tertinggi untuk dipertimbangkan. Ini harus berupa bilangan bulat.
+ `top_p`: Ambang probabilitas kumulatif untuk pengambilan sampel token. Ini harus berupa float antara 0,0 dan 1,0, inklusif.
+ `temperature`: Keacakan dalam pemilihan token. Nilai yang lebih besar memperkenalkan lebih banyak keacakan. Gunakan 0 untuk membuat hasil deterministik. Nilai ini harus berupa float dengan nilai minimum 0.
+ `top_logprobs`: Jumlah logprob teratas yang akan dikembalikan dalam respons inferensi. Nilai ini harus berupa bilangan bulat dari 0 hingga 20. Logprobs berisi token keluaran yang dipertimbangkan dan probabilitas log dari setiap token keluaran yang dikembalikan dalam konten pesan.
+ `reasoning_effort`: mengontrol perilaku penalaran untuk model yang mampu beralasan. Tetapkan `reasoning_effort` hanya ketika `model_type` menentukan model berkemampuan penalaran (saat ini). `amazon.nova-2-lite-v1:0:256k` Opsi yang tersedia adalah `null` (nilai default jika tidak disetel; menonaktifkan penalaran),`low`, atau. `high`

Perhatikan bahwa untuk`humaneval`, kami merekomendasikan konfigurasi inferensi berikut:

```
inference:
  top_k: 1
  max_new_tokens: 1600
  temperature: 0.0
```

**MLFlow konfigurasi**  
Berikut ini adalah MLFlow konfigurasi dan penjelasan tentang parameter yang terlibat. Semua parameter bersifat opsional.

```
run:
  mlflow_tracking_uri: ""
  mlflow_experiment_name: ""
  mlflow_run_name: ""
```
+ `mlflow_tracking_uri`: Opsional) Lokasi server MLflow pelacak (hanya diperlukan di SMHP)
+ `mlflow_experiment_name`: (Opsional) Nama percobaan untuk mengelompokkan ML terkait berjalan bersama
+ `mlflow_run_name`: (Opsional) Nama khusus untuk pelatihan tertentu yang dijalankan dalam eksperimen