View a markdown version of this page

Memantau Kemajuan di Seluruh Iterasi - Amazon Nova

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memantau Kemajuan di Seluruh Iterasi

Anda dapat melacak metrik melalui MLflow.

Kustomisasi Nova - MLFlow pengaturan untuk SageMaker HyperPod

Untuk mengaktifkan SageMaker HyperPod lingkungan Anda menghasilkan metrik MLFlow, Anda perlu melakukan beberapa pengaturan tambahan.

  1. Buka Amazon SageMaker AI

  2. Pilih SageMaker Studio

    1. Jika ada profil yang sudah dibuat, pilih “Open Studio”.

    2. Jika tidak ada profil yang dibuat, pilih “Buat SageMaker Domain” untuk mengaturnya

  3. Pilih MLFlow. Jika tidak ada MLFlow Aplikasi yang dibuat, pilih “Buat MLFlow Aplikasi”

  4. Klik copy/paste tombol atau item menu “Lihat Detail” di Aplikasi Aliran Ml untuk mendapatkan ARN. Anda akan membutuhkan ini ketika Anda mengirimkan pekerjaan pelatihan Anda.

    Tombol Lihat Detail di Aplikasi Aliran ML, dengan ARN.
  5. Pada peran eksekusi HyperPod klaster, tambahkan kebijakan berikut. Ini akan memungkinkan HyperPod cluster memanggil MLFlow API untuk menerbitkan metrik.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "sagemaker-mlflow:*", "Resource": [ "arn:aws:sagemaker:us-east-1:372836560492:mlflow-app/*" ] }, { "Effect": "Allow", "Action": [ "sagemaker:ListMlflowTrackingServers", "sagemaker:CallMlflowAppApi" ], "Resource": "*" } ] }

Mengirimkan pekerjaan melalui CLI

Tentukan 4 parameter override baru, baik di baris perintah, atau di resep yaml.

  1. mlflow_tracking_uri: ARN dari Aplikasi MLFlow

  2. mlflow_experiment_name: Nama untuk percobaan ini

  3. mlflow_experiment_name: Nama eksperimen tempat metrik akan disimpan MLFlow

  4. mlflow_run_name: Nama untuk percobaan ini

Baris perintah

--override-parameters '{"recipes.run.mlflow_tracking_uri": "arn:aws:sagemaker:us-east-1:925548216816:mlflow-app/app-B6XOUNCHQM4W", "recipes.run.mlflow_experiment_name": "myuser-sft-lora-exp1", "recipes.run.mlflow_run_name": "myuser-sft-lora-exp1-202512181940"}'

yaml:

## Run config run: mlflow_tracking_uri: "arn:aws:sagemaker:us-east-1:925548216816:mlflow-app/app-B6XOUNCHQM4W" mlflow_experiment_name: "myuser-sft-lora-exp1" mlflow_run_name: "myuser-sft-lora-exp1-202512181940"

Mengirimkan pekerjaan melalui UI Studio SageMaker

MLFlow integrasi sudah dibangun ke dalam pengalaman UI SageMaker Studio. Saat mengirimkan pekerjaan pelatihan, cukup tunjukkan instance MLFlow Aplikasi mana yang akan digunakan.

  1. Di SageMaker Studio, navigasikan ke Models> Nova 2.0 Lite > Customize > Customize with UI.

  2. Perluas bagian Konfigurasi Lanjutan

  3. Pilih MLFlow Aplikasi tempat Anda ingin mengirim metrik pelatihan. Anda juga dapat mengatur nama eksperimen dan eksperimen yang dijalankan di sini.

Aplikasi Aliran ML.

Mengirimkan pekerjaan melalui AWS AWS CLI

Jika Anda menggunakan AWS AWS CLI, Anda harus membuat MLflow aplikasi dan meneruskannya sebagai masukan ke permintaan API pekerjaan pelatihan.

mlflow_app_name="<enter your MLflow app name>" role_arn="<enter your role ARN>" bucket_name="<enter your bucket name>" region="<enter your region>" mlflow_app_arn=$(aws sagemaker create-mlflow-app \ --name $mlflow_app_name \ --artifact-store-uri "s3://$bucket_name" \ --role-arn $role_arn \ --region $region)

Buat MLflow aplikasi

Menggunakan UI Studio: Jika Anda membuat pekerjaan pelatihan melalui UI Studio, MLflow aplikasi default dibuat secara otomatis dan dipilih secara default di bawah Opsi Lanjutan.

Menggunakan CLI: Jika Anda menggunakan CLI, Anda harus membuat MLflow aplikasi dan meneruskannya sebagai input ke permintaan API pekerjaan pelatihan.

mlflow_app_name="<enter your MLflow app name>" role_arn="<enter your role ARN>" bucket_name="<enter your bucket name>" region="<enter your region>" mlflow_app_arn=$(aws sagemaker create-mlflow-app \ --name $mlflow_app_name \ --artifact-store-uri "s3://$bucket_name" \ --role-arn $role_arn \ --region $region)

Akses MLflow aplikasinya

Menggunakan CLI: Buat URL yang telah ditandatangani sebelumnya untuk mengakses UI aplikasi: MLflow

aws sagemaker create-presigned-mlflow-app-url \ --arn $mlflow_app_arn \ --region $region \ --output text

Menggunakan UI Studio: UI Studio menampilkan metrik kunci yang disimpan MLflow dan menyediakan tautan ke UI MLflow aplikasi.

Metrik kunci untuk dilacak

Pantau metrik ini di seluruh iterasi untuk menilai peningkatan dan melacak kemajuan pekerjaan:

Untuk SFT

  • Kurva kehilangan pelatihan

  • Jumlah sampel yang dikonsumsi dan waktu untuk memproses sampel

  • Akurasi kinerja pada set uji yang diheld-out

  • Kepatuhan format (misalnya, tingkat keluaran JSON yang valid)

  • Kebingungan pada data evaluasi khusus domain

Untuk RFT

  • Skor hadiah rata-rata selama pelatihan

  • Distribusi hadiah (persentase respons hadiah tinggi)

  • Tren hadiah validasi (perhatikan pemasangan yang berlebihan)

  • Tingkat keberhasilan khusus tugas (misalnya, tingkat kelulusan eksekusi kode, akurasi masalah matematika)

Umum

  • Delta kinerja benchmark antara iterasi

  • Skor evaluasi manusia pada sampel yang representatif

  • Metrik produksi (jika menerapkan secara berulang)

Menentukan kapan harus berhenti

Berhenti iterasi saat:

  • Dataran tinggi kinerja: Pelatihan tambahan tidak lagi meningkatkan metrik target secara bermakna

  • Peralihan teknik membantu: Jika satu teknik mencapai puncaknya, coba beralih (misalnya, SFT → RFT → SFT) untuk menerobos langit-langit kinerja

  • Metrik target tercapai: Kriteria keberhasilan Anda terpenuhi

  • Regresi terdeteksi: Iterasi baru menurunkan kinerja (lihat prosedur rollback di bawah)

Untuk prosedur evaluasi terperinci, lihat bagian Evaluasi.