Kustomisasi Nova - Pengaturan MLFlow untuk SageMaker HyperPod Buat aplikasi MLFlow Akses aplikasi MLFlow Metrik kunci untuk dilacak Menentukan kapan harus berhenti

Memantau Kemajuan di Seluruh Iterasi

Anda dapat melacak metrik melalui MLFlow.

Kustomisasi Nova - Pengaturan MLFlow untuk SageMaker HyperPod

Untuk mengaktifkan SageMaker HyperPod lingkungan Anda menampilkan metrik ke MLFlow, Anda perlu melakukan beberapa pengaturan tambahan.

Buka Amazon SageMaker AI
Pilih SageMaker Studio
1. Jika ada profil yang sudah dibuat, pilih “Open Studio”.
2. Jika tidak ada profil yang dibuat, pilih “Buat SageMaker Domain” untuk mengaturnya
Pilih MLFlow. Jika tidak ada Aplikasi MLFlow yang dibuat, pilih “Buat Aplikasi MLFlow”
Klik copy/paste tombol atau item menu “Lihat Detail” di Aplikasi Aliran Ml untuk mendapatkan ARN. Anda akan membutuhkan ini ketika Anda mengirimkan pekerjaan pelatihan Anda.
Pada peran eksekusi HyperPod klaster, tambahkan kebijakan berikut. Ini akan memungkinkan HyperPod cluster memanggil MLFlow API untuk mempublikasikan metrik.



{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": "sagemaker-mlflow:*",
            "Resource": [
                "arn:aws:sagemaker:us-east-1:372836560492:mlflow-app/*"
            ]
        },
        {
            "Effect": "Allow",
            "Action": [
                "sagemaker:ListMlflowTrackingServers",
                "sagemaker:CallMlflowAppApi"
            ],
            "Resource": "*"
        }
    ]
}

Mengirimkan pekerjaan melalui CLI

Tentukan 4 parameter override baru, baik di baris perintah, atau di resep yaml.

mlflow_tracking_uri: ARN dari Aplikasi MLFlow
mlflow_experiment_name: Nama untuk menjalankan eksperimen ini
mlflow_experiment_name: Nama eksperimen tempat metrik akan disimpan di MLFlow
mlflow_run_name: Nama untuk percobaan ini

Baris perintah



--override-parameters '{"recipes.run.mlflow_tracking_uri": "arn:aws:sagemaker:us-east-1:925548216816:mlflow-app/app-B6XOUNCHQM4W", "recipes.run.mlflow_experiment_name": "myuser-sft-lora-exp1", "recipes.run.mlflow_run_name": "myuser-sft-lora-exp1-202512181940"}'

yaml:



## Run config
run:
  mlflow_tracking_uri: "arn:aws:sagemaker:us-east-1:925548216816:mlflow-app/app-B6XOUNCHQM4W" 
  mlflow_experiment_name: "myuser-sft-lora-exp1"
  mlflow_run_name: "myuser-sft-lora-exp1-202512181940"

Mengirimkan pekerjaan melalui UI Studio SageMaker

Integrasi MLFlow sudah dibangun ke dalam pengalaman UI SageMaker Studio. Saat mengirimkan pekerjaan pelatihan, cukup tunjukkan instans Aplikasi MLFlow mana yang akan digunakan.

Di SageMaker Studio, navigasikan ke Models> Nova 2.0 Lite > Customize > Customize with UI.
Perluas bagian Konfigurasi Lanjutan
Pilih Aplikasi MLFlow tempat Anda ingin mengirim metrik pelatihan. Anda juga dapat mengatur nama eksperimen dan eksperimen yang dijalankan di sini.

Mengirimkan pekerjaan melalui AWS CLI

Jika Anda menggunakan AWS CLI, Anda harus membuat aplikasi MLFlow dan meneruskannya sebagai input ke permintaan API pekerjaan pelatihan.


mlflow_app_name="<enter your MLflow app name>"
role_arn="<enter your role ARN>"
bucket_name="<enter your bucket name>"
region="<enter your region>"

mlflow_app_arn=$(aws sagemaker create-mlflow-app \
  --name $mlflow_app_name \
  --artifact-store-uri "s3://$bucket_name" \
  --role-arn $role_arn \
  --region $region)

Buat aplikasi MLFlow

Menggunakan UI Studio: Jika Anda membuat pekerjaan pelatihan melalui UI Studio, aplikasi MLFlow default dibuat secara otomatis dan dipilih secara default di bawah Opsi Lanjutan.

Menggunakan CLI: Jika Anda menggunakan CLI, Anda harus membuat aplikasi MLFlow dan meneruskannya sebagai input ke permintaan API pekerjaan pelatihan.


mlflow_app_name="<enter your MLflow app name>"
role_arn="<enter your role ARN>" 
bucket_name="<enter your bucket name>" 
region="<enter your region>"

mlflow_app_arn=$(aws sagemaker create-mlflow-app \
  --name $mlflow_app_name \
  --artifact-store-uri "s3://$bucket_name" \
  --role-arn $role_arn \
  --region $region)

Akses aplikasi MLFlow

Menggunakan CLI: Buat URL yang telah ditandatangani sebelumnya untuk mengakses UI aplikasi MLFlow:


aws sagemaker create-presigned-mlflow-app-url \
  --arn $mlflow_app_arn \
  --region $region \
  --output text

Menggunakan UI Studio: UI Studio menampilkan metrik kunci yang disimpan di MLFlow dan menyediakan tautan ke UI aplikasi MLFlow.

Metrik kunci untuk dilacak

Pantau metrik ini di seluruh iterasi untuk menilai peningkatan dan melacak kemajuan pekerjaan:

Untuk SFT

Kurva kehilangan pelatihan
Jumlah sampel yang dikonsumsi dan waktu untuk memproses sampel
Akurasi kinerja pada set uji yang ditahan
Kepatuhan format (misalnya, tingkat keluaran JSON yang valid)
Kebingungan pada data evaluasi khusus domain

Untuk RFT

Skor hadiah rata-rata selama pelatihan
Distribusi hadiah (persentase respons hadiah tinggi)
Tren hadiah validasi (perhatikan pemasangan yang berlebihan)
Task-specific tingkat keberhasilan (misalnya, tingkat kelulusan eksekusi kode, akurasi masalah matematika)

Umum

Delta kinerja benchmark antara iterasi
Skor evaluasi manusia pada sampel yang representatif
Metrik produksi (jika menerapkan secara berulang)

Menentukan kapan harus berhenti

Berhenti iterasi saat:

Dataran tinggi kinerja: Pelatihan tambahan tidak lagi meningkatkan metrik target secara bermakna
Peralihan teknik membantu: Jika satu teknik mencapai puncaknya, coba beralih (misalnya, SFT → RFT → SFT) untuk menerobos langit-langit kinerja
Metrik target tercapai: Kriteria keberhasilan Anda terpenuhi
Regresi terdeteksi: Iterasi baru menurunkan kinerja (lihat prosedur rollback di bawah)

Untuk prosedur evaluasi terperinci, lihat bagian Evaluasi.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Penguatan Fine-Tuning (RFT)

Evaluasi