Nova Customization - Configurazione MLFlow per SageMaker HyperPod Crea un'app MLFlow Accedi all'app MLFlow Metriche chiave da monitorare Determinare quando fermarsi

Monitoraggio dei progressi tra le iterazioni

Puoi tenere traccia delle metriche tramite MLFlow.

Nova Customization - Configurazione MLFlow per SageMaker HyperPod

Per consentire all' SageMaker HyperPod ambiente di inviare metriche a MLFlow, è necessario eseguire alcune configurazioni aggiuntive.

Apri Amazon SageMaker AI
Seleziona SageMaker Studio
1. Se è già stato creato un profilo, seleziona «Open Studio».
2. Se non viene creato alcun profilo, seleziona «Crea un SageMaker dominio» per configurarne uno
Seleziona MLFlow. Se non è stata creata alcuna app MLFlow, seleziona «Crea app MLFlow»
Fai clic sul copy/paste pulsante o sulla voce di menu «Visualizza dettagli» nell'app ML Flow per ottenere l'ARN. Ne avrai bisogno quando invierai il tuo lavoro di formazione.
Sul ruolo di esecuzione del HyperPod cluster, aggiungi la seguente politica. Ciò consentirà al HyperPod cluster di chiamare l'API MLFlow per pubblicare le metriche.



{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": "sagemaker-mlflow:*",
            "Resource": [
                "arn:aws:sagemaker:us-east-1:372836560492:mlflow-app/*"
            ]
        },
        {
            "Effect": "Allow",
            "Action": [
                "sagemaker:ListMlflowTrackingServers",
                "sagemaker:CallMlflowAppApi"
            ],
            "Resource": "*"
        }
    ]
}

Invio di un lavoro tramite la CLI

Specificare 4 nuovi parametri di override, nella riga di comando o nella ricetta yaml.

mlflow_tracking_uri: L'ARN dell'app MLFlow
mlflow_experiment_name: Il nome di questa esecuzione dell'esperimento
mlflow_experiment_name: Il nome dell'esperimento in cui verranno archiviate le metriche in MLFlow
mlflow_run_name: Il nome di questo esperimento

Riga di comando



--override-parameters '{"recipes.run.mlflow_tracking_uri": "arn:aws:sagemaker:us-east-1:925548216816:mlflow-app/app-B6XOUNCHQM4W", "recipes.run.mlflow_experiment_name": "myuser-sft-lora-exp1", "recipes.run.mlflow_run_name": "myuser-sft-lora-exp1-202512181940"}'

yaml:



## Run config
run:
  mlflow_tracking_uri: "arn:aws:sagemaker:us-east-1:925548216816:mlflow-app/app-B6XOUNCHQM4W" 
  mlflow_experiment_name: "myuser-sft-lora-exp1"
  mlflow_run_name: "myuser-sft-lora-exp1-202512181940"

Invio di un lavoro tramite l'interfaccia utente di Studio SageMaker

L'integrazione con MLFlow è già integrata nell'esperienza dell'interfaccia utente di SageMaker Studio. Quando invii un lavoro di formazione, indica semplicemente quale istanza dell'app MLFlow utilizzare.

In SageMaker Studio, accedete a Modelli > Nova 2.0 Lite > Personalizza > Personalizza con interfaccia utente.
Espandi la sezione Configurazione avanzata
Seleziona l'app MLFlow a cui desideri inviare le metriche di formazione. Puoi anche impostare il nome dell'esperimento e l'esecuzione dell'esperimento qui.

Invio di un lavoro tramite AWS CLI

Se si utilizza il AWS CLI, è necessario creare un'app MLFlow e passarla come input alla richiesta API di training job.


mlflow_app_name="<enter your MLflow app name>"
role_arn="<enter your role ARN>"
bucket_name="<enter your bucket name>"
region="<enter your region>"

mlflow_app_arn=$(aws sagemaker create-mlflow-app \
  --name $mlflow_app_name \
  --artifact-store-uri "s3://$bucket_name" \
  --role-arn $role_arn \
  --region $region)

Crea un'app MLFlow

Utilizzo dell'interfaccia utente di Studio: se crei un lavoro di formazione tramite l'interfaccia utente di Studio, viene creata automaticamente un'app MLFlow predefinita e selezionata per impostazione predefinita in Opzioni avanzate.

Utilizzo della CLI: se si utilizza la CLI, è necessario creare un'app MLFlow e passarla come input alla richiesta API del processo di formazione.


mlflow_app_name="<enter your MLflow app name>"
role_arn="<enter your role ARN>" 
bucket_name="<enter your bucket name>" 
region="<enter your region>"

mlflow_app_arn=$(aws sagemaker create-mlflow-app \
  --name $mlflow_app_name \
  --artifact-store-uri "s3://$bucket_name" \
  --role-arn $role_arn \
  --region $region)

Accedi all'app MLFlow

Utilizzo della CLI: crea un URL prefirmato per accedere all'interfaccia utente dell'app MLFlow:


aws sagemaker create-presigned-mlflow-app-url \
  --arn $mlflow_app_arn \
  --region $region \
  --output text

Utilizzo dell'interfaccia utente di Studio: l'interfaccia utente di Studio mostra le metriche chiave archiviate in MLFlow e fornisce un collegamento all'interfaccia utente dell'app MLFlow.

Metriche chiave da monitorare

Monitora queste metriche tra le iterazioni per valutare i miglioramenti e monitorare l'avanzamento del lavoro:

Per SFT

Curve di perdita in allenamento
Numero di campioni consumati e tempo di elaborazione dei campioni
Precisione delle prestazioni su set di test esauriti
Conformità del formato (ad esempio, velocità di output JSON valida)
Perplessità sui dati di valutazione specifici del dominio

Per RFT

Punteggi medi di ricompensa rispetto agli allenamenti
Distribuzione dei premi (percentuale di risposte ad alto rendimento)
Tendenze relative alla validazione e ai premi (attenzione all'overfit)
Task-specific percentuali di successo (ad esempio, frequenza di esecuzione del codice, precisione dei problemi matematici)

Ambito generale

Effettua il benchmark dei delta prestazionali tra le iterazioni
Punteggi di valutazione umana su campioni rappresentativi
Metriche di produzione (se implementate in modo iterativo)

Determinare quando fermarsi

Interrompi l'iterazione quando:

Livelli prestazionali: la formazione aggiuntiva non migliora più in modo significativo le metriche target
Il cambio di tecnica aiuta: se una tecnica si stabilizza, prova a cambiarla (ad esempio, SFT → RFT → SFT) per superare i limiti prestazionali
Metriche obiettivo raggiunte: i tuoi criteri di successo sono soddisfatti
Regressione rilevata: le nuove iterazioni riducono le prestazioni (vedi le procedure di rollback di seguito)

Per le procedure di valutazione dettagliate, consulta la sezione Valutazione.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Rinforzo Fine-Tuning (RFT)

Valutazione