View a markdown version of this page

Monitoraggio dei progressi tra le iterazioni - Amazon Nova

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Monitoraggio dei progressi tra le iterazioni

Puoi tenere traccia delle metriche tramite MLFlow.

Nova Customization - Configurazione MLFlow per SageMaker HyperPod

Per consentire all' SageMaker HyperPod ambiente di inviare metriche a MLFlow, è necessario eseguire alcune configurazioni aggiuntive.

  1. Apri Amazon SageMaker AI

  2. Seleziona SageMaker Studio

    1. Se è già stato creato un profilo, seleziona «Open Studio».

    2. Se non viene creato alcun profilo, seleziona «Crea un SageMaker dominio» per configurarne uno

  3. Seleziona MLFlow. Se non è stata creata alcuna app MLFlow, seleziona «Crea app MLFlow»

  4. Fai clic sul copy/paste pulsante o sulla voce di menu «Visualizza dettagli» nell'app ML Flow per ottenere l'ARN. Ne avrai bisogno quando invierai il tuo lavoro di formazione.

    Il pulsante Visualizza dettagli sull'app ML Flow, con ARN.
  5. Sul ruolo di esecuzione del HyperPod cluster, aggiungi la seguente politica. Ciò consentirà al HyperPod cluster di chiamare l'API MLFlow per pubblicare le metriche.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "sagemaker-mlflow:*", "Resource": [ "arn:aws:sagemaker:us-east-1:372836560492:mlflow-app/*" ] }, { "Effect": "Allow", "Action": [ "sagemaker:ListMlflowTrackingServers", "sagemaker:CallMlflowAppApi" ], "Resource": "*" } ] }

Invio di un lavoro tramite la CLI

Specificare 4 nuovi parametri di override, nella riga di comando o nella ricetta yaml.

  1. mlflow_tracking_uri: L'ARN dell'app MLFlow

  2. mlflow_experiment_name: Il nome di questa esecuzione dell'esperimento

  3. mlflow_experiment_name: Il nome dell'esperimento in cui verranno archiviate le metriche in MLFlow

  4. mlflow_run_name: Il nome di questo esperimento

Riga di comando

--override-parameters '{"recipes.run.mlflow_tracking_uri": "arn:aws:sagemaker:us-east-1:925548216816:mlflow-app/app-B6XOUNCHQM4W", "recipes.run.mlflow_experiment_name": "myuser-sft-lora-exp1", "recipes.run.mlflow_run_name": "myuser-sft-lora-exp1-202512181940"}'

yaml:

## Run config run: mlflow_tracking_uri: "arn:aws:sagemaker:us-east-1:925548216816:mlflow-app/app-B6XOUNCHQM4W" mlflow_experiment_name: "myuser-sft-lora-exp1" mlflow_run_name: "myuser-sft-lora-exp1-202512181940"

Invio di un lavoro tramite l'interfaccia utente di Studio SageMaker

L'integrazione con MLFlow è già integrata nell'esperienza dell'interfaccia utente di SageMaker Studio. Quando invii un lavoro di formazione, indica semplicemente quale istanza dell'app MLFlow utilizzare.

  1. In SageMaker Studio, accedete a Modelli > Nova 2.0 Lite > Personalizza > Personalizza con interfaccia utente.

  2. Espandi la sezione Configurazione avanzata

  3. Seleziona l'app MLFlow a cui desideri inviare le metriche di formazione. Puoi anche impostare il nome dell'esperimento e l'esecuzione dell'esperimento qui.

l'app ML Flow.

Invio di un lavoro tramite AWS CLI

Se si utilizza il AWS CLI, è necessario creare un'app MLFlow e passarla come input alla richiesta API di training job.

mlflow_app_name="<enter your MLflow app name>" role_arn="<enter your role ARN>" bucket_name="<enter your bucket name>" region="<enter your region>" mlflow_app_arn=$(aws sagemaker create-mlflow-app \ --name $mlflow_app_name \ --artifact-store-uri "s3://$bucket_name" \ --role-arn $role_arn \ --region $region)

Crea un'app MLFlow

Utilizzo dell'interfaccia utente di Studio: se crei un lavoro di formazione tramite l'interfaccia utente di Studio, viene creata automaticamente un'app MLFlow predefinita e selezionata per impostazione predefinita in Opzioni avanzate.

Utilizzo della CLI: se si utilizza la CLI, è necessario creare un'app MLFlow e passarla come input alla richiesta API del processo di formazione.

mlflow_app_name="<enter your MLflow app name>" role_arn="<enter your role ARN>" bucket_name="<enter your bucket name>" region="<enter your region>" mlflow_app_arn=$(aws sagemaker create-mlflow-app \ --name $mlflow_app_name \ --artifact-store-uri "s3://$bucket_name" \ --role-arn $role_arn \ --region $region)

Accedi all'app MLFlow

Utilizzo della CLI: crea un URL prefirmato per accedere all'interfaccia utente dell'app MLFlow:

aws sagemaker create-presigned-mlflow-app-url \ --arn $mlflow_app_arn \ --region $region \ --output text

Utilizzo dell'interfaccia utente di Studio: l'interfaccia utente di Studio mostra le metriche chiave archiviate in MLFlow e fornisce un collegamento all'interfaccia utente dell'app MLFlow.

Metriche chiave da monitorare

Monitora queste metriche tra le iterazioni per valutare i miglioramenti e monitorare l'avanzamento del lavoro:

Per SFT

  • Curve di perdita in allenamento

  • Numero di campioni consumati e tempo di elaborazione dei campioni

  • Precisione delle prestazioni su set di test esauriti

  • Conformità del formato (ad esempio, velocità di output JSON valida)

  • Perplessità sui dati di valutazione specifici del dominio

Per RFT

  • Punteggi medi di ricompensa rispetto agli allenamenti

  • Distribuzione dei premi (percentuale di risposte ad alto rendimento)

  • Tendenze relative alla validazione e ai premi (attenzione all'overfit)

  • Task-specific percentuali di successo (ad esempio, frequenza di esecuzione del codice, precisione dei problemi matematici)

Ambito generale

  • Effettua il benchmark dei delta prestazionali tra le iterazioni

  • Punteggi di valutazione umana su campioni rappresentativi

  • Metriche di produzione (se implementate in modo iterativo)

Determinare quando fermarsi

Interrompi l'iterazione quando:

  • Livelli prestazionali: la formazione aggiuntiva non migliora più in modo significativo le metriche target

  • Il cambio di tecnica aiuta: se una tecnica si stabilizza, prova a cambiarla (ad esempio, SFT → RFT → SFT) per superare i limiti prestazionali

  • Metriche obiettivo raggiunte: i tuoi criteri di successo sono soddisfatti

  • Regressione rilevata: le nuove iterazioni riducono le prestazioni (vedi le procedure di rollback di seguito)

Per le procedure di valutazione dettagliate, consulta la sezione Valutazione.