Monitoramento do progresso em todas as iterações
Você pode acompanhar as métricas por meio do MLflow.
Personalização do Nova: configuração do MLFlow para o SageMaker HyperPod
Para permitir que seu ambiente do SageMaker HyperPod gere métricas para o MLflow, é necessário fazer algumas configurações adicionais.
-
Abra o Amazon SageMaker AI.
-
Selecione SageMaker Studio.
-
Se já houver um perfil criado, selecione “Abrir Studio”.
-
Se nenhum perfil tiver sido criado, selecione “Criar um domínio do SageMaker” para configurar um.
-
-
Selecione MLflow. Se não houver nenhuma aplicação MLflow criada, selecione “Criar aplicação MLflow”.
-
Clique no botão copiar/colar ou no item de menu “Visualizar detalhes” na aplicação MLflow para obter o ARN. Você precisará dele ao enviar sua tarefa de treinamento.
-
No perfil de execução do cluster do HyperPod, adicione a política a seguir. Isso permitirá que o cluster do HyperPod chame a API do MLflow para publicar métricas.
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "sagemaker-mlflow:*", "Resource": [ "arn:aws:sagemaker:us-east-1:372836560492:mlflow-app/*" ] }, { "Effect": "Allow", "Action": [ "sagemaker:ListMlflowTrackingServers", "sagemaker:CallMlflowAppApi" ], "Resource": "*" } ] }
Envio de uma tarefa por meio da CLI
Especifique quatro novos parâmetros de substituição na linha de comando ou na fórmula YAML.
-
mlflow_tracking_uri: o ARN da aplicação MLflow -
mlflow_experiment_name: o nome para esta execução do experimento -
mlflow_experiment_name: o nome do experimento em que as métricas serão armazenadas no MLflow -
mlflow_run_name: o nome desse experimento
Linha de comando
--override-parameters '{"recipes.run.mlflow_tracking_uri": "arn:aws:sagemaker:us-east-1:925548216816:mlflow-app/app-B6XOUNCHQM4W", "recipes.run.mlflow_experiment_name": "myuser-sft-lora-exp1", "recipes.run.mlflow_run_name": "myuser-sft-lora-exp1-202512181940"}'
YAML:
## Run config run: mlflow_tracking_uri: "arn:aws:sagemaker:us-east-1:925548216816:mlflow-app/app-B6XOUNCHQM4W" mlflow_experiment_name: "myuser-sft-lora-exp1" mlflow_run_name: "myuser-sft-lora-exp1-202512181940"
Envio de uma tarefa por meio da interface do usuário do SageMaker Studio
A integração com o MLflow já está incorporada à experiência da interface do usuário do SageMaker Studio. Ao enviar uma tarefa de treinamento, basta indicar qual instância da aplicação MLflow usar.
-
No SageMaker Studio, navegue até Modelos > Nova 2.0 Lite > Personalizar > Personalizar com a interface do usuário.
-
Expanda a seção Configuração avançada.
-
Selecione a aplicação MLflow para a qual você gostaria de enviar as métricas de treinamento. Você também pode definir o nome e a execução do experimento aqui.
Envio de uma tarefa por meio da AWS AWS CLI
Se você usar a AWS AWS CLI, deverá criar uma aplicação MLflow e passá-la como uma entrada para a solicitação da API da tarefa de treinamento.
mlflow_app_name="<enter your MLflow app name>" role_arn="<enter your role ARN>" bucket_name="<enter your bucket name>" region="<enter your region>" mlflow_app_arn=$(aws sagemaker create-mlflow-app \ --name $mlflow_app_name \ --artifact-store-uri "s3://$bucket_name" \ --role-arn $role_arn \ --region $region)
Criar uma aplicação MLflow
Usando a interface do usuário do Studio: se você criar uma tarefa de treinamento por meio da interface do usuário do Studio, uma aplicação MLflow padrão será criada automaticamente e estará selecionada por padrão em Opções avançadas.
Usando a CLI: se você usar a CLI, deverá criar uma aplicação MLflow e passá-la como uma entrada para a solicitação da API da tarefa de treinamento.
mlflow_app_name="<enter your MLflow app name>" role_arn="<enter your role ARN>" bucket_name="<enter your bucket name>" region="<enter your region>" mlflow_app_arn=$(aws sagemaker create-mlflow-app \ --name $mlflow_app_name \ --artifact-store-uri "s3://$bucket_name" \ --role-arn $role_arn \ --region $region)
Acessar a aplicação MLflow
Usando a CLI: crie um URL pré-assinado para acessar a interface do usuário da aplicação MLflow:
aws sagemaker create-presigned-mlflow-app-url \ --arn $mlflow_app_arn \ --region $region \ --output text
Usando a interface do usuário do Studio: a interface do usuário do Studio exibe as principais métricas armazenadas no MLflow e fornece um link para a interface do usuário da aplicação MLflow.
Principais métricas a serem acompanhadas
Monitore essas métricas em todas as iterações para avaliar a melhoria e acompanhar o progresso da tarefa:
No SFT
-
Curvas de perda de treinamento
-
Número de amostras consumidas e tempo para processar amostras
-
Precisão de performance em conjuntos de teste retidos
-
Conformidade de formato (p. ex., taxa de saída JSON válida)
-
Perplexidade nos dados de avaliação específicos do domínio
No RFT
-
Pontuações médias de recompensa em relação ao treinamento
-
Distribuição de recompensas (porcentagem de respostas de alta recompensa)
-
Tendências de recompensa de validação (observe se há ajustes excessivos)
-
Taxas de sucesso específicas de tarefas (p. ex., taxa de aprovação de execução de código, precisão de problemas matemáticos)
Geral
-
Avaliação comparativa dos deltas de performance entre as iterações
-
Pontuações de avaliação humana em amostras representativas
-
Métricas de produção (se implantadas de forma iterativa)
Determinação de quando parar
Pare de iterar quando:
-
Estagnação da performance: o treinamento adicional não melhora mais significativamente as métricas-alvo
-
Trocar de técnica ajuda: se uma técnica estagnar, tente alternar (p. ex., SFT → RFT → SFT) para ultrapassar os limites de performance
-
Métricas-alvo alcançadas: seus critérios de sucesso foram atendidos
-
Regressão detectada: novas iterações degradam a performance (consulte os procedimentos de reversão abaixo)
Para obter procedimentos de avaliação detalhados, consulte a seção Avaliação.