Personalização do Nova: configuração do MLFlow para o SageMaker HyperPod Criar uma aplicação MLflow Acessar a aplicação MLflow Principais métricas a serem acompanhadas Determinação de quando parar

Monitoramento do progresso em todas as iterações

Você pode acompanhar as métricas por meio do MLflow.

Personalização do Nova: configuração do MLFlow para o SageMaker HyperPod

Para permitir que seu ambiente do SageMaker HyperPod gere métricas para o MLflow, é necessário fazer algumas configurações adicionais.

Abra o Amazon SageMaker AI.
Selecione SageMaker Studio.
1. Se já houver um perfil criado, selecione “Abrir Studio”.
2. Se nenhum perfil tiver sido criado, selecione “Criar um domínio do SageMaker” para configurar um.
Selecione MLflow. Se não houver nenhuma aplicação MLflow criada, selecione “Criar aplicação MLflow”.
Clique no botão copiar/colar ou no item de menu “Visualizar detalhes” na aplicação MLflow para obter o ARN. Você precisará dele ao enviar sua tarefa de treinamento.
No perfil de execução do cluster do HyperPod, adicione a política a seguir. Isso permitirá que o cluster do HyperPod chame a API do MLflow para publicar métricas.



{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": "sagemaker-mlflow:*",
            "Resource": [
                "arn:aws:sagemaker:us-east-1:372836560492:mlflow-app/*"
            ]
        },
        {
            "Effect": "Allow",
            "Action": [
                "sagemaker:ListMlflowTrackingServers",
                "sagemaker:CallMlflowAppApi"
            ],
            "Resource": "*"
        }
    ]
}

Envio de uma tarefa por meio da CLI

Especifique quatro novos parâmetros de substituição na linha de comando ou na fórmula YAML.

mlflow_tracking_uri: o ARN da aplicação MLflow
mlflow_experiment_name: o nome para esta execução do experimento
mlflow_experiment_name: o nome do experimento em que as métricas serão armazenadas no MLflow
mlflow_run_name: o nome desse experimento

Linha de comando



--override-parameters '{"recipes.run.mlflow_tracking_uri": "arn:aws:sagemaker:us-east-1:925548216816:mlflow-app/app-B6XOUNCHQM4W", "recipes.run.mlflow_experiment_name": "myuser-sft-lora-exp1", "recipes.run.mlflow_run_name": "myuser-sft-lora-exp1-202512181940"}'

YAML:



## Run config
run:
  mlflow_tracking_uri: "arn:aws:sagemaker:us-east-1:925548216816:mlflow-app/app-B6XOUNCHQM4W" 
  mlflow_experiment_name: "myuser-sft-lora-exp1"
  mlflow_run_name: "myuser-sft-lora-exp1-202512181940"

Envio de uma tarefa por meio da interface do usuário do SageMaker Studio

A integração com o MLflow já está incorporada à experiência da interface do usuário do SageMaker Studio. Ao enviar uma tarefa de treinamento, basta indicar qual instância da aplicação MLflow usar.

No SageMaker Studio, navegue até Modelos > Nova 2.0 Lite > Personalizar > Personalizar com a interface do usuário.
Expanda a seção Configuração avançada.
Selecione a aplicação MLflow para a qual você gostaria de enviar as métricas de treinamento. Você também pode definir o nome e a execução do experimento aqui.

Envio de uma tarefa por meio da AWS CLI

Se você usar o AWS CLI, deverá criar um aplicativo do MLflow e fornecê-lo como entrada na solicitação da API do job de treinamento.


mlflow_app_name="<enter your MLflow app name>"
role_arn="<enter your role ARN>"
bucket_name="<enter your bucket name>"
region="<enter your region>"

mlflow_app_arn=$(aws sagemaker create-mlflow-app \
  --name $mlflow_app_name \
  --artifact-store-uri "s3://$bucket_name" \
  --role-arn $role_arn \
  --region $region)

Criar uma aplicação MLflow

Usando a interface do usuário do Studio: se você criar uma tarefa de treinamento por meio da interface do usuário do Studio, uma aplicação MLflow padrão será criada automaticamente e estará selecionada por padrão em Opções avançadas.

Usando a CLI: se você usar a CLI, deverá criar uma aplicação MLflow e passá-la como uma entrada para a solicitação da API da tarefa de treinamento.


mlflow_app_name="<enter your MLflow app name>"
role_arn="<enter your role ARN>" 
bucket_name="<enter your bucket name>" 
region="<enter your region>"

mlflow_app_arn=$(aws sagemaker create-mlflow-app \
  --name $mlflow_app_name \
  --artifact-store-uri "s3://$bucket_name" \
  --role-arn $role_arn \
  --region $region)

Acessar a aplicação MLflow

Usando a CLI: crie um URL pré-assinado para acessar a interface do usuário da aplicação MLflow:


aws sagemaker create-presigned-mlflow-app-url \
  --arn $mlflow_app_arn \
  --region $region \
  --output text

Usando a interface do usuário do Studio: a interface do usuário do Studio exibe as principais métricas armazenadas no MLflow e fornece um link para a interface do usuário da aplicação MLflow.

Principais métricas a serem acompanhadas

Monitore essas métricas em todas as iterações para avaliar a melhoria e acompanhar o progresso da tarefa:

No SFT

Curvas de perda de treinamento
Número de amostras consumidas e tempo para processar amostras
Precisão de performance em conjuntos de teste retidos
Conformidade de formato (p. ex., taxa de saída JSON válida)
Perplexidade nos dados de avaliação específicos do domínio

No RFT

Pontuações médias de recompensa em relação ao treinamento
Distribuição de recompensas (porcentagem de respostas de alta recompensa)
Tendências de recompensa de validação (observe se há ajustes excessivos)
Taxas de sucesso específicas de tarefas (p. ex., taxa de aprovação de execução de código, precisão de problemas matemáticos)

Geral

Avaliação comparativa dos deltas de performance entre as iterações
Pontuações de avaliação humana em amostras representativas
Métricas de produção (se implantadas de forma iterativa)

Determinação de quando parar

Pare de iterar quando:

Estagnação da performance: o treinamento adicional não melhora mais significativamente as métricas-alvo
Trocar de técnica ajuda: se uma técnica estagnar, tente alternar (p. ex., SFT → RFT → SFT) para ultrapassar os limites de performance
Métricas-alvo alcançadas: seus critérios de sucesso foram atendidos
Regressão detectada: novas iterações degradam a performance (consulte os procedimentos de reversão abaixo)

Para obter procedimentos de avaliação detalhados, consulte a seção Avaliação.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Ajuste fino por reforço (RFT)

Avaliação