

# Monitoramento do progresso em todas as iterações
<a name="nova-model-monitor"></a>

Você pode acompanhar as métricas por meio do MLflow.

## Personalização do Nova: configuração do MLFlow para o SageMaker HyperPod
<a name="nova-customization-mlflow-setup"></a>

Para permitir que seu ambiente do SageMaker HyperPod gere métricas para o MLflow, é necessário fazer algumas configurações adicionais.

1. Abra o Amazon SageMaker AI.

1. Selecione SageMaker Studio.

   1. Se já houver um perfil criado, selecione “Abrir Studio”.

   1. Se nenhum perfil tiver sido criado, selecione “Criar um domínio do SageMaker” para configurar um.

1. Selecione MLflow. Se não houver nenhuma aplicação MLflow criada, selecione “Criar aplicação MLflow”.

1. Clique no botão copiar/colar ou no item de menu “Visualizar detalhes” na aplicação MLflow para obter o ARN. Você precisará dele ao enviar sua tarefa de treinamento.  
![\[O botão Visualizar detalhes na aplicação MLflow, com o ARN.\]](http://docs.aws.amazon.com/pt_br/nova/latest/nova2-userguide/images/how-it-works.png)

1. No perfil de execução do cluster do HyperPod, adicione a política a seguir. Isso permitirá que o cluster do HyperPod chame a API do MLflow para publicar métricas.

```
{
    "Version": "2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Action": "sagemaker-mlflow:*",
            "Resource": [
                "arn:aws:sagemaker:us-east-1:372836560492:mlflow-app/*"
            ]
        },
        {
            "Effect": "Allow",
            "Action": [
                "sagemaker:ListMlflowTrackingServers",
                "sagemaker:CallMlflowAppApi"
            ],
            "Resource": "*"
        }
    ]
}
```

### Envio de uma tarefa por meio da CLI
<a name="submitting-job-cli"></a>

Especifique quatro novos parâmetros de substituição na linha de comando ou na fórmula YAML.

1. `mlflow_tracking_uri`: o ARN da aplicação MLflow

1. `mlflow_experiment_name`: o nome para esta execução do experimento

1. `mlflow_experiment_name`: o nome do experimento em que as métricas serão armazenadas no MLflow

1. `mlflow_run_name`: o nome desse experimento

Linha de comando

```
--override-parameters '{"recipes.run.mlflow_tracking_uri": "arn:aws:sagemaker:us-east-1:925548216816:mlflow-app/app-B6XOUNCHQM4W", "recipes.run.mlflow_experiment_name": "myuser-sft-lora-exp1", "recipes.run.mlflow_run_name": "myuser-sft-lora-exp1-202512181940"}'
```

YAML:

```
## Run config
run:
  mlflow_tracking_uri: "arn:aws:sagemaker:us-east-1:925548216816:mlflow-app/app-B6XOUNCHQM4W" 
  mlflow_experiment_name: "myuser-sft-lora-exp1"
  mlflow_run_name: "myuser-sft-lora-exp1-202512181940"
```

### Envio de uma tarefa por meio da interface do usuário do SageMaker Studio
<a name="submitting-job-ui"></a>

A integração com o MLflow já está incorporada à experiência da interface do usuário do SageMaker Studio. Ao enviar uma tarefa de treinamento, basta indicar qual instância da aplicação MLflow usar.

1. No SageMaker Studio, navegue até Modelos > Nova 2.0 Lite > Personalizar > Personalizar com a interface do usuário.

1. Expanda a seção Configuração avançada.

1. Selecione a aplicação MLflow para a qual você gostaria de enviar as métricas de treinamento. Você também pode definir o nome e a execução do experimento aqui.

![\[a aplicação MLflow.\]](http://docs.aws.amazon.com/pt_br/nova/latest/nova2-userguide/images/MLFlow-App.png)


### Envio de uma tarefa por meio da AWS AWS CLI
<a name="submitting-job-cli-aws"></a>

Se você usar a AWS AWS CLI, deverá criar uma aplicação MLflow e passá-la como uma entrada para a solicitação da API da tarefa de treinamento.

```
mlflow_app_name="<enter your MLflow app name>"
role_arn="<enter your role ARN>"
bucket_name="<enter your bucket name>"
region="<enter your region>"

mlflow_app_arn=$(aws sagemaker create-mlflow-app \
  --name $mlflow_app_name \
  --artifact-store-uri "s3://$bucket_name" \
  --role-arn $role_arn \
  --region $region)
```

## Criar uma aplicação MLflow
<a name="nova-model-monitor-mlflow-create"></a>

**Usando a interface do usuário do Studio**: se você criar uma tarefa de treinamento por meio da interface do usuário do Studio, uma aplicação MLflow padrão será criada automaticamente e estará selecionada por padrão em Opções avançadas.

**Usando a CLI**: se você usar a CLI, deverá criar uma aplicação MLflow e passá-la como uma entrada para a solicitação da API da tarefa de treinamento.

```
mlflow_app_name="<enter your MLflow app name>"
role_arn="<enter your role ARN>" 
bucket_name="<enter your bucket name>" 
region="<enter your region>"

mlflow_app_arn=$(aws sagemaker create-mlflow-app \
  --name $mlflow_app_name \
  --artifact-store-uri "s3://$bucket_name" \
  --role-arn $role_arn \
  --region $region)
```

## Acessar a aplicação MLflow
<a name="nova-model-monitor-mlflow-access"></a>

**Usando a CLI:** crie um URL pré-assinado para acessar a interface do usuário da aplicação MLflow:

```
aws sagemaker create-presigned-mlflow-app-url \
  --arn $mlflow_app_arn \
  --region $region \
  --output text
```

**Usando a interface do usuário do Studio:** a interface do usuário do Studio exibe as principais métricas armazenadas no MLflow e fornece um link para a interface do usuário da aplicação MLflow.

## Principais métricas a serem acompanhadas
<a name="nova-model-monitor-mlflow-metircs"></a>

Monitore essas métricas em todas as iterações para avaliar a melhoria e acompanhar o progresso da tarefa:

**No SFT**
+ Curvas de perda de treinamento
+ Número de amostras consumidas e tempo para processar amostras
+ Precisão de performance em conjuntos de teste retidos
+ Conformidade de formato (p. ex., taxa de saída JSON válida)
+ Perplexidade nos dados de avaliação específicos do domínio

**No RFT**
+ Pontuações médias de recompensa em relação ao treinamento
+ Distribuição de recompensas (porcentagem de respostas de alta recompensa)
+ Tendências de recompensa de validação (observe se há ajustes excessivos)
+ Taxas de sucesso específicas de tarefas (p. ex., taxa de aprovação de execução de código, precisão de problemas matemáticos)

**Geral**
+ Avaliação comparativa dos deltas de performance entre as iterações
+ Pontuações de avaliação humana em amostras representativas
+ Métricas de produção (se implantadas de forma iterativa)

## Determinação de quando parar
<a name="nova-model-monitor-mlflow-stop"></a>

Pare de iterar quando:
+ **Estagnação da performance**: o treinamento adicional não melhora mais significativamente as métricas-alvo
+ **Trocar de técnica ajuda**: se uma técnica estagnar, tente alternar (p. ex., SFT → RFT → SFT) para ultrapassar os limites de performance
+ **Métricas-alvo alcançadas**: seus critérios de sucesso foram atendidos
+ **Regressão detectada**: novas iterações degradam a performance (consulte os procedimentos de reversão abaixo)

Para obter procedimentos de avaliação detalhados, consulte a seção **Avaliação**.