

# Ajuste fino por reforço (RFT) no SageMaker HyperPod
<a name="nova-hp-rft"></a>

O ajuste fino por reforço (RFT) é uma técnica de machine learning que melhora o desempenho do modelo por meio de sinais de feedback (pontuações mensuráveis ou recompensas indicando a qualidade da resposta) em vez de supervisão direta com respostas corretas exatas. Ao contrário do ajuste fino supervisionado tradicional que aprende com pares de entrada e saída, o RFT usa funções de recompensa para avaliar as respostas do modelo e otimiza iterativamente o modelo para maximizar essas recompensas.

Essa abordagem é particularmente eficaz para tarefas em que definir a saída exata correta é um desafio, mas você pode avaliar com segurança a qualidade da resposta. O RFT permite que os modelos aprendam comportamentos e preferências complexos por meio de testes e feedback, tornando-os ideais para aplicações que exigem uma tomada de decisão diferenciada, solução criativa de problemas ou adesão a critérios de qualidade específicos que podem ser avaliados de forma programática.

**Quando usar o RFT**  
Use o RFT quando você puder definir critérios de sucesso claros e mensuráveis, mas tiver dificuldade em fornecer resultados exatos e corretos para o treinamento. É ideal para tarefas em que a qualidade é subjetiva ou multifacetada, como escrita criativa, otimização de código ou raciocínio complexo, em que existem várias soluções válidas, mas algumas são claramente melhores do que outras.

O RFT funciona melhor quando você tem o seguinte:
+ Uma função de recompensa confiável que pode avaliar as saídas do modelo de forma programática
+ Necessidade de alinhar o comportamento do modelo com preferências ou restrições específicas
+ Situações em que o ajuste fino supervisionado tradicional é insuficiente porque coletar exemplos rotulados de alta qualidade é caro ou impraticável

Considere o RFT para aplicações que exigem aprimoramento iterativo, personalização ou adesão a regras de negócios complexas que podem ser codificadas como sinais de recompensa.

**Casos de uso ideais para o RFT**  
O RFT se destaca em domínios em que a qualidade da saída pode ser avaliada objetivamente, mas as respostas ideais são difíceis de definir de antemão:
+ **Resolução de problemas matemáticos**: verificabilidade da exatidão por meio de diversos caminhos de resolução
+ **Geração e otimização de código**: resultados de execução testáveis e métricas de desempenho
+ **Tarefas de raciocínio científico**: consistência lógica e precisão factual
+ **Análise de dados estruturados**: saídas verificáveis programaticamente
+ **Raciocínio em várias etapas**: tarefas que exigem progressão lógica passo a passo
+ **Uso de ferramentas e chamadas de API**: sucesso mensurável pelos resultados da execução
+ **Fluxos de trabalho complexos**: adesão a restrições e regras de negócios específicas

O RFT funciona excepcionalmente bem quando você precisa equilibrar vários objetivos concorrentes, como precisão, eficiência e estilo.

**Quando usar o modo de raciocínio para o treinamento via RFT**  
O Amazon Nova 2.0 é compatível com o modo de raciocínio durante o treinamento via RFT. Os seguintes modos estão disponíveis:
+ **none**: sem raciocínio (omita o campo reasoning\_effort)
+ **low**: sobrecarga mínima de raciocínio
+ **high**: capacidade máxima de raciocínio (padrão quando reasoning\_effort é especificado)

**nota**  
Não há a opção medium para o RFT. Se o campo reasoning\_effort estiver ausente da sua configuração, o raciocínio será desabilitado.

Use raciocínio high para o seguinte:
+ Tarefas analíticas complexas
+ Resolução de problemas matemáticos
+ Dedução lógica de várias etapas
+ Tarefas em que o pensamento passo a passo agrega valor

Use o raciocínio low ou none (omita reasoning\_effort) para o seguinte:
+ Consultas factuais simples
+ Classificações diretas
+ Velocidade e otimização de custos
+ Respostas diretas a perguntas

**Importante**  
Modos de raciocínio mais altos aumentam o tempo e o custo do treinamento bem como a latência e o custo da inferência, mas também aumentam a capacidade do modelo para tarefas complexas de raciocínio.

**Modelos compatíveis**  
O RFT onSageMaker HyperPod é compatível com o Amazon Nova Lite 2.0 (amazon.nova-2-lite-v1:0:256k).

**Principais etapas**  
O processo de RFT envolve quatro fases principais:
+ **Implementação de um avaliador**: crie uma função de recompensa para pontuar programaticamente as respostas do modelo com base em seus critérios de qualidade.
+ **Carregamento de prompts**: prepare e carregue dados de treinamento no formato conversacional específico com dados de referência para avaliação.
+ **Início de uma tarefa**: inicie o processo de ajuste fino por reforço com seus parâmetros configurados.
+ **Monitoramento**: acompanhe o progresso do treinamento por meio de painéis de métricas para garantir que o modelo aprenda de forma eficaz.

Cada etapa se baseia na anterior, com o avaliador servindo como base que orienta todo o processo de treinamento, fornecendo sinais de feedback consistentes.

**Topics**
+ [RFT no Nova 2.0](nova-hp-rft-nova2.md)