Ajuste fino por reforço (RFT) no SageMaker HyperPod
O ajuste fino por reforço (RFT) é uma técnica de machine learning que melhora o desempenho do modelo por meio de sinais de feedback (pontuações mensuráveis ou recompensas indicando a qualidade da resposta) em vez de supervisão direta com respostas corretas exatas. Ao contrário do ajuste fino supervisionado tradicional que aprende com pares de entrada e saída, o RFT usa funções de recompensa para avaliar as respostas do modelo e otimiza iterativamente o modelo para maximizar essas recompensas.
Essa abordagem é particularmente eficaz para tarefas em que definir a saída exata correta é um desafio, mas você pode avaliar com segurança a qualidade da resposta. O RFT permite que os modelos aprendam comportamentos e preferências complexos por meio de testes e feedback, tornando-os ideais para aplicações que exigem uma tomada de decisão diferenciada, solução criativa de problemas ou adesão a critérios de qualidade específicos que podem ser avaliados de forma programática.
Quando usar o RFT
Use o RFT quando você puder definir critérios de sucesso claros e mensuráveis, mas tiver dificuldade em fornecer resultados exatos e corretos para o treinamento. É ideal para tarefas em que a qualidade é subjetiva ou multifacetada, como escrita criativa, otimização de código ou raciocínio complexo, em que existem várias soluções válidas, mas algumas são claramente melhores do que outras.
O RFT funciona melhor quando você tem o seguinte:
-
Uma função de recompensa confiável que pode avaliar as saídas do modelo de forma programática
-
Necessidade de alinhar o comportamento do modelo com preferências ou restrições específicas
-
Situações em que o ajuste fino supervisionado tradicional é insuficiente porque coletar exemplos rotulados de alta qualidade é caro ou impraticável
Considere o RFT para aplicações que exigem aprimoramento iterativo, personalização ou adesão a regras de negócios complexas que podem ser codificadas como sinais de recompensa.
Casos de uso ideais para o RFT
O RFT se destaca em domínios em que a qualidade da saída pode ser avaliada objetivamente, mas as respostas ideais são difíceis de definir de antemão:
-
Resolução de problemas matemáticos: verificabilidade da exatidão por meio de diversos caminhos de resolução
-
Geração e otimização de código: resultados de execução testáveis e métricas de desempenho
-
Tarefas de raciocínio científico: consistência lógica e precisão factual
-
Análise de dados estruturados: saídas verificáveis programaticamente
-
Raciocínio em várias etapas: tarefas que exigem progressão lógica passo a passo
-
Uso de ferramentas e chamadas de API: sucesso mensurável pelos resultados da execução
-
Fluxos de trabalho complexos: adesão a restrições e regras de negócios específicas
O RFT funciona excepcionalmente bem quando você precisa equilibrar vários objetivos concorrentes, como precisão, eficiência e estilo.
Quando usar o modo de raciocínio para o treinamento via RFT
O Amazon Nova 2.0 é compatível com o modo de raciocínio durante o treinamento via RFT. Os seguintes modos estão disponíveis:
-
none: sem raciocínio (omita o campo reasoning_effort)
-
low: sobrecarga mínima de raciocínio
-
high: capacidade máxima de raciocínio (padrão quando reasoning_effort é especificado)
nota
Não há a opção medium para o RFT. Se o campo reasoning_effort estiver ausente da sua configuração, o raciocínio será desabilitado.
Use raciocínio high para o seguinte:
-
Tarefas analíticas complexas
-
Resolução de problemas matemáticos
-
Dedução lógica de várias etapas
-
Tarefas em que o pensamento passo a passo agrega valor
Use o raciocínio low ou none (omita reasoning_effort) para o seguinte:
-
Consultas factuais simples
-
Classificações diretas
-
Velocidade e otimização de custos
-
Respostas diretas a perguntas
Importante
Modos de raciocínio mais altos aumentam o tempo e o custo do treinamento bem como a latência e o custo da inferência, mas também aumentam a capacidade do modelo para tarefas complexas de raciocínio.
Modelos compatíveis
O RFT onSageMaker HyperPod é compatível com o Amazon Nova Lite 2.0 (amazon.nova-2-lite-v1:0:256k).
Principais etapas
O processo de RFT envolve quatro fases principais:
-
Implementação de um avaliador: crie uma função de recompensa para pontuar programaticamente as respostas do modelo com base em seus critérios de qualidade.
-
Carregamento de prompts: prepare e carregue dados de treinamento no formato conversacional específico com dados de referência para avaliação.
-
Início de uma tarefa: inicie o processo de ajuste fino por reforço com seus parâmetros configurados.
-
Monitoramento: acompanhe o progresso do treinamento por meio de painéis de métricas para garantir que o modelo aprenda de forma eficaz.
Cada etapa se baseia na anterior, com o avaliador servindo como base que orienta todo o processo de treinamento, fornecendo sinais de feedback consistentes.