Ajuste fino por reforço (RFT) no SageMaker HyperPod

O ajuste fino por reforço (RFT) é uma técnica de machine learning que melhora o desempenho do modelo por meio de sinais de feedback (pontuações mensuráveis ou recompensas indicando a qualidade da resposta) em vez de supervisão direta com respostas corretas exatas. Ao contrário do ajuste fino supervisionado tradicional que aprende com pares de entrada e saída, o RFT usa funções de recompensa para avaliar as respostas do modelo e otimiza iterativamente o modelo para maximizar essas recompensas.

Essa abordagem é particularmente eficaz para tarefas em que definir a saída exata correta é um desafio, mas você pode avaliar com segurança a qualidade da resposta. O RFT permite que os modelos aprendam comportamentos e preferências complexos por meio de testes e feedback, tornando-os ideais para aplicações que exigem uma tomada de decisão diferenciada, solução criativa de problemas ou adesão a critérios de qualidade específicos que podem ser avaliados de forma programática.

Quando usar o RFT

Use o RFT quando você puder definir critérios de sucesso claros e mensuráveis, mas tiver dificuldade em fornecer resultados exatos e corretos para o treinamento. É ideal para tarefas em que a qualidade é subjetiva ou multifacetada, como escrita criativa, otimização de código ou raciocínio complexo, em que existem várias soluções válidas, mas algumas são claramente melhores do que outras.

O RFT funciona melhor quando você tem o seguinte:

Uma função de recompensa confiável que pode avaliar as saídas do modelo de forma programática
Necessidade de alinhar o comportamento do modelo com preferências ou restrições específicas
Situações em que o ajuste fino supervisionado tradicional é insuficiente porque coletar exemplos rotulados de alta qualidade é caro ou impraticável

Considere o RFT para aplicações que exigem aprimoramento iterativo, personalização ou adesão a regras de negócios complexas que podem ser codificadas como sinais de recompensa.

Casos de uso ideais para o RFT

O RFT se destaca em domínios em que a qualidade da saída pode ser avaliada objetivamente, mas as respostas ideais são difíceis de definir de antemão:

Resolução de problemas matemáticos: verificabilidade da exatidão por meio de diversos caminhos de resolução
Geração e otimização de código: resultados de execução testáveis e métricas de desempenho
Tarefas de raciocínio científico: consistência lógica e precisão factual
Análise de dados estruturados: saídas verificáveis programaticamente
Raciocínio em várias etapas: tarefas que exigem progressão lógica passo a passo
Uso de ferramentas e chamadas de API: sucesso mensurável pelos resultados da execução
Fluxos de trabalho complexos: adesão a restrições e regras de negócios específicas

O RFT funciona excepcionalmente bem quando você precisa equilibrar vários objetivos concorrentes, como precisão, eficiência e estilo.

Quando usar o modo de raciocínio para o treinamento via RFT

O Amazon Nova 2.0 é compatível com o modo de raciocínio durante o treinamento via RFT. Os seguintes modos estão disponíveis:

none: sem raciocínio (omita o campo reasoning_effort)
low: sobrecarga mínima de raciocínio
high: capacidade máxima de raciocínio (padrão quando reasoning_effort é especificado)

nota

Não há a opção medium para o RFT. Se o campo reasoning_effort estiver ausente da sua configuração, o raciocínio será desabilitado.

Use raciocínio high para o seguinte:

Tarefas analíticas complexas
Resolução de problemas matemáticos
Dedução lógica de várias etapas
Tarefas em que o pensamento passo a passo agrega valor

Use o raciocínio low ou none (omita reasoning_effort) para o seguinte:

Consultas factuais simples
Classificações diretas
Velocidade e otimização de custos
Respostas diretas a perguntas

Importante

Modos de raciocínio mais altos aumentam o tempo e o custo do treinamento bem como a latência e o custo da inferência, mas também aumentam a capacidade do modelo para tarefas complexas de raciocínio.

Modelos compatíveis

O RFT onSageMaker HyperPod é compatível com o Amazon Nova Lite 2.0 (amazon.nova-2-lite-v1:0:256k).

Principais etapas

O processo de RFT envolve quatro fases principais:

Implementação de um avaliador: crie uma função de recompensa para pontuar programaticamente as respostas do modelo com base em seus critérios de qualidade.
Carregamento de prompts: prepare e carregue dados de treinamento no formato conversacional específico com dados de referência para avaliação.
Início de uma tarefa: inicie o processo de ajuste fino por reforço com seus parâmetros configurados.
Monitoramento: acompanhe o progresso do treinamento por meio de painéis de métricas para garantir que o modelo aprenda de forma eficaz.

Cada etapa se baseia na anterior, com o avaliador servindo como base que orienta todo o processo de treinamento, fornecendo sinais de feedback consistentes.

Tópicos

RFT no Nova 2.0

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

SFT no Nova 2.0

RFT no Nova 2.0