Aplicativos e cenários de ajuste fino de reforço Benefícios do ajuste fino do reforço Modelos compatíveis para ajuste fino de reforços Como funciona o ajuste fino do reforço Reforço e ajuste fino das melhores práticas

Personalize um modelo com ajuste fino de reforço no Amazon Bedrock

O ajuste fino por reforço é uma técnica de personalização de modelos no Amazon Bedrock que melhora o desempenho do modelo básico ao ensinar aos modelos o que constitui uma resposta “boa” por meio de sinais de feedback chamados recompensas. Ao contrário dos métodos tradicionais de ajuste fino que dependem de conjuntos de dados rotulados, o ajuste fino por reforço usa uma abordagem orientada por feedback que otimiza iterativamente o modelo para maximizar essas recompensas.

Aplicativos e cenários de ajuste fino de reforço

Use o ajuste fino de reforço quando puder definir critérios de sucesso claros e mensuráveis para avaliar a qualidade da resposta. O ajuste fino do reforço é excelente em domínios em que a qualidade da saída pode ser medida objetivamente, especialmente quando existem várias respostas válidas ou quando as respostas ideais são difíceis de definir antecipadamente. É ideal para:

Resolução de problemas matemáticos e geração de código (usando avaliadores baseados em regras para avaliação objetiva)
Raciocínio científico e análise de dados estruturados
Tarefas subjetivas, como acompanhamento de instruções, moderação de conteúdo e redação criativa (usando AI-based juízes)
Tarefas que exigem raciocínio passo a passo ou solução de problemas em vários turnos
Cenários com várias soluções válidas em que algumas são claramente melhores do que outras
Aplicações que equilibram vários objetivos (precisão, eficiência, estilo)
Aplicações que exigem aprimoramento iterativo, personalização ou adesão a regras de negócios complexas
Cenários em que o sucesso pode ser verificado de forma programática por meio de resultados de execução ou métricas de desempenho
Casos em que coletar exemplos rotulados de alta qualidade é caro ou impraticável

Benefícios do ajuste fino do reforço

Desempenho aprimorado do modelo — O ajuste fino do reforço melhora a precisão do modelo em até 66%, em média, em comparação com os modelos básicos. Isso permite a otimização de preço e desempenho por meio do ajuste fino de variantes de modelos menores, mais rápidas e mais eficientes.
Facilidade de uso — O Amazon Bedrock automatiza a complexidade do ajuste fino do reforço, tornando-o acessível aos desenvolvedores que criam aplicativos de IA. Você pode ajustar os modelos usando seus conjuntos de dados enviados ou registros de invocação de API existentes. Você pode definir funções de recompensa que avaliam as saídas do modelo com código personalizado usando o Lambda ou o avaliador de modelo como juiz, com modelos integrados que ajudam na configuração rápida.
Segurança e conformidade — Seus dados proprietários nunca saem AWS do ambiente seguro e controlado durante o processo de personalização.

Modelos compatíveis para ajuste fino de reforços

A tabela a seguir mostra os modelos de base que você pode personalizar com o ajuste fino do reforço:

Modelos compatíveis para ajuste fino de reforços
Fornecedor	Modelo	ID do modelo	Nome da região	Região
Amazon	Nova 2 Lite	amazon.nova-2-lite-v1:0:256k	Leste dos EUA (Norte da Virgínia)	us-east-1
OpenAI	GPT-OSS-20b	openai.gpt-oss-20b	Oeste dos EUA (Oregon)	us-west-2
Qwen	Qwen3 32B	qwen.qwen3-32b	Oeste dos EUA (Oregon)	us-west-2

Como funciona o ajuste fino do reforço

O Amazon Bedrock automatiza totalmente o fluxo de trabalho de ajuste fino de reforço. O modelo recebe solicitações do seu conjunto de dados de treinamento e gera várias respostas por solicitação. Essas respostas são então pontuadas por uma função de recompensa. O Amazon Bedrock usa os pares de resposta rápida com pontuações para treinar o modelo por meio do aprendizado baseado em políticas usando a Otimização de Política Relativa de Grupo (GRPO). O ciclo de treinamento continua até chegar ao final de seus dados de treinamento ou até você interromper o trabalho em um ponto de verificação escolhido, produzindo um modelo otimizado para a métrica que é importante para você.

Reforço e ajuste fino das melhores práticas

Comece pequeno — comece com 100-200 exemplos, valide a exatidão da função de recompensa e escale gradualmente com base nos resultados
Avaliação de pré-ajuste fino — Teste o desempenho do modelo de linha de base antes do ajuste fino do reforço. Se as recompensas forem consistentemente de 0%, use primeiro o ajuste fino supervisionado para estabelecer as capacidades básicas. Se as recompensas forem maiores que 95 por cento, o ajuste fino do reforço pode ser desnecessário
Monitore o treinamento — Acompanhe as pontuações médias e a distribuição das recompensas. Cuidado com o ajuste excessivo (as recompensas de treinamento aumentam enquanto as recompensas de validação diminuem). Procure padrões preocupantes, como estabilização das recompensas abaixo de 0,15, aumento da variação da recompensa ao longo do tempo e diminuição do desempenho de validação
Otimize as funções de recompensa — Execute em segundos (não em minutos), minimize as chamadas externas de API, use algoritmos eficientes, implemente o tratamento adequado de erros e aproveite o escalonamento paralelo do Lambda
Estratégia de iteração — Se as recompensas não estiverem melhorando, ajuste o design da função de recompensa, aumente a diversidade do conjunto de dados, adicione exemplos mais representativos e verifique se os sinais de recompensa são claros e consistentes

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Envie um trabalho de ajuste fino do modelo

Fine-tune Modelos Amazon Nova