As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Personalize um modelo com ajuste fino de reforço no Amazon Bedrock
O ajuste fino por reforço é uma técnica de personalização de modelos no Amazon Bedrock que melhora o desempenho do modelo básico ao ensinar aos modelos o que constitui uma resposta “boa” por meio de sinais de feedback chamados recompensas. Ao contrário dos métodos tradicionais de ajuste fino que dependem de conjuntos de dados rotulados, o ajuste fino por reforço usa uma abordagem orientada por feedback que otimiza iterativamente o modelo para maximizar essas recompensas.
Aplicativos e cenários de ajuste fino de reforço
Use o ajuste fino de reforço quando puder definir critérios de sucesso claros e mensuráveis para avaliar a qualidade da resposta. O ajuste fino do reforço é excelente em domínios em que a qualidade da saída pode ser medida objetivamente, especialmente quando existem várias respostas válidas ou quando as respostas ideais são difíceis de definir antecipadamente. É ideal para:
Resolução de problemas matemáticos e geração de código (usando avaliadores baseados em regras para avaliação objetiva)
Raciocínio científico e análise estruturada de dados
Tarefas subjetivas, como acompanhamento de instruções, moderação de conteúdo e redação criativa (usando juízes baseados em IA)
Tarefas que exigem step-by-step raciocínio ou solução de problemas em vários turnos
Cenários com várias soluções válidas em que algumas são claramente melhores do que outras
Aplicações que equilibram vários objetivos (precisão, eficiência, estilo)
Aplicativos que exigem aprimoramento iterativo, personalização ou adesão a regras de negócios complexas
Cenários em que o sucesso pode ser verificado programaticamente por meio de resultados de execução ou métricas de desempenho
Casos em que coletar exemplos rotulados de alta qualidade é caro ou impraticável
Benefícios do ajuste fino do reforço
-
Melhor desempenho do modelo — O ajuste fino do reforço melhora a precisão do modelo em até 66%, em média, em comparação com os modelos básicos. Isso permite a otimização de preço e desempenho por meio do ajuste fino de variantes de modelos menores, mais rápidas e mais eficientes.
-
Facilidade de uso — O Amazon Bedrock automatiza a complexidade do ajuste fino do reforço, tornando-o acessível aos desenvolvedores que criam aplicativos de IA. Você pode ajustar os modelos usando seus conjuntos de dados enviados ou registros de invocação de API existentes. Você pode definir funções de recompensa que classificam as saídas do modelo com código personalizado usando o Lambda model-as-a-judge ou o grader, com modelos integrados que ajudam na configuração rápida.
-
Segurança e conformidade — Seus dados proprietários nunca saem AWS do ambiente seguro e controlado durante o processo de personalização.
Modelos compatíveis para ajuste fino do reforço
A tabela a seguir mostra os modelos de base que você pode personalizar com o ajuste fino do reforço:
| Fornecedor | Modelo | ID do modelo | Nome da região | Região |
|---|---|---|---|---|
| Amazon | Nova 2 Lite | amazon.nova-2-lite-v1:0:256k |
Leste dos EUA (Norte da Virgínia) |
us-east-1 |
| OpenAI | GPT-OSS-20b | openai.gpt-oss-20b | Oeste dos EUA (Oregon) | us-west-2 |
| Qwen | Qwen3 32B | qwen.qwen3-32b | Oeste dos EUA (Oregon) | us-west-2 |
Como funciona o ajuste fino do reforço
O Amazon Bedrock automatiza totalmente o fluxo de trabalho de ajuste fino de reforço. O modelo recebe solicitações do seu conjunto de dados de treinamento e gera várias respostas por solicitação. Essas respostas são então pontuadas por uma função de recompensa. O Amazon Bedrock usa os pares de resposta rápida com pontuações para treinar o modelo por meio do aprendizado baseado em políticas usando a Otimização de Política Relativa de Grupo (GRPO). O ciclo de treinamento continua até chegar ao final de seus dados de treinamento ou até você interromper o trabalho em um ponto de verificação escolhido, produzindo um modelo otimizado para a métrica que é importante para você.
Reforço e ajuste fino das melhores práticas
Comece pequeno — comece com 100-200 exemplos, valide a exatidão da função de recompensa e escale gradualmente com base nos resultados
Avaliação de pré-ajuste fino — Teste o desempenho do modelo básico antes do ajuste fino do reforço. Se as recompensas forem consistentemente de 0%, use primeiro o ajuste fino supervisionado para estabelecer as capacidades básicas. Se as recompensas forem maiores que 95 por cento, o ajuste fino do reforço pode ser desnecessário
Monitore o treinamento — Acompanhe as pontuações médias e a distribuição das recompensas. Cuidado com o ajuste excessivo (as recompensas de treinamento aumentam enquanto as recompensas de validação diminuem). Procure padrões preocupantes, como estabilização das recompensas abaixo de 0,15, aumento da variação da recompensa ao longo do tempo e diminuição do desempenho de validação
Otimize as funções de recompensa — execute em segundos (não em minutos), minimize as chamadas externas de API, use algoritmos eficientes, implemente o tratamento adequado de erros e aproveite o escalonamento paralelo do Lambda
Estratégia de iteração — Se as recompensas não estiverem melhorando, ajuste o design da função de recompensa, aumente a diversidade do conjunto de dados, adicione exemplos mais representativos e verifique se os sinais de recompensa são claros e consistentes