As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Configurando funções de recompensa para modelos de peso aberto
As funções de recompensa avaliam a qualidade da resposta e fornecem sinais de feedback para o treinamento do modelo. Você pode configurar funções de recompensa usando funções personalizadas do Lambda. Escolha a abordagem que corresponda aos requisitos da sua tarefa.
Funções personalizadas do Lambda para avaliação de recompensas
Você pode configurar funções de recompensa usando funções personalizadas do Lambda. Em sua função Lambda, você tem flexibilidade na forma como implementa a lógica de avaliação:
-
Tarefas objetivas — Para tarefas objetivas, como geração de código ou raciocínio matemático, use avaliadores baseados em regras verificáveis que verifiquem a exatidão em relação a padrões ou casos de teste conhecidos.
-
Tarefas subjetivas — Para tarefas subjetivas, como acompanhamento de instruções ou interações com chatbots, chame os modelos da Amazon Bedrock Foundation como juízes em sua função Lambda para avaliar a qualidade da resposta com base em seus critérios.
Sua função Lambda pode implementar lógica complexa, integrar componentes externos APIs, realizar cálculos em várias etapas ou combinar vários critérios de avaliação, dependendo dos requisitos de sua tarefa.
nota
Ao usar funções personalizadas do Lambda:
-
Aumente o tempo limite do Lambda do padrão de 3 segundos para o máximo 15 minutos para avaliações complexas.
-
A função de execução do Lambda precisa de permissões para invocar a função Lambda, conforme descrito em. Permissões do Lambda para funções de recompensa
Detalhes da implementação da função Lambda
Ao implementar funções personalizadas de recompensa do Lambda, sua função deve aceitar e retornar dados no formato a seguir.
Diretrizes de design
Classifique as respostas — Dê à melhor resposta uma pontuação claramente mais alta
Use verificações consistentes — Avalie a conclusão da tarefa, a aderência ao formato, a segurança e a duração razoável
Mantenha o escalonamento estável — mantenha as pontuações normalizadas e não exploráveis