Configurando funções de recompensa para modelos de peso aberto - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Configurando funções de recompensa para modelos de peso aberto

As funções de recompensa avaliam a qualidade da resposta e fornecem sinais de feedback para o treinamento do modelo. Você pode configurar funções de recompensa usando funções personalizadas do Lambda. Escolha a abordagem que corresponda aos requisitos da sua tarefa.

Funções personalizadas do Lambda para avaliação de recompensas

Você pode configurar funções de recompensa usando funções personalizadas do Lambda. Em sua função Lambda, você tem flexibilidade na forma como implementa a lógica de avaliação:

  • Tarefas objetivas — Para tarefas objetivas, como geração de código ou raciocínio matemático, use avaliadores baseados em regras verificáveis que verifiquem a exatidão em relação a padrões ou casos de teste conhecidos.

  • Tarefas subjetivas — Para tarefas subjetivas, como acompanhamento de instruções ou interações com chatbots, chame os modelos da Amazon Bedrock Foundation como juízes em sua função Lambda para avaliar a qualidade da resposta com base em seus critérios.

Sua função Lambda pode implementar lógica complexa, integrar componentes externos APIs, realizar cálculos em várias etapas ou combinar vários critérios de avaliação, dependendo dos requisitos de sua tarefa.

nota

Ao usar funções personalizadas do Lambda:

  • Aumente o tempo limite do Lambda do padrão de 3 segundos para o máximo 15 minutos para avaliações complexas.

  • A função de execução do Lambda precisa de permissões para invocar a função Lambda, conforme descrito em. Permissões do Lambda para funções de recompensa

Detalhes da implementação da função Lambda

Ao implementar funções personalizadas de recompensa do Lambda, sua função deve aceitar e retornar dados no formato a seguir.

Input structure
[{ "id": "123", "messages": [ { "role": "user", "content": "Do you have a dedicated security team?" }, { "role": "assistant", "content": "As an AI developed by Amazon, I don not have a dedicated security team..." } ], "metadata": { "reference_answer": { "compliant": "No", "explanation": "As an AI developed by Company, I do not have a traditional security team..." }, "my_key": "sample-001" } }]
Output structure
[{ "id": "123", "aggregate_reward_score": 0.85, "metrics_list": [ { "name": "accuracy", "value": 0.9, "type": "Reward" }, { "name": "policy_compliance", "value": 0.8, "type": "Metric" } ] }]

Diretrizes de design

  • Classifique as respostas — Dê à melhor resposta uma pontuação claramente mais alta

  • Use verificações consistentes — Avalie a conclusão da tarefa, a aderência ao formato, a segurança e a duração razoável

  • Mantenha o escalonamento estável — mantenha as pontuações normalizadas e não exploráveis