

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Configurando funções de recompensa para modelos Amazon Nova
Configurando funções de recompensa

As funções de recompensa avaliam a qualidade da resposta e fornecem sinais de feedback para o treinamento do modelo. Você pode configurar funções de recompensa usando funções personalizadas do Lambda ou modelos de fundação hospedados no Amazon Bedrock como juízes. Modelos guiados estão disponíveis para simplificar a criação de funções de recompensa para tarefas comuns, como acompanhamento de instruções e validação de formato. Escolha a abordagem que corresponda aos requisitos da sua tarefa.

## Aprendizagem por reforço por meio de recompensas verificáveis (RLVR)


O RLVR otimiza modelos para tarefas objetivas, como geração de código ou raciocínio matemático, usando avaliadores ou modelos baseados em regras verificáveis. ready-to-use

Você tem duas opções para RLVR (Código Personalizado):

### Opção 1: usar modelos fornecidos pelo console


O console Amazon Bedrock fornece exemplos de modelos para as funções do nivelador Lambda:
+ Raciocínio matemático com verificação da verdade básica
+ Validação de formato e verificação de restrições
+ Modelo Lambda de avaliador genérico com código padronizado

Siga as instruções no modelo fornecido na página de **trabalho Create RFT** no console [Amazon Bedrock](https://console.aws.amazon.com/bedrock).

### Opção 2: Traga sua própria função Lambda


Crie funções de recompensa personalizadas usando seu próprio ARN do Lambda para cálculos lógicos complexos APIs, externos e de várias etapas ou combinando vários critérios de avaliação.

**nota**  
Se você trouxer sua própria função Lambda, tenha em mente o seguinte:  
Aumente o tempo limite do Lambda do padrão de 3 segundos para o máximo 15 minutos para avaliações complexas.
A função de execução do Lambda precisa de permissões para invocar modelos, conforme descrito em. [Acesso e segurança para modelos Amazon Nova](rft-access-security.md)

## Aprendizagem por reforço por meio de feedback de IA (RLAIF)


O RLAIF otimiza modelos para tarefas subjetivas, como acompanhamento de instruções ou interações de chatbots, usando juízes baseados em IA com modelos. ready-to-use

**Para RLAIF (modelo como juiz):**
+ Selecione um modelo base hospedado no Amazon Bedrock como juiz
+ Configurar instruções para avaliação
+ Definir critérios de avaliação e diretrizes de pontuação

Modelos de LLM-as-Judge prompt disponíveis no console Amazon Bedrock:
+ Instrução seguinte (treinamento do modelo Judge)
+ Sumarização (caixas de diálogo com várias voltas)
+ Avaliação do raciocínio (CoT para domínios especializados)
+ Fidelidade ao RAG (perguntas e respostas baseadas no contexto)

**nota**  
A opção **Model as Judge** do console converte automaticamente sua configuração em uma função Lambda durante o treinamento.

## Detalhes da implementação da função Lambda


Ao implementar funções personalizadas de recompensa do Lambda, sua função deve aceitar e retornar dados no formato a seguir.

------
#### [ Input structure ]

```
[{
  "id": "123",
  "messages": [
    {
      "role": "user",
      "content": "Do you have a dedicated security team?"
    },
    {
      "role": "assistant",
      "content": "As an AI developed by Amazon, I don not have a dedicated security team..."
    }
  ],
  "metadata": {
    "reference_answer": {
      "compliant": "No",
      "explanation": "As an AI developed by Company, I do not have a traditional security team..."
    },
    "my_key": "sample-001"
  }
}]
```

------
#### [ Output structure ]

```
[{
  "id": "123",
  "aggregate_reward_score": 0.85,
  "metrics_list": [
    {
      "name": "accuracy",
      "value": 0.9,
      "type": "Reward"
    },
    {
      "name": "policy_compliance",
      "value": 0.8,
      "type": "Metric"
    }
  ]
}]
```

------

**Diretrizes de design**
+ **Classifique as respostas** — Dê à melhor resposta uma pontuação claramente mais alta
+ **Use verificações consistentes** — Avalie a conclusão da tarefa, a aderência ao formato, a segurança e a duração razoável
+ **Mantenha o escalonamento estável** — mantenha as pontuações normalizadas e não exploráveis