

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Configurazione delle funzioni di ricompensa per i modelli Amazon Nova
<a name="reward-functions"></a>

Le funzioni di ricompensa valutano la qualità della risposta e forniscono segnali di feedback per l'addestramento dei modelli. Puoi configurare funzioni di ricompensa utilizzando funzioni Lambda personalizzate o modelli di base ospitati da Amazon Bedrock come giudici. Sono disponibili modelli guidati per semplificare la creazione di funzioni di ricompensa per attività comuni come seguire le istruzioni e convalidare il formato. Scegliete l'approccio più adatto ai requisiti delle vostre attività.

## Apprendimento per rinforzo tramite Verifiable Rewards (RLVR)
<a name="rft-rlvr"></a>

RLVR ottimizza i modelli per attività oggettive come la generazione di codice o il ragionamento matematico utilizzando classificatori o modelli verificabili basati su regole. ready-to-use

Sono disponibili due opzioni per RLVR (codice personalizzato):

### Opzione 1: utilizza i modelli forniti dalla console
<a name="w2aac15c25c17c17b5b7b1"></a>

La console Amazon Bedrock fornisce modelli di esempio per le funzioni Grader Lambda:
+ Ragionamento matematico con verifica della verità fondamentale
+ Convalida del formato e controllo dei vincoli
+ Modello Lambda di livellatrice generico con codice standard

Segui le istruzioni nel modello fornito nella pagina **Crea lavoro RFT** nella console [Amazon Bedrock](https://console.aws.amazon.com/bedrock).

### Opzione 2: porta la tua funzione Lambda
<a name="w2aac15c25c17c17b5b7b3"></a>

Crea funzioni di ricompensa personalizzate utilizzando il tuo Lambda ARN per logiche complesse, calcoli esterni in più fasi o APIs combinando più criteri di valutazione.

**Nota**  
Se utilizzi la tua funzione Lambda, tieni presente quanto segue:  
Aumenta il timeout Lambda dal valore predefinito di 3 secondi a un massimo di 15 minuti per valutazioni complesse.
Il ruolo di esecuzione Lambda necessita delle autorizzazioni per richiamare i modelli come descritto in. [Accesso e sicurezza per i modelli Amazon Nova](rft-access-security.md)

## Apprendimento per rinforzo tramite AI Feedback (RLAIF)
<a name="rft-rlaif"></a>

RLAIF ottimizza i modelli per attività soggettive come seguire le istruzioni o interagire con i chatbot utilizzando giudici basati sull'intelligenza artificiale con modelli. ready-to-use

**Per RLAIF (Model as Judge):**
+ Seleziona un modello base ospitato su Amazon Bedrock come giudice
+ Configura le istruzioni per la valutazione
+ Definisci i criteri di valutazione e le linee guida per il punteggio

Modelli di LLM-as-Judge prompt disponibili nella console Amazon Bedrock:
+ Seguono le istruzioni (formazione modello Judge)
+ Riepilogo (dialoghi a più turni)
+ Valutazione del ragionamento (CoT per domini specializzati)
+ Fedeltà RAG (domande e risposte basate sul contesto)

**Nota**  
L'opzione **Model as Judge** della console converte automaticamente la configurazione in una funzione Lambda durante l'allenamento.

## Dettagli sull'implementazione della funzione Lambda
<a name="rft-lambda-implementation"></a>

Quando si implementano funzioni di ricompensa Lambda personalizzate, la funzione deve accettare e restituire dati nel seguente formato.

------
#### [ Input structure ]

```
[{
  "id": "123",
  "messages": [
    {
      "role": "user",
      "content": "Do you have a dedicated security team?"
    },
    {
      "role": "assistant",
      "content": "As an AI developed by Amazon, I don not have a dedicated security team..."
    }
  ],
  "metadata": {
    "reference_answer": {
      "compliant": "No",
      "explanation": "As an AI developed by Company, I do not have a traditional security team..."
    },
    "my_key": "sample-001"
  }
}]
```

------
#### [ Output structure ]

```
[{
  "id": "123",
  "aggregate_reward_score": 0.85,
  "metrics_list": [
    {
      "name": "accuracy",
      "value": 0.9,
      "type": "Reward"
    },
    {
      "name": "policy_compliance",
      "value": 0.8,
      "type": "Metric"
    }
  ]
}]
```

------

**Linee guida di progettazione**
+ **Classizza le risposte**: assegna alla risposta migliore un punteggio chiaramente più alto
+ **Utilizza controlli coerenti**: valuta il completamento delle attività, la conformità al formato, la sicurezza e la durata ragionevole
+ **Mantieni una scalabilità stabile: mantieni i** punteggi normalizzati e non sfruttabili