

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Configuración de funciones de recompensa para los modelos Amazon Nova
<a name="reward-functions"></a>

Las funciones de recompensa evalúan la calidad de la respuesta y proporcionan señales de retroalimentación para el entrenamiento del modelo. Puede configurar las funciones de recompensa utilizando funciones Lambda personalizadas o modelos básicos alojados en Amazon Bedrock como jueces. Hay disponibles plantillas guiadas para simplificar la creación de funciones de recompensa para tareas comunes, como el seguimiento de las instrucciones y la validación del formato. Elija el enfoque que se adapte a los requisitos de su tarea.

## Refuerce el aprendizaje mediante recompensas verificables (RLVR)
<a name="rft-rlvr"></a>

El RLVR optimiza los modelos para tareas objetivas, como la generación de código o el razonamiento matemático, mediante calificadores o plantillas verificables basados en reglas. ready-to-use

Tiene dos opciones para el RLVR (código personalizado):

### Opción 1: utilice plantillas proporcionadas por la consola
<a name="w2aac15c25c17c17b5b7b1"></a>

La consola Amazon Bedrock proporciona plantillas de muestra para las funciones Lambda de la niveladora:
+ Razonamiento matemático con verificación de la verdad fundamental
+ Validación de formatos y comprobación de restricciones
+ Plantilla Lambda genérica para grader con código repetitivo

Siga las instrucciones de la plantilla proporcionada en la página **Crear trabajo de RFT** de la consola de [Amazon Bedrock](https://console.aws.amazon.com/bedrock).

### Opción 2: traiga su propia función Lambda
<a name="w2aac15c25c17c17b5b7b3"></a>

Cree funciones de recompensa personalizadas con su propio ARN de Lambda para cálculos lógicos complejos, externos APIs o de varios pasos, o para combinar varios criterios de evaluación.

**nota**  
Si trae su propia función Lambda, tenga en cuenta lo siguiente:  
Aumente el tiempo de espera de Lambda de 3 segundos por defecto a un máximo de 15 minutos para evaluaciones complejas.
La función de ejecución de Lambda necesita permisos para invocar modelos, tal y como se describe en. [Acceso y seguridad para los modelos Amazon Nova](rft-access-security.md)

## Aprendizaje reforzado a través de la retroalimentación de la IA (RLAIF)
<a name="rft-rlaif"></a>

El RLAIF optimiza los modelos para tareas subjetivas, como el seguimiento de instrucciones o las interacciones con los chatbots, utilizando jueces basados en la IA y con plantillas. ready-to-use

**Para la RLAIF (Model as Judge):**
+ Seleccione un modelo base hospedado en Amazon Bedrock como juez
+ Configure las instrucciones para la evaluación
+ Defina los criterios de evaluación y las pautas de puntuación

Plantillas LLM-as-Judge de mensajes disponibles en la consola Amazon Bedrock:
+ Instrucción siguiente (modelo de formación para jueces)
+ Resumen (diálogos de varios turnos)
+ Evaluación del razonamiento (CoT para dominios especializados)
+ Fidelidad RAG (preguntas y respuestas basadas en el contexto)

**nota**  
La opción **Model as Judge** de la consola convierte automáticamente la configuración en una función Lambda durante el entrenamiento.

## Detalles de implementación de la función Lambda
<a name="rft-lambda-implementation"></a>

Al implementar funciones de recompensa de Lambda personalizadas, la función debe aceptar y devolver datos en el siguiente formato.

------
#### [ Input structure ]

```
[{
  "id": "123",
  "messages": [
    {
      "role": "user",
      "content": "Do you have a dedicated security team?"
    },
    {
      "role": "assistant",
      "content": "As an AI developed by Amazon, I don not have a dedicated security team..."
    }
  ],
  "metadata": {
    "reference_answer": {
      "compliant": "No",
      "explanation": "As an AI developed by Company, I do not have a traditional security team..."
    },
    "my_key": "sample-001"
  }
}]
```

------
#### [ Output structure ]

```
[{
  "id": "123",
  "aggregate_reward_score": 0.85,
  "metrics_list": [
    {
      "name": "accuracy",
      "value": 0.9,
      "type": "Reward"
    },
    {
      "name": "policy_compliance",
      "value": 0.8,
      "type": "Metric"
    }
  ]
}]
```

------

**Directrices de diseño**
+ **Clasifique las respuestas**: otorgue a la mejor respuesta una puntuación claramente más alta
+ **Utilice controles consistentes**: evalúe la finalización de las tareas, el cumplimiento del formato, la seguridad y la duración razonable
+ **Mantenga una escala estable**: mantenga las puntuaciones normalizadas y que no sean explotables