Refinamiento por refuerzo (RFT) en SageMaker HyperPod

El refinamiento por refuerzo (RFT) es una técnica de machine learning que mejora el rendimiento del modelo mediante señales de comentarios (puntuaciones medibles o recompensas que indican la calidad de la respuesta) en lugar de una supervisión directa con respuestas exactas y correctas. A diferencia del refinamiento supervisado tradicional, que aprende de los pares de entradas y salidas, el RFT utiliza funciones de recompensas para evaluar las respuestas del modelo y lo optimiza de forma iterativa para maximizar estas recompensas.

Este enfoque es particularmente eficaz para tareas en las que es difícil definir el resultado exacto correcto, pero le permite medir de forma fiable la calidad de la respuesta. El RFT permite a los modelos aprender comportamientos y preferencias complejos mediante pruebas y comentarios, lo que lo hace ideal para aplicaciones que requieren una toma de decisiones matizada, una resolución de problemas creativa o el cumplimiento de criterios de calidad específicos que se pueden evaluar mediante programación.

Cuándo se debe usar el RFT

Utilice el RFT cuando pueda definir criterios de éxito claros y medibles, pero tenga dificultades para proporcionar resultados exactos y correctos para el entrenamiento. Es ideal para tareas en las que la calidad es subjetiva o multifacética, como la redacción creativa, la optimización del código o el razonamiento complejo, en las que existen varias soluciones válidas, pero algunas son claramente mejores que otras.

El RFT funciona mejor cuando se cuenta con lo siguiente:

Una función de recompensa fiable que pueda evaluar los resultados del modelo mediante programación
Necesidad de alinear el comportamiento del modelo con preferencias o restricciones específicas
Situaciones en las que el refinamiento supervisado tradicional no es suficiente porque recopilar ejemplos etiquetados de alta calidad es caro o poco práctico

Considere el uso del RFT para aplicaciones que requieran mejoras iterativas, personalización o el cumplimiento de reglas empresariales complejas que puedan codificarse como señales de recompensa.

¿Para qué es más adecuado el RFT?

El RFT sobresale en dominios en los que la calidad de los resultados se puede medir objetivamente, pero las respuestas óptimas son difíciles de definir por adelantado:

Resolución de problemas matemáticos: precisión verificable con varias rutas de solución
Generación y optimización de código: resultados de ejecución y métricas de rendimiento comprobables
Tareas de razonamiento científico: coherencia lógica y precisión fáctica
Análisis de datos estructurados: salidas verificables mediante programación
Razonamiento en varios pasos: tareas que requieren una progresión lógica gradual
Uso de herramientas y llamadas a la API: éxito medible por resultados de ejecución
Flujos de trabajo complejos: cumplimiento de restricciones y normas empresariales específicas

El RFT funciona excepcionalmente bien cuando se necesita equilibrar varios objetivos contrapuestos, como la precisión, la eficiencia y el estilo.

Cuándo se debe usar el modo de razonamiento para el entrenamiento con el RFT

Amazon Nova 2.0 admite el modo razonamiento durante el entrenamiento con el RFT. Están disponibles los siguientes modos:

ninguno: sin razonamiento (omita el campo reasoning_effort)
bajo: sobrecarga de razonamiento mínima
alto: capacidad de razonamiento máxima (opción predeterminada cuando se especifica reasoning_effort)

nota

No hay una opción media para el RFT. Si el campo reasoning_effort no está en la configuración, el razonamiento está desactivado.

Utilice un razonamiento alto para lo siguiente:

Tareas analíticas complejas
Resolución de problemas matemáticos
Deducción lógica de varios pasos
Tareas en las que pensar paso a paso agrega valor

Utilice ninguno (omita reasoning_effort) o un razonamiento bajo para lo siguiente:

Consultas de hechos sencillas
Clasificaciones directas
Optimización de velocidad y costo
Preguntas y respuestas directas

importante

Los modos de razonamiento superior aumentan el tiempo y el costo del entrenamiento, la latencia y el costo de la inferencia, pero también aumentan la capacidad del modelo para tareas de razonamiento complejas.

Modelos compatibles

El RFT en SageMaker HyperPod es compatible con Amazon Nova Lite 2.0 (amazon.nova-2-lite-v1:0:256k).

Pasos principales

El proceso de RFT consta de cuatro fases clave:

Implementación de un evaluador: cree una función de recompensa para puntuar mediante programación las respuestas del modelo en función de sus criterios de calidad.
Carga de peticiones: prepare y cargue los datos de entrenamiento en el formato conversacional especificado con datos de referencia para su evaluación.
Inicio de un trabajo: inicie el proceso de refinamiento por refuerzo con los parámetros configurados.
Supervisión: haga un seguimiento del progreso del entrenamiento a través de paneles de métricas para garantizar que el modelo aprenda de forma eficaz.

Cada paso se basa en el anterior, y el evaluador es la base que guía todo el proceso de entrenamiento al proporcionar señales de comentarios coherentes.

Temas

RFT en Nova 2.0

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

SFT en Nova 2.0

RFT en Nova 2.0