

# Supervisión del entrenamiento RFT
<a name="nova-hp-rft-monitoring"></a>

Supervise las métricas clave durante el entrenamiento para garantizar un aprendizaje efectivo e identificar los posibles problemas a tiempo.

**Topics**
+ [Métricas clave para hacer un seguimiento](#nova-hp-rft-monitoring-metrics)
+ [Evaluación después del RFT](#nova-hp-rft-monitoring-evaluation)
+ [Uso de modelos de ajuste fino](#nova-hp-rft-monitoring-checkpoints)
+ [Limitaciones y prácticas recomendadas](#nova-hp-rft-monitoring-limitations)
+ [Solución de problemas](#nova-hp-rft-monitoring-troubleshooting)

## Métricas clave para hacer un seguimiento
<a name="nova-hp-rft-monitoring-metrics"></a>

Supervise las siguientes métricas con MLFlow durante el entrenamiento:

**Métricas de recompensas**
+ **Puntuación media de recompensas**: calidad general de las respuestas del modelo (debería aumentar con el tiempo)
+ **Distribución de recompensas**: porcentaje de respuestas que reciben recompensas altas, medias y bajas
+ **Recompensas de entrenamiento y validación**: comparación para detectar el sobreajuste

**Métricas de entrenamiento:**
+ **Actualizaciones de políticas**: número de actualizaciones de peso correctas
+ **Tasa de finalización de despliegues**: porcentaje de muestras evaluadas correctamente

**Patrones preocupantes:**
+ Estancamiento de las recompensas (indica un aprendizaje deficiente)
+ Disminución de recompensas de validación con aumento de recompensas de entrenamiento (sobreajuste)
+ Aumento significativo de la variación de recompensas con el tiempo (inestabilidad)
+ Alto porcentaje de errores en funciones de recompensas (problemas de implementación)

**Cuándo se debe detener el entrenamiento:**
+ Se alcanzan las métricas de rendimiento objetivo.
+ Las recompensas se estancan y ya no mejoran.
+ El rendimiento de la validación se degrada (se detecta un sobreajuste).
+ Se alcanza el presupuesto máximo del entrenamiento.

## Evaluación después del RFT
<a name="nova-hp-rft-monitoring-evaluation"></a>

Una vez completado el entrenamiento, evalúe el modelo de ajuste fino para evaluar las mejoras en el rendimiento:
+ **Ejecute un trabajo de evaluación del RFT**: utilice el punto de control del entrenamiento RFT como modelo.
+ **Compárelo con la línea de base**: evalúe tanto el modelo base como el modelo de ajuste fino en el mismo conjunto de pruebas.
+ **Analice las métricas**: revise las métricas específicas de la tarea (precisión, puntuación de las recompensas, etc.).
+ **Lleve a cabo una revisión cualitativa**: inspeccione manualmente las salidas de las muestras para comprobar su calidad.

Para conocer los procedimientos de evaluación detallados, consulte la sección Evaluación.

## Uso de modelos de ajuste fino
<a name="nova-hp-rft-monitoring-checkpoints"></a>

**Acceso a los puntos de control:**

Una vez completado el entrenamiento, localice el punto de control:

1. Vaya a su `output_path` en S3.

1. Descargue y extraiga `output.tar.gz`.

1. Abra . `manifest.json`

1. Copie el valor `checkpoint_s3_bucket`.

**Despliegue para la inferencia:**

Utilice la ruta del punto de control de S3 para la inferencia o un entrenamiento adicional:

```
run:
    model_type: amazon.nova-2-lite-v1:0:256k
    model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"
```

Para obtener instrucciones de implementación e inferencia, consulte la sección Inferencia.

## Limitaciones y prácticas recomendadas
<a name="nova-hp-rft-monitoring-limitations"></a>

**Limitaciones actuales:**

**Restricciones de la versión beta:**
+ Necesito crear un nuevo grupo RIG para el RFT. Se resolverá esta limitación en la GA.
+ Requisitos de tipo de instancia: solo se admiten instancias P5 (mínimo 8x P5.48xlarge). Próximamente: compatibilidad con tipos de instancias más pequeños (fecha estimada: mediados de enero de 2025).

**Limitaciones funcionales:**
+ Tiempo de espera de Lambda de 15 minutos: las funciones de recompensas deben completarse en 15 minutos.
+ Solo turno único: no se admiten conversaciones de varios turnos.
+ Conjuntos de datos de validación: no se admiten durante el entrenamiento. Utilice trabajos de evaluación independientes para evaluar el progreso del entrenamiento.

**Consideraciones sobre el entrenamiento:**
+ Escenarios de recompensas bajas: puede tener problemas cuando menos del 5 % de los ejemplos reciben recompensas positivas; opte primero por el SFT.
+ Requisitos de datos: necesita suficiente diversidad para aprender de forma eficaz.
+ Costo computacional: es más caro que el refinamiento supervisado.

**Nova Forge elimina algunas de estas limitaciones:**
+ Admite conversaciones de varios turnos.
+ Permite funciones de recompensas que superen los tiempos de espera de 15 minutos.
+ Proporciona algoritmos avanzados y opciones de ajuste.
+ Se ha diseñado para casos de uso empresarial complejos, ajustados específicamente para crear modelos de frontera.

**Prácticas recomendadas:**

**Inicio con algo pequeño y escalado:**
+ Comience con conjuntos de datos mínimos (de 100 a 200 ejemplos) y pocas épocas de entrenamiento.
+ Valide el enfoque antes de escalar verticalmente.
+ Aumente gradualmente el tamaño del conjunto de datos y los pasos de entrenamiento en función de los resultados.

**Línea de base con prioridad del SFT:**
+ Si las puntuaciones de recompensas son coherentemente bajas (por ejemplo, siempre 0), lleve a cabo el SFT antes que el RFT.
+ El RFT requiere un rendimiento de línea de base razonable para mejorar de forma eficaz.

**Diseño de funciones de recompensas eficientes:**
+ Ejecute en segundos, no minutos.
+ Minimice las llamadas a la API externa.
+ Utilice algoritmos y estructuras de datos eficientes.
+ Implemente una gestión de errores adecuada.
+ Lleve a cabo pruebas exhaustivas antes del entrenamiento.
+ Aproveche las capacidades de escalado paralelo de Lambda.

**Supervisión activa del entrenamiento:**
+ Haga un seguimiento del promedio de las puntuaciones de recompensas con el tiempo.
+ Observe la distribución de las recompensas entre las muestras.
+ Compare las recompensas de entrenamiento con las de validación.
+ Busque patrones preocupantes (estancamiento, sobreajuste, inestabilidad).

**Iteración en función de los resultados:**
+ Si las recompensas no mejoran después de varias iteraciones, ajuste el diseño de la función de recompensas.
+ Aumente la diversidad de los conjuntos de datos para proporcionar señales de aprendizaje más claras.
+ Considere la posibilidad de cambiar al SFT si las recompensas siguen siendo casi nulas.
+ Experimente con diferentes hiperparámetros (tasa de aprendizaje, tamaño del lote).

**Optimización de la calidad de los datos:**
+ Garantice ejemplos diversos y representativos.
+ Incluya casos extremos y muestras difíciles.
+ Verifique que la función de recompensas puntúe correctamente todos los tipos de ejemplos.
+ Elimine o corrija las muestras que confundan a la función de recompensas.

## Solución de problemas
<a name="nova-hp-rft-monitoring-troubleshooting"></a>

**Errores en la función de recompensas:**

Síntomas: tasa de errores elevada en las llamadas a la función de recompensas durante el entrenamiento


| Problema | Síntomas | Resolución | 
| --- |--- |--- |
| Tiempo de espera de Lambda | Tiempos de espera frecuentes después de 15 minutos | Optimice el rendimiento de las funciones; considere el uso de Nova Forge para evaluaciones complejas | 
| Simultaneidad insuficiente | Errores de limitación de Lambda | Aumente lambda\$1concurrency\$1limit o solicite un aumento de cuota. | 
| Formato de devolución no válido | Errores de formato en el entrenamiento | Compruebe que la estructura de devoluciones coincida con el formato de interfaz requerido. | 
| Excepciones no gestionadas | Errores intermitentes | Agregue gestión y registro integrales de errores. | 
| Errores de API externos | Puntuación incoherente | Implemente una lógica de reintentos y estrategias alternativas. | 

**Rendimiento de entrenamiento deficiente:**

Síntomas: las recompensas no mejoran o se estancan en valores bajos.

Resoluciones:
+ **Verifique la corrección de la función de recompensas**: pruebe con ejemplos buenos o malos conocidos.
+ **Compruebe el rendimiento de la línea de base**: evalúe el modelo base; si la precisión es cercana a cero, lleve a cabo antes el SFT.
+ **Aumente la diversidad de los datos**: agregue ejemplos más variados que cubran diferentes escenarios
+ **Ajuste los hiperparámetros**: pruebe diferentes tasas de aprendizaje o tamaños de lotes.
+ **Revise la calidad de la señal de las recompensas**: asegúrese de que las recompensas diferencien entre respuestas buenas y malas.

**Sobreajuste:**

Síntomas: las recompensas de entrenamiento aumentan mientras que las de validación disminuyen.

Resoluciones:
+ **Reduzca los pasos de entrenamiento**: deje de entrenar antes.
+ **Aumente el tamaño del conjunto de datos**: agregue más ejemplos de entrenamiento.
+ **Agregue regularización**: ajuste `weight_decay` o `entropy_coeff`.
+ **Aumente la diversidad de los datos**: asegúrese de que el conjunto de entrenamiento represente una distribución completa.