View a markdown version of this page

Supervisión del entrenamiento RFT - Amazon Nova

Supervisión del entrenamiento RFT

Supervise las métricas clave durante el entrenamiento para garantizar un aprendizaje efectivo e identificar los posibles problemas a tiempo.

Métricas clave para hacer un seguimiento

Supervise las siguientes métricas con MLFlow durante el entrenamiento:

Métricas de recompensas

  • Puntuación media de recompensas: calidad general de las respuestas del modelo (debería aumentar con el tiempo)

  • Distribución de recompensas: porcentaje de respuestas que reciben recompensas altas, medias y bajas

  • Recompensas de entrenamiento y validación: comparación para detectar el sobreajuste

Métricas de entrenamiento:

  • Actualizaciones de políticas: número de actualizaciones de peso correctas

  • Tasa de finalización de despliegues: porcentaje de muestras evaluadas correctamente

Patrones preocupantes:

  • Estancamiento de las recompensas (indica un aprendizaje deficiente)

  • Disminución de recompensas de validación con aumento de recompensas de entrenamiento (sobreajuste)

  • Aumento significativo de la variación de recompensas con el tiempo (inestabilidad)

  • Alto porcentaje de errores en funciones de recompensas (problemas de implementación)

Cuándo se debe detener el entrenamiento:

  • Se alcanzan las métricas de rendimiento objetivo.

  • Las recompensas se estancan y ya no mejoran.

  • El rendimiento de la validación se degrada (se detecta un sobreajuste).

  • Se alcanza el presupuesto máximo del entrenamiento.

Evaluación después del RFT

Una vez completado el entrenamiento, evalúe el modelo de ajuste fino para evaluar las mejoras en el rendimiento:

  • Ejecute un trabajo de evaluación del RFT: utilice el punto de control del entrenamiento RFT como modelo.

  • Compárelo con la línea de base: evalúe tanto el modelo base como el modelo de ajuste fino en el mismo conjunto de pruebas.

  • Analice las métricas: revise las métricas específicas de la tarea (precisión, puntuación de las recompensas, etc.).

  • Lleve a cabo una revisión cualitativa: inspeccione manualmente las salidas de las muestras para comprobar su calidad.

Para conocer los procedimientos de evaluación detallados, consulte la sección Evaluación.

Uso de modelos de ajuste fino

Acceso a los puntos de control:

Una vez completado el entrenamiento, localice el punto de control:

  1. Vaya a su output_path en S3.

  2. Descargue y extraiga output.tar.gz.

  3. Abra . manifest.json

  4. Copie el valor checkpoint_s3_bucket.

Despliegue para la inferencia:

Utilice la ruta del punto de control de S3 para la inferencia o un entrenamiento adicional:

run: model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"

Para obtener instrucciones de implementación e inferencia, consulte la sección Inferencia.

Limitaciones y prácticas recomendadas

Limitaciones actuales:

Restricciones de la versión beta:

  • Necesito crear un nuevo grupo RIG para el RFT. Se resolverá esta limitación en la GA.

  • Requisitos de tipo de instancia: solo se admiten instancias P5 (mínimo 8x P5.48xlarge). Próximamente: compatibilidad con tipos de instancias más pequeños (fecha estimada: mediados de enero de 2025).

Limitaciones funcionales:

  • Tiempo de espera de Lambda de 15 minutos: las funciones de recompensas deben completarse en 15 minutos.

  • Solo turno único: no se admiten conversaciones de varios turnos.

  • Conjuntos de datos de validación: no se admiten durante el entrenamiento. Utilice trabajos de evaluación independientes para evaluar el progreso del entrenamiento.

Consideraciones sobre el entrenamiento:

  • Escenarios de recompensas bajas: puede tener problemas cuando menos del 5 % de los ejemplos reciben recompensas positivas; opte primero por el SFT.

  • Requisitos de datos: necesita suficiente diversidad para aprender de forma eficaz.

  • Costo computacional: es más caro que el refinamiento supervisado.

Nova Forge elimina algunas de estas limitaciones:

  • Admite conversaciones de varios turnos.

  • Permite funciones de recompensas que superen los tiempos de espera de 15 minutos.

  • Proporciona algoritmos avanzados y opciones de ajuste.

  • Se ha diseñado para casos de uso empresarial complejos, ajustados específicamente para crear modelos de frontera.

Prácticas recomendadas:

Inicio con algo pequeño y escalado:

  • Comience con conjuntos de datos mínimos (de 100 a 200 ejemplos) y pocas épocas de entrenamiento.

  • Valide el enfoque antes de escalar verticalmente.

  • Aumente gradualmente el tamaño del conjunto de datos y los pasos de entrenamiento en función de los resultados.

Línea de base con prioridad del SFT:

  • Si las puntuaciones de recompensas son coherentemente bajas (por ejemplo, siempre 0), lleve a cabo el SFT antes que el RFT.

  • El RFT requiere un rendimiento de línea de base razonable para mejorar de forma eficaz.

Diseño de funciones de recompensas eficientes:

  • Ejecute en segundos, no minutos.

  • Minimice las llamadas a la API externa.

  • Utilice algoritmos y estructuras de datos eficientes.

  • Implemente una gestión de errores adecuada.

  • Lleve a cabo pruebas exhaustivas antes del entrenamiento.

  • Aproveche las capacidades de escalado paralelo de Lambda.

Supervisión activa del entrenamiento:

  • Haga un seguimiento del promedio de las puntuaciones de recompensas con el tiempo.

  • Observe la distribución de las recompensas entre las muestras.

  • Compare las recompensas de entrenamiento con las de validación.

  • Busque patrones preocupantes (estancamiento, sobreajuste, inestabilidad).

Iteración en función de los resultados:

  • Si las recompensas no mejoran después de varias iteraciones, ajuste el diseño de la función de recompensas.

  • Aumente la diversidad de los conjuntos de datos para proporcionar señales de aprendizaje más claras.

  • Considere la posibilidad de cambiar al SFT si las recompensas siguen siendo casi nulas.

  • Experimente con diferentes hiperparámetros (tasa de aprendizaje, tamaño del lote).

Optimización de la calidad de los datos:

  • Garantice ejemplos diversos y representativos.

  • Incluya casos extremos y muestras difíciles.

  • Verifique que la función de recompensas puntúe correctamente todos los tipos de ejemplos.

  • Elimine o corrija las muestras que confundan a la función de recompensas.

Solución de problemas

Errores en la función de recompensas:

Síntomas: tasa de errores elevada en las llamadas a la función de recompensas durante el entrenamiento

Problema

Síntomas

Resolución

Tiempo de espera de Lambda

Tiempos de espera frecuentes después de 15 minutos

Optimice el rendimiento de las funciones; considere el uso de Nova Forge para evaluaciones complejas

Simultaneidad insuficiente

Errores de limitación de Lambda

Aumente lambda_concurrency_limit o solicite un aumento de cuota.

Formato de devolución no válido

Errores de formato en el entrenamiento

Compruebe que la estructura de devoluciones coincida con el formato de interfaz requerido.

Excepciones no gestionadas

Errores intermitentes

Agregue gestión y registro integrales de errores.

Errores de API externos

Puntuación incoherente

Implemente una lógica de reintentos y estrategias alternativas.

Rendimiento de entrenamiento deficiente:

Síntomas: las recompensas no mejoran o se estancan en valores bajos.

Resoluciones:

  • Verifique la corrección de la función de recompensas: pruebe con ejemplos buenos o malos conocidos.

  • Compruebe el rendimiento de la línea de base: evalúe el modelo base; si la precisión es cercana a cero, lleve a cabo antes el SFT.

  • Aumente la diversidad de los datos: agregue ejemplos más variados que cubran diferentes escenarios

  • Ajuste los hiperparámetros: pruebe diferentes tasas de aprendizaje o tamaños de lotes.

  • Revise la calidad de la señal de las recompensas: asegúrese de que las recompensas diferencien entre respuestas buenas y malas.

Sobreajuste:

Síntomas: las recompensas de entrenamiento aumentan mientras que las de validación disminuyen.

Resoluciones:

  • Reduzca los pasos de entrenamiento: deje de entrenar antes.

  • Aumente el tamaño del conjunto de datos: agregue más ejemplos de entrenamiento.

  • Agregue regularización: ajuste weight_decay o entropy_coeff.

  • Aumente la diversidad de los datos: asegúrese de que el conjunto de entrenamiento represente una distribución completa.