Supervisión del entrenamiento RFT
Supervise las métricas clave durante el entrenamiento para garantizar un aprendizaje efectivo e identificar los posibles problemas a tiempo.
Temas
Métricas clave para hacer un seguimiento
Supervise las siguientes métricas con MLFlow durante el entrenamiento:
Métricas de recompensas
-
Puntuación media de recompensas: calidad general de las respuestas del modelo (debería aumentar con el tiempo)
-
Distribución de recompensas: porcentaje de respuestas que reciben recompensas altas, medias y bajas
-
Recompensas de entrenamiento y validación: comparación para detectar el sobreajuste
Métricas de entrenamiento:
-
Actualizaciones de políticas: número de actualizaciones de peso correctas
-
Tasa de finalización de despliegues: porcentaje de muestras evaluadas correctamente
Patrones preocupantes:
-
Estancamiento de las recompensas (indica un aprendizaje deficiente)
-
Disminución de recompensas de validación con aumento de recompensas de entrenamiento (sobreajuste)
-
Aumento significativo de la variación de recompensas con el tiempo (inestabilidad)
-
Alto porcentaje de errores en funciones de recompensas (problemas de implementación)
Cuándo se debe detener el entrenamiento:
-
Se alcanzan las métricas de rendimiento objetivo.
-
Las recompensas se estancan y ya no mejoran.
-
El rendimiento de la validación se degrada (se detecta un sobreajuste).
-
Se alcanza el presupuesto máximo del entrenamiento.
Evaluación después del RFT
Una vez completado el entrenamiento, evalúe el modelo de ajuste fino para evaluar las mejoras en el rendimiento:
-
Ejecute un trabajo de evaluación del RFT: utilice el punto de control del entrenamiento RFT como modelo.
-
Compárelo con la línea de base: evalúe tanto el modelo base como el modelo de ajuste fino en el mismo conjunto de pruebas.
-
Analice las métricas: revise las métricas específicas de la tarea (precisión, puntuación de las recompensas, etc.).
-
Lleve a cabo una revisión cualitativa: inspeccione manualmente las salidas de las muestras para comprobar su calidad.
Para conocer los procedimientos de evaluación detallados, consulte la sección Evaluación.
Uso de modelos de ajuste fino
Acceso a los puntos de control:
Una vez completado el entrenamiento, localice el punto de control:
-
Vaya a su
output_pathen S3. -
Descargue y extraiga
output.tar.gz. -
Abra .
manifest.json -
Copie el valor
checkpoint_s3_bucket.
Despliegue para la inferencia:
Utilice la ruta del punto de control de S3 para la inferencia o un entrenamiento adicional:
run: model_type: amazon.nova-2-lite-v1:0:256k model_name_or_path: "s3://customer-escrow-<account-number>-smtj-<unique-identifier>/<job-name>"
Para obtener instrucciones de implementación e inferencia, consulte la sección Inferencia.
Limitaciones y prácticas recomendadas
Limitaciones actuales:
Restricciones de la versión beta:
-
Necesito crear un nuevo grupo RIG para el RFT. Se resolverá esta limitación en la GA.
-
Requisitos de tipo de instancia: solo se admiten instancias P5 (mínimo 8x P5.48xlarge). Próximamente: compatibilidad con tipos de instancias más pequeños (fecha estimada: mediados de enero de 2025).
Limitaciones funcionales:
-
Tiempo de espera de Lambda de 15 minutos: las funciones de recompensas deben completarse en 15 minutos.
-
Solo turno único: no se admiten conversaciones de varios turnos.
-
Conjuntos de datos de validación: no se admiten durante el entrenamiento. Utilice trabajos de evaluación independientes para evaluar el progreso del entrenamiento.
Consideraciones sobre el entrenamiento:
-
Escenarios de recompensas bajas: puede tener problemas cuando menos del 5 % de los ejemplos reciben recompensas positivas; opte primero por el SFT.
-
Requisitos de datos: necesita suficiente diversidad para aprender de forma eficaz.
-
Costo computacional: es más caro que el refinamiento supervisado.
Nova Forge elimina algunas de estas limitaciones:
-
Admite conversaciones de varios turnos.
-
Permite funciones de recompensas que superen los tiempos de espera de 15 minutos.
-
Proporciona algoritmos avanzados y opciones de ajuste.
-
Se ha diseñado para casos de uso empresarial complejos, ajustados específicamente para crear modelos de frontera.
Prácticas recomendadas:
Inicio con algo pequeño y escalado:
-
Comience con conjuntos de datos mínimos (de 100 a 200 ejemplos) y pocas épocas de entrenamiento.
-
Valide el enfoque antes de escalar verticalmente.
-
Aumente gradualmente el tamaño del conjunto de datos y los pasos de entrenamiento en función de los resultados.
Línea de base con prioridad del SFT:
-
Si las puntuaciones de recompensas son coherentemente bajas (por ejemplo, siempre 0), lleve a cabo el SFT antes que el RFT.
-
El RFT requiere un rendimiento de línea de base razonable para mejorar de forma eficaz.
Diseño de funciones de recompensas eficientes:
-
Ejecute en segundos, no minutos.
-
Minimice las llamadas a la API externa.
-
Utilice algoritmos y estructuras de datos eficientes.
-
Implemente una gestión de errores adecuada.
-
Lleve a cabo pruebas exhaustivas antes del entrenamiento.
-
Aproveche las capacidades de escalado paralelo de Lambda.
Supervisión activa del entrenamiento:
-
Haga un seguimiento del promedio de las puntuaciones de recompensas con el tiempo.
-
Observe la distribución de las recompensas entre las muestras.
-
Compare las recompensas de entrenamiento con las de validación.
-
Busque patrones preocupantes (estancamiento, sobreajuste, inestabilidad).
Iteración en función de los resultados:
-
Si las recompensas no mejoran después de varias iteraciones, ajuste el diseño de la función de recompensas.
-
Aumente la diversidad de los conjuntos de datos para proporcionar señales de aprendizaje más claras.
-
Considere la posibilidad de cambiar al SFT si las recompensas siguen siendo casi nulas.
-
Experimente con diferentes hiperparámetros (tasa de aprendizaje, tamaño del lote).
Optimización de la calidad de los datos:
-
Garantice ejemplos diversos y representativos.
-
Incluya casos extremos y muestras difíciles.
-
Verifique que la función de recompensas puntúe correctamente todos los tipos de ejemplos.
-
Elimine o corrija las muestras que confundan a la función de recompensas.
Solución de problemas
Errores en la función de recompensas:
Síntomas: tasa de errores elevada en las llamadas a la función de recompensas durante el entrenamiento
Problema |
Síntomas |
Resolución |
|---|---|---|
Tiempo de espera de Lambda |
Tiempos de espera frecuentes después de 15 minutos |
Optimice el rendimiento de las funciones; considere el uso de Nova Forge para evaluaciones complejas |
Simultaneidad insuficiente |
Errores de limitación de Lambda |
Aumente lambda_concurrency_limit o solicite un aumento de cuota. |
Formato de devolución no válido |
Errores de formato en el entrenamiento |
Compruebe que la estructura de devoluciones coincida con el formato de interfaz requerido. |
Excepciones no gestionadas |
Errores intermitentes |
Agregue gestión y registro integrales de errores. |
Errores de API externos |
Puntuación incoherente |
Implemente una lógica de reintentos y estrategias alternativas. |
Rendimiento de entrenamiento deficiente:
Síntomas: las recompensas no mejoran o se estancan en valores bajos.
Resoluciones:
-
Verifique la corrección de la función de recompensas: pruebe con ejemplos buenos o malos conocidos.
-
Compruebe el rendimiento de la línea de base: evalúe el modelo base; si la precisión es cercana a cero, lleve a cabo antes el SFT.
-
Aumente la diversidad de los datos: agregue ejemplos más variados que cubran diferentes escenarios
-
Ajuste los hiperparámetros: pruebe diferentes tasas de aprendizaje o tamaños de lotes.
-
Revise la calidad de la señal de las recompensas: asegúrese de que las recompensas diferencien entre respuestas buenas y malas.
Sobreajuste:
Síntomas: las recompensas de entrenamiento aumentan mientras que las de validación disminuyen.
Resoluciones:
-
Reduzca los pasos de entrenamiento: deje de entrenar antes.
-
Aumente el tamaño del conjunto de datos: agregue más ejemplos de entrenamiento.
-
Agregue regularización: ajuste
weight_decayoentropy_coeff. -
Aumente la diversidad de los datos: asegúrese de que el conjunto de entrenamiento represente una distribución completa.