Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Cree y gestione trabajos de ajuste preciso para los modelos de Amazon Nova
Puede crear un trabajo de ajuste fino de refuerzo (RFT) mediante la consola o la API de Amazon Bedrock. El trabajo de RFT puede tardar unas horas en función del tamaño de los datos de entrenamiento, del número de épocas y de la complejidad de las funciones de recompensa.
Requisitos previos
-
Cree un rol de servicio de IAM con los permisos necesarios. Para obtener información completa sobre seguridad y permisos, incluidos RFT-specific los permisos, consulteAcceso y seguridad para los modelos Amazon Nova.
-
(Opcional) Cifre los datos de entrada y salida, su trabajo de RFT o las solicitudes de inferencia realizadas a modelos personalizados. Para obtener más información, consulte Cifrado de modelos personalizados.
Cree su trabajo de RFT
Elija la pestaña del método que prefiera y siga estos pasos:
Supervise su trabajo de formación en RFT
Amazon Bedrock proporciona supervisión en tiempo real con gráficos y métricas visuales durante el entrenamiento de RFT. Estas métricas le ayudan a comprender si el modelo converge correctamente y si la función de recompensa guía eficazmente el proceso de aprendizaje.
Seguimiento del estado del trabajo
Puede supervisar el estado de su trabajo de RFT a través de las fases de validación y formación en la consola de Amazon Bedrock.
Indicadores de finalización:
-
El estado del trabajo cambia a Completado cuando la formación finaliza correctamente
-
El ARN del modelo personalizado pasa a estar disponible para su implementación
-
Las métricas de entrenamiento alcanzan los umbrales de convergencia
Real-time métricas de entrenamiento
Amazon Bedrock proporciona supervisión en tiempo real durante el entrenamiento de RFT con gráficos visuales que muestran las métricas de entrenamiento y validación.
Métricas principales de entrenamiento
-
Pérdida de entrenamiento: mide qué tan bien aprende el modelo de los datos de entrenamiento
-
Estadísticas de recompensas por entrenamiento: muestran las puntuaciones de recompensa asignadas por tus funciones de recompensa
-
Margen de recompensa: mide la diferencia entre las recompensas por respuestas buenas y malas
-
Precisión en los conjuntos de entrenamiento y validación: muestra el rendimiento del modelo tanto en los datos de entrenamiento como en los datos retenidos
Categorías métricas detalladas
Métricas de recompensas:
critic/rewards/meancritic/rewards/max,critic/rewards/min(distribución de recompensas) yval-score/rewards/mean@1(recompensas de validación)Comportamiento del modelo:
actor/entropy(variación de política; cuanto más alto es igual a más exploratorio)Salud formativa:
actor/pg_loss(pérdida del gradiente de las políticas),actor/pg_clipfrac(frecuencia de las actualizaciones recortadas) yactor/grad_norm(magnitud del gradiente)Características de respuesta:
prompt_length/mean,prompt_length/max,prompt_length/min(estadísticas del token de entrada),response_length/meanresponse_length/max,response_length/min(estadísticas del token de salida) yresponse/aborted_ratio(tasa de generación incompleta; 0 es igual a todo completado)Rendimiento:
perf/throughput(rendimiento del entrenamiento),perf/time_per_step(tiempo por paso de entrenamiento) ytiming_per_token_ms/*(tiempos de procesamiento por token)Uso de recursos:
perf/max_memory_allocated_gb,perf/max_memory_reserved_gb(memoria de GPU) yperf/cpu_memory_used_gb(memoria de CPU)
Visualización del progreso del entrenamiento
La consola muestra gráficos interactivos que se actualizan en tiempo real a medida que avanza tu trabajo de RFT. Estas visualizaciones pueden ayudarle a:
-
Realice un seguimiento de la convergencia hacia un rendimiento óptimo
-
Identifique pronto los posibles problemas de formación
-
Determine los puntos de parada óptimos
-
Compare el rendimiento en diferentes épocas
Configure la inferencia
Una vez finalizado el trabajo, implemente el modelo RFT para realizar inferencias bajo demanda o utilice el rendimiento aprovisionado para obtener un rendimiento uniforme. Para configurar la inferencia, consulte. Configuración de la inferencia para un modelo personalizado
Utilice Test in Playground para evaluar y comparar las respuestas con el modelo base. Para evaluar el modelo de RFT completo, consulteEvalúe su modelo RFT.