Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Configuración de funciones de recompensa para los modelos Amazon Nova
Las funciones de recompensa evalúan la calidad de la respuesta y proporcionan señales de retroalimentación para el entrenamiento del modelo. Puede configurar funciones de recompensa utilizando funciones Lambda personalizadas o modelos básicos de Amazon Bedrock-hosted como jueces. Hay disponibles plantillas guiadas para simplificar la creación de funciones de recompensa para tareas comunes, como el seguimiento de instrucciones y la validación de formatos. Elija el enfoque que se adapte a los requisitos de su tarea.
Refuerce el aprendizaje mediante recompensas verificables (RLVR)
El RLVR optimiza los modelos para tareas objetivas, como la generación de código o el razonamiento matemático, mediante calificadores verificables basados en reglas o plantillas listas para usar.
Tiene dos opciones para el RLVR (código personalizado):
La consola Amazon Bedrock proporciona plantillas de muestra para las funciones Lambda de la niveladora:
-
Razonamiento matemático con verificación de la verdad fundamental
-
Validación de formatos y comprobación de restricciones
-
Plantilla Lambda genérica para grader con código repetitivo
Siga las instrucciones de la plantilla proporcionada en la página Crear trabajo de RFT de la consola de Amazon Bedrock
Cree funciones de recompensa personalizadas con su propio ARN de Lambda para lógica compleja, API externas, cálculos de varios pasos o para combinar varios criterios de evaluación.
nota
Si trae su propia función Lambda, tenga en cuenta lo siguiente:
-
Aumente el tiempo de espera de Lambda de 3 segundos por defecto a un máximo de 15 minutos para evaluaciones complejas.
-
La función de ejecución de Lambda necesita permisos para invocar modelos, tal y como se describe en. Acceso y seguridad para los modelos Amazon Nova
Aprendizaje reforzado mediante comentarios de IA (RLAIF)
El RLAIF optimiza los modelos para tareas subjetivas, como el seguimiento de instrucciones o las interacciones con los chatbots, utilizando jueces con plantillas listas para usar. AI-based
Para la RLAIF (Modele as Judge):
-
Seleccione un modelo base hospedado en Amazon Bedrock como juez
-
Configure las instrucciones para la evaluación
-
Defina los criterios de evaluación y las pautas de puntuación
Plantillas LLM-as-Judge de mensajes disponibles en la consola Amazon Bedrock:
-
Instrucción siguiente (modelo de formación para jueces)
-
Resumen (Multi-turn diálogos)
-
Evaluación del razonamiento (CoT para dominios especializados)
-
Fidelidad RAG (preguntas y respuestas) Context-grounded
nota
La opción Model as Judge de la consola convierte automáticamente la configuración en una función Lambda durante el entrenamiento.
Detalles de implementación de la función Lambda
Al implementar funciones de recompensa de Lambda personalizadas, la función debe aceptar y devolver datos en el siguiente formato.
Directrices de diseño
Clasifique las respuestas: otorgue a la mejor respuesta una puntuación claramente más alta
Utilice controles consistentes: evalúe la finalización de las tareas, el cumplimiento del formato, la seguridad y la duración razonable
Mantenga una escala estable: mantenga las puntuaciones normalizadas y que no sean explotables