Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Configuración de funciones de recompensa para modelos de peso abierto
Las funciones de recompensa evalúan la calidad de la respuesta y proporcionan señales de retroalimentación para el entrenamiento del modelo. Puede configurar funciones de recompensa mediante funciones Lambda personalizadas. Elija el enfoque que se adapte a los requisitos de su tarea.
Funciones Lambda personalizadas para la evaluación de recompensas
Puede configurar funciones de recompensa mediante funciones Lambda personalizadas. Dentro de su función Lambda, tiene flexibilidad a la hora de implementar la lógica de evaluación:
-
Tareas objetivas: para las tareas objetivas, como la generación de código o el razonamiento matemático, utilice calificadores verificables y basados en reglas que comprueben la corrección comparándola con estándares o casos de prueba conocidos.
-
Tareas subjetivas: para tareas subjetivas como el seguimiento de instrucciones o las interacciones con un chatbot, utilice los modelos básicos de Amazon Bedrock como jueces de su función Lambda para evaluar la calidad de la respuesta en función de sus criterios.
La función Lambda puede implementar una lógica compleja, integrar elementos externos APIs, realizar cálculos de varios pasos o combinar varios criterios de evaluación en función de los requisitos de la tarea.
nota
Al utilizar funciones Lambda personalizadas:
-
Aumente el tiempo de espera de Lambda de 3 segundos por defecto a un máximo de 15 minutos para evaluaciones complejas.
-
La función de ejecución de Lambda necesita permisos para invocar la función Lambda, tal y como se describe en. Permisos Lambda para funciones de recompensa
Detalles de implementación de la función Lambda
Al implementar funciones de recompensa de Lambda personalizadas, la función debe aceptar y devolver datos en el siguiente formato.
Directrices de diseño
Clasifique las respuestas: otorgue a la mejor respuesta una puntuación claramente más alta
Utilice controles consistentes: evalúe la finalización de las tareas, el cumplimiento del formato, la seguridad y la duración razonable
Mantenga una escala estable: mantenga las puntuaciones normalizadas y que no sean explotables