Funciones Lambda personalizadas para la evaluación de recompensas Detalles de implementación de la función Lambda

Configuración de funciones de recompensa para modelos de peso abierto

Las funciones de recompensa evalúan la calidad de la respuesta y proporcionan señales de retroalimentación para el entrenamiento del modelo. Puede configurar funciones de recompensa mediante funciones Lambda personalizadas. Elija el enfoque que se adapte a los requisitos de su tarea.

Funciones Lambda personalizadas para la evaluación de recompensas

Puede configurar funciones de recompensa mediante funciones Lambda personalizadas. Dentro de su función Lambda, tiene flexibilidad a la hora de implementar la lógica de evaluación:

Tareas objetivas: para las tareas objetivas, como la generación de código o el razonamiento matemático, utilice calificadores verificables y basados en reglas que comprueben la corrección comparándola con estándares o casos de prueba conocidos.
Tareas subjetivas: para tareas subjetivas como el seguimiento de instrucciones o las interacciones con un chatbot, utilice los modelos básicos de Amazon Bedrock como jueces de su función Lambda para evaluar la calidad de la respuesta en función de sus criterios.

La función Lambda puede implementar una lógica compleja, integrar API externas, realizar cálculos de varios pasos o combinar varios criterios de evaluación en función de los requisitos de la tarea.

nota

Al utilizar funciones Lambda personalizadas:

Aumente el tiempo de espera de Lambda de 3 segundos por defecto a un máximo de 15 minutos para evaluaciones complejas.
La función de ejecución de Lambda necesita permisos para invocar la función Lambda, tal y como se describe en. Permisos Lambda para funciones de recompensa

Detalles de implementación de la función Lambda

Al implementar funciones de recompensa de Lambda personalizadas, la función debe aceptar y devolver datos en el siguiente formato.

Directrices de diseño

Clasifique las respuestas: otorgue a la mejor respuesta una puntuación claramente más alta
Utilice controles consistentes: evalúe la finalización de las tareas, el cumplimiento del formato, la seguridad y la duración razonable
Mantenga una escala estable: mantenga las puntuaciones normalizadas y que no sean explotables

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Preparación de los datos

Cree trabajos de ajuste preciso