Configuración de funciones de recompensa para modelos de peso abierto - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración de funciones de recompensa para modelos de peso abierto

Las funciones de recompensa evalúan la calidad de la respuesta y proporcionan señales de retroalimentación para el entrenamiento del modelo. Puede configurar funciones de recompensa mediante funciones Lambda personalizadas. Elija el enfoque que se adapte a los requisitos de su tarea.

Funciones Lambda personalizadas para la evaluación de recompensas

Puede configurar funciones de recompensa mediante funciones Lambda personalizadas. Dentro de su función Lambda, tiene flexibilidad a la hora de implementar la lógica de evaluación:

  • Tareas objetivas: para las tareas objetivas, como la generación de código o el razonamiento matemático, utilice calificadores verificables y basados en reglas que comprueben la corrección comparándola con estándares o casos de prueba conocidos.

  • Tareas subjetivas: para tareas subjetivas como el seguimiento de instrucciones o las interacciones con un chatbot, utilice los modelos básicos de Amazon Bedrock como jueces de su función Lambda para evaluar la calidad de la respuesta en función de sus criterios.

La función Lambda puede implementar una lógica compleja, integrar elementos externos APIs, realizar cálculos de varios pasos o combinar varios criterios de evaluación en función de los requisitos de la tarea.

nota

Al utilizar funciones Lambda personalizadas:

  • Aumente el tiempo de espera de Lambda de 3 segundos por defecto a un máximo de 15 minutos para evaluaciones complejas.

  • La función de ejecución de Lambda necesita permisos para invocar la función Lambda, tal y como se describe en. Permisos Lambda para funciones de recompensa

Detalles de implementación de la función Lambda

Al implementar funciones de recompensa de Lambda personalizadas, la función debe aceptar y devolver datos en el siguiente formato.

Input structure
[{ "id": "123", "messages": [ { "role": "user", "content": "Do you have a dedicated security team?" }, { "role": "assistant", "content": "As an AI developed by Amazon, I don not have a dedicated security team..." } ], "metadata": { "reference_answer": { "compliant": "No", "explanation": "As an AI developed by Company, I do not have a traditional security team..." }, "my_key": "sample-001" } }]
Output structure
[{ "id": "123", "aggregate_reward_score": 0.85, "metrics_list": [ { "name": "accuracy", "value": 0.9, "type": "Reward" }, { "name": "policy_compliance", "value": 0.8, "type": "Metric" } ] }]

Directrices de diseño

  • Clasifique las respuestas: otorgue a la mejor respuesta una puntuación claramente más alta

  • Utilice controles consistentes: evalúe la finalización de las tareas, el cumplimiento del formato, la seguridad y la duración razonable

  • Mantenga una escala estable: mantenga las puntuaciones normalizadas y que no sean explotables