Personalice un modelo con ajustes de refuerzo en Amazon Bedrock - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Personalice un modelo con ajustes de refuerzo en Amazon Bedrock

El ajuste preciso por refuerzo es una técnica de personalización de modelos de Amazon Bedrock que mejora el rendimiento del modelo básico al enseñar a los modelos lo que constituye una «buena» respuesta mediante señales de retroalimentación denominadas recompensas. A diferencia de los métodos de ajuste precisos tradicionales, que dependen de conjuntos de datos etiquetados, el ajuste por refuerzo utiliza un enfoque basado en los comentarios que optimiza el modelo de forma iterativa para maximizar estas recompensas.

Refuerce el ajuste preciso de las aplicaciones y los escenarios

Utilice el ajuste preciso del refuerzo cuando pueda definir criterios de éxito claros y mensurables para evaluar la calidad de la respuesta. El ajuste preciso de los refuerzos es excelente en aquellos ámbitos en los que la calidad de los resultados se puede medir objetivamente, especialmente cuando existen varias respuestas válidas o cuando es difícil definir las respuestas óptimas por adelantado. Es ideal para:

  • Resolución de problemas matemáticos y generación de código (utilizando calificadores basados en reglas para una evaluación objetiva)

  • Razonamiento científico y análisis de datos estructurados

  • Tareas subjetivas como el seguimiento de las instrucciones, la moderación del contenido y la redacción creativa (con jueces basados en la IA)

  • Tareas que requieren step-by-step razonamiento o resolución de problemas en varias etapas

  • Escenarios con múltiples soluciones válidas en los que algunas son claramente mejores que otras

  • Aplicaciones que equilibran varios objetivos (precisión, eficiencia, estilo)

  • Aplicaciones que requieren mejoras iterativas, personalización o cumplimiento de reglas empresariales complejas

  • Escenarios en los que el éxito se puede verificar mediante programación mediante resultados de ejecución o métricas de rendimiento

  • Casos en los que recopilar ejemplos etiquetados de alta calidad resulta caro o poco práctico

Ventajas del ajuste fino de los refuerzos

  • Rendimiento mejorado del modelo: el ajuste fino del refuerzo mejora la precisión del modelo hasta en un 66% de media en comparación con los modelos básicos. Esto permite optimizar el precio y el rendimiento al ajustar variantes de modelos más pequeñas, rápidas y eficientes.

  • Facilidad de uso: Amazon Bedrock automatiza la complejidad del ajuste preciso de los refuerzos, lo que lo hace accesible a los desarrolladores que crean aplicaciones de IA. Puede ajustar los modelos con los conjuntos de datos cargados o los registros de invocación de API existentes. Puede definir funciones de recompensa que califiquen los resultados del modelo con código personalizado mediante Lambda o model-as-a-judge Grader, con plantillas integradas que ayudan a una configuración rápida.

  • Seguridad y conformidad: sus datos privados nunca AWS abandonan el entorno seguro y gobernado durante el proceso de personalización.

Modelos compatibles para el ajuste fino de los refuerzos

En la siguiente tabla se muestran los modelos de cimentación que se pueden personalizar mediante el ajuste preciso de las armaduras:

Modelos compatibles para el ajuste fino de refuerzos
Proveedor Modelo ID del modelo Nombre de la región Region
Amazon Nova 2 Lite amazon.nova-2-lite-v1:00:256 k

Este de EE. UU. (Norte de Virginia)

us-east-1

OpenAI GPT-OSS-20b openai.gpt-oss-20b Oeste de EE. UU. (Oregón) us-west-2
Qwen Qwen3 32 B qwen.qwen3-32b Oeste de EE. UU. (Oregón) us-west-2

Cómo funciona el ajuste fino de los refuerzos

Amazon Bedrock automatiza por completo el flujo de trabajo de ajuste de refuerzos. El modelo recibe las indicaciones del conjunto de datos de entrenamiento y genera varias respuestas por solicitud. A continuación, estas respuestas se puntúan mediante una función de recompensa. Amazon Bedrock utiliza los pares de pronto-respuesta con las puntuaciones para entrenar el modelo mediante el aprendizaje basado en políticas mediante la optimización de políticas relativas de grupo (GRPO). El ciclo de entrenamiento continúa hasta llegar al final de los datos de entrenamiento o hasta que usted detiene el trabajo en un punto de control elegido, lo que genera un modelo optimizado para la métrica que le interesa.

Refuerce las prácticas recomendadas para afinar

  • Comience poco a poco: comience con 100 a 200 ejemplos, valide la corrección de la función de recompensa y escale gradualmente en función de los resultados

  • Evaluación previa al ajuste: pruebe el rendimiento del modelo de referencia antes de realizar el ajuste preciso del refuerzo. Si las recompensas son consistentemente del 0 por ciento, utilice primero los ajustes supervisados para establecer las capacidades básicas. Si las recompensas superan el 95 por ciento, es posible que no sea necesario realizar ajustes con el refuerzo

  • Supervise la capacitación: realice un seguimiento de las puntuaciones y la distribución promedio de las recompensas. Esté atento a los sobreajustes (las recompensas de entrenamiento aumentan mientras que las de validación disminuyen). Esté atento a patrones preocupantes, como que las recompensas se estanquen por debajo del 0,15, que aumenten la variación de las recompensas con el tiempo y que disminuya el rendimiento de la validación

  • Optimice las funciones de recompensa: ejecútelas en cuestión de segundos (no minutos), minimice las llamadas a API externas, utilice algoritmos eficientes, implemente un manejo de errores adecuado y aproveche el escalado paralelo de Lambda

  • Estrategia de iteración: si las recompensas no mejoran, ajuste el diseño de las funciones de recompensa, aumente la diversidad de los conjuntos de datos, añada ejemplos más representativos y compruebe que las señales de recompensa sean claras y coherentes