Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Personalice un modelo con ajustes de refuerzo en Amazon Bedrock
El ajuste preciso por refuerzo es una técnica de personalización de modelos de Amazon Bedrock que mejora el rendimiento del modelo básico al enseñar a los modelos lo que constituye una «buena» respuesta mediante señales de retroalimentación denominadas recompensas. A diferencia de los métodos de ajuste precisos tradicionales, que dependen de conjuntos de datos etiquetados, el ajuste por refuerzo utiliza un enfoque basado en los comentarios que optimiza el modelo de forma iterativa para maximizar estas recompensas.
Refuerce el ajuste preciso de las aplicaciones y los escenarios
Utilice el ajuste preciso del refuerzo cuando pueda definir criterios de éxito claros y mensurables para evaluar la calidad de la respuesta. El ajuste preciso de los refuerzos es excelente en aquellos ámbitos en los que la calidad de los resultados se puede medir objetivamente, especialmente cuando existen varias respuestas válidas o cuando es difícil definir las respuestas óptimas por adelantado. Es ideal para:
Resolución de problemas matemáticos y generación de código (utilizando calificadores basados en reglas para una evaluación objetiva)
Razonamiento científico y análisis de datos estructurados
Tareas subjetivas como el seguimiento de las instrucciones, la moderación del contenido y la redacción creativa (con jueces basados en la IA)
Tareas que requieren step-by-step razonamiento o resolución de problemas en varias etapas
Escenarios con múltiples soluciones válidas en los que algunas son claramente mejores que otras
Aplicaciones que equilibran varios objetivos (precisión, eficiencia, estilo)
Aplicaciones que requieren mejoras iterativas, personalización o cumplimiento de reglas empresariales complejas
Escenarios en los que el éxito se puede verificar mediante programación mediante resultados de ejecución o métricas de rendimiento
Casos en los que recopilar ejemplos etiquetados de alta calidad resulta caro o poco práctico
Ventajas del ajuste fino de los refuerzos
-
Rendimiento mejorado del modelo: el ajuste fino del refuerzo mejora la precisión del modelo hasta en un 66% de media en comparación con los modelos básicos. Esto permite optimizar el precio y el rendimiento al ajustar variantes de modelos más pequeñas, rápidas y eficientes.
-
Facilidad de uso: Amazon Bedrock automatiza la complejidad del ajuste preciso de los refuerzos, lo que lo hace accesible a los desarrolladores que crean aplicaciones de IA. Puede ajustar los modelos con los conjuntos de datos cargados o los registros de invocación de API existentes. Puede definir funciones de recompensa que califiquen los resultados del modelo con código personalizado mediante Lambda o model-as-a-judge Grader, con plantillas integradas que ayudan a una configuración rápida.
-
Seguridad y conformidad: sus datos privados nunca AWS abandonan el entorno seguro y gobernado durante el proceso de personalización.
Modelos compatibles para el ajuste fino de los refuerzos
En la siguiente tabla se muestran los modelos de cimentación que se pueden personalizar mediante el ajuste preciso de las armaduras:
| Proveedor | Modelo | ID del modelo | Nombre de la región | Region |
|---|---|---|---|---|
| Amazon | Nova 2 Lite | amazon.nova-2-lite-v1:00:256 k |
Este de EE. UU. (Norte de Virginia) |
us-east-1 |
| OpenAI | GPT-OSS-20b | openai.gpt-oss-20b | Oeste de EE. UU. (Oregón) | us-west-2 |
| Qwen | Qwen3 32 B | qwen.qwen3-32b | Oeste de EE. UU. (Oregón) | us-west-2 |
Cómo funciona el ajuste fino de los refuerzos
Amazon Bedrock automatiza por completo el flujo de trabajo de ajuste de refuerzos. El modelo recibe las indicaciones del conjunto de datos de entrenamiento y genera varias respuestas por solicitud. A continuación, estas respuestas se puntúan mediante una función de recompensa. Amazon Bedrock utiliza los pares de pronto-respuesta con las puntuaciones para entrenar el modelo mediante el aprendizaje basado en políticas mediante la optimización de políticas relativas de grupo (GRPO). El ciclo de entrenamiento continúa hasta llegar al final de los datos de entrenamiento o hasta que usted detiene el trabajo en un punto de control elegido, lo que genera un modelo optimizado para la métrica que le interesa.
Refuerce las prácticas recomendadas para afinar
Comience poco a poco: comience con 100 a 200 ejemplos, valide la corrección de la función de recompensa y escale gradualmente en función de los resultados
Evaluación previa al ajuste: pruebe el rendimiento del modelo de referencia antes de realizar el ajuste preciso del refuerzo. Si las recompensas son consistentemente del 0 por ciento, utilice primero los ajustes supervisados para establecer las capacidades básicas. Si las recompensas superan el 95 por ciento, es posible que no sea necesario realizar ajustes con el refuerzo
Supervise la capacitación: realice un seguimiento de las puntuaciones y la distribución promedio de las recompensas. Esté atento a los sobreajustes (las recompensas de entrenamiento aumentan mientras que las de validación disminuyen). Esté atento a patrones preocupantes, como que las recompensas se estanquen por debajo del 0,15, que aumenten la variación de las recompensas con el tiempo y que disminuya el rendimiento de la validación
Optimice las funciones de recompensa: ejecútelas en cuestión de segundos (no minutos), minimice las llamadas a API externas, utilice algoritmos eficientes, implemente un manejo de errores adecuado y aproveche el escalado paralelo de Lambda
Estrategia de iteración: si las recompensas no mejoran, ajuste el diseño de las funciones de recompensa, aumente la diversidad de los conjuntos de datos, añada ejemplos más representativos y compruebe que las señales de recompensa sean claras y coherentes