Refuerce el ajuste preciso de las aplicaciones y los escenarios Ventajas del ajuste preciso de los refuerzos Modelos compatibles para el ajuste fino de refuerzos Cómo funciona el ajuste fino de los refuerzos Refuerza las prácticas recomendadas para afinar

Personalice un modelo con ajustes de refuerzo en Amazon Bedrock

El ajuste preciso por refuerzo es una técnica de personalización de modelos de Amazon Bedrock que mejora el rendimiento del modelo básico al enseñar a los modelos lo que constituye una «buena» respuesta mediante señales de retroalimentación denominadas recompensas. A diferencia de los métodos de ajuste precisos tradicionales, que dependen de conjuntos de datos etiquetados, el ajuste por refuerzo utiliza un enfoque basado en los comentarios que optimiza el modelo de forma iterativa para maximizar estas recompensas.

Refuerce el ajuste preciso de las aplicaciones y los escenarios

Utilice el ajuste preciso del refuerzo cuando pueda definir criterios de éxito claros y mensurables para evaluar la calidad de la respuesta. El ajuste preciso por refuerzo es excelente en aquellos ámbitos en los que la calidad de los resultados se puede medir objetivamente, especialmente cuando existen varias respuestas válidas o cuando es difícil definir las respuestas óptimas por adelantado. Es ideal para:

Resolución de problemas matemáticos y generación de código (utilizando calificadores basados en reglas para una evaluación objetiva)
Razonamiento científico y análisis de datos estructurados
Tareas subjetivas como el seguimiento de las instrucciones, la moderación del contenido y la redacción creativa (con jueces) AI-based
Tareas que requieren razonamiento paso a paso o resolución de problemas de varios turnos
Escenarios con múltiples soluciones válidas en los que algunas son claramente mejores que otras
Aplicaciones que equilibran varios objetivos (precisión, eficiencia, estilo)
Aplicaciones que requieran mejoras iterativas, personalización o el cumplimiento de reglas empresariales complejas
Escenarios en los que el éxito se puede verificar mediante programación con resultados de ejecución o métricas de rendimiento
Casos en los que recopilar ejemplos etiquetados de alta calidad es caro o poco práctico

Ventajas del ajuste preciso de los refuerzos

Rendimiento mejorado del modelo: el ajuste fino del refuerzo mejora la precisión del modelo hasta en un 66% de media en comparación con los modelos básicos. Esto permite optimizar el precio y el rendimiento al ajustar variantes de modelos más pequeñas, rápidas y eficientes.
Facilidad de uso: Amazon Bedrock automatiza la complejidad del ajuste preciso de los refuerzos y lo pone al alcance de los desarrolladores que crean aplicaciones de IA. Puede ajustar los modelos con los conjuntos de datos cargados o los registros de invocación de API existentes. Puede definir funciones de recompensa que califiquen los resultados del modelo con código personalizado mediante Lambda o una clasificadora basada en el modelo como juez, con plantillas integradas que ayudan a realizar una configuración rápida.
Seguridad y conformidad: sus datos privados nunca abandonan un entorno seguro y gobernado AWS durante el proceso de personalización.

Modelos compatibles para el ajuste fino de los refuerzos

En la siguiente tabla se muestran los modelos de cimentación que se pueden personalizar mediante el ajuste preciso de las armaduras:

Modelos compatibles para el ajuste fino de refuerzos
Proveedor	Modelo	ID del modelo	Nombre de la región	Region
Amazon	Nova 2 Lite	amazon.nova-2-lite-v1:0:256k	Este de EE. UU. (Norte de Virginia)	us-east-1
OpenAI	GPT-OSS-20b	openai.gpt-oss-20b	Oeste de EE. UU. (Oregón)	us-west-2
Qwen	Qwen3 32 B	qwen.qwen3-32b	Oeste de EE. UU. (Oregón)	us-west-2

Cómo funciona el ajuste fino de los refuerzos

Amazon Bedrock automatiza por completo el flujo de trabajo de ajuste de refuerzos. El modelo recibe las indicaciones del conjunto de datos de entrenamiento y genera varias respuestas por solicitud. A continuación, estas respuestas se puntúan mediante una función de recompensa. Amazon Bedrock utiliza los pares de pronto-respuesta con las puntuaciones para entrenar el modelo mediante el aprendizaje basado en políticas mediante la optimización de políticas relativas de grupo (GRPO). El ciclo de entrenamiento continúa hasta llegar al final de los datos de entrenamiento o hasta que usted detiene el trabajo en un punto de control elegido, lo que genera un modelo optimizado para la métrica que le interesa.

Refuerza las prácticas recomendadas para afinar

Comience poco a poco: comience con 100 a 200 ejemplos, valide la corrección de la función de recompensa y escale gradualmente en función de los resultados
Evaluación previa al ajuste: pruebe el rendimiento del modelo de referencia antes de realizar el ajuste preciso del refuerzo. Si las recompensas son consistentemente del 0 por ciento, utilice primero los ajustes supervisados para establecer las capacidades básicas. Si las recompensas superan el 95 por ciento, es posible que no sea necesario realizar ajustes con el refuerzo
Supervise la capacitación: realice un seguimiento de las puntuaciones y la distribución promedio de las recompensas. Esté atento a los sobreajustes (las recompensas de entrenamiento aumentan mientras que las de validación disminuyen). Esté atento a patrones preocupantes, como que las recompensas se estanquen por debajo del 0,15, que aumenten la variación de las recompensas con el tiempo y que disminuya el rendimiento de la validación
Optimice las funciones de recompensa: ejecútelas en cuestión de segundos (no minutos), minimice las llamadas a API externas, utilice algoritmos eficientes, implemente un manejo de errores adecuado y aproveche el escalado paralelo de Lambda
Estrategia de iteración: si las recompensas no mejoran, ajuste el diseño de las funciones de recompensa, aumente la diversidad de los conjuntos de datos, añada ejemplos más representativos y compruebe que las señales de recompensa sean claras y coherentes

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Envíe un trabajo de ajuste fino del modelo

Fine-tune Modelos Amazon Nova