Renfort : affiner les applications et les scénarios Avantages du réglage précis des armatures Modèles pris en charge pour un réglage précis du renforcement Comment fonctionne le réglage précis des armatures Amélioration des meilleures pratiques en matière de renforcement

Personnalisez un modèle en affinant les armatures dans Amazon Bedrock

Le réglage fin du renforcement est une technique de personnalisation des modèles dans Amazon Bedrock qui améliore les performances du modèle de base en enseignant aux modèles ce qui constitue une « bonne » réponse par le biais de signaux de feedback appelés récompenses. Contrairement aux méthodes de réglage précises traditionnelles qui reposent sur des ensembles de données étiquetés, le réglage fin par renforcement utilise une approche axée sur le feedback qui optimise le modèle de manière itérative afin de maximiser ces récompenses.

Renfort : affiner les applications et les scénarios

Utilisez le réglage précis du renforcement lorsque vous pouvez définir des critères de succès clairs et mesurables pour évaluer la qualité des réponses. Le réglage fin du renforcement excelle dans les domaines où la qualité de sortie peut être mesurée de manière objective, en particulier lorsque plusieurs réponses valides existent ou lorsque les réponses optimales sont difficiles à définir dès le départ. C'est idéal pour :

Résolution de problèmes mathématiques et génération de code (utilisation d'évaluateurs basés sur des règles pour une évaluation objective)
Raisonnement scientifique et analyse de données structurées
Tâches subjectives telles que le suivi des instructions, la modération du contenu et la rédaction créative (en faisant appel à AI-based des juges)
Tâches nécessitant un raisonnement étape par étape ou une résolution de problèmes en plusieurs étapes
Scénarios comportant plusieurs solutions valides où certaines sont clairement meilleures que d'autres
Applications équilibrant plusieurs objectifs (précision, efficacité, style)
Applications nécessitant une amélioration itérative, une personnalisation ou le respect de règles métier complexes
Scénarios dans lesquels le succès peut être vérifié par programmation par le biais de résultats d'exécution ou de mesures de performance
Cas où la collecte d'exemples étiquetés de haute qualité est coûteuse ou peu pratique

Avantages du réglage précis des armatures

Performances du modèle améliorées — Le réglage précis du renforcement améliore la précision du modèle jusqu'à 66 % en moyenne par rapport aux modèles de base. Cela permet d'optimiser le prix et les performances en affinant des variantes de modèles plus petites, plus rapides et plus efficaces.
Facilité d'utilisation : Amazon Bedrock automatise la complexité du réglage précis du renforcement, le rendant ainsi accessible aux développeurs qui créent des applications d'IA. Vous pouvez affiner les modèles à l'aide des ensembles de données que vous avez téléchargés ou des journaux d'appel d'API existants. Vous pouvez définir des fonctions de récompense qui évaluent les sorties du modèle avec un code personnalisé à l'aide de Lambda ou d'un évaluateur Model-as-a-Judge, avec des modèles intégrés qui facilitent la configuration rapide.
Sécurité et conformité — Vos données propriétaires ne quittent jamais AWS l'environnement sécurisé et régi pendant le processus de personnalisation.

Modèles pris en charge pour un réglage précis du renforcement

Le tableau suivant présente les modèles de base que vous pouvez personnaliser grâce à un ajustement précis des armatures :

Modèles pris en charge pour un réglage précis du renforcement
Fournisseur	Modèle	ID du modèle	Nom de la région	Région
Amazon	Nova 2 Lite	amazon.nova-2-lite-v 1:0:256 k	USA Est (Virginie du Nord)	us-east-1
OpenAI	GPT-OSS-20b	openai.gpt-oss-20b	USA Ouest (Oregon)	us-west-2
Qwen	Qwen3 32B	qwen.qwen3-32b	USA Ouest (Oregon)	us-west-2

Comment fonctionne le réglage précis des armatures

Amazon Bedrock automatise entièrement le flux de travail de réglage précis du renforcement. Le modèle reçoit des instructions de votre jeu de données d'entraînement et génère plusieurs réponses par invite. Ces réponses sont ensuite notées par une fonction de récompense. Amazon Bedrock utilise les paires prompte-réponse et les scores pour entraîner le modèle par le biais d'un apprentissage basé sur des politiques à l'aide de l'optimisation des politiques relatives aux groupes (GRPO). La boucle d'entraînement se poursuit jusqu'à la fin de vos données d'entraînement ou jusqu'à ce que vous arrêtiez le travail à un point de contrôle choisi, produisant ainsi un modèle optimisé pour la métrique qui compte pour vous.

Amélioration des meilleures pratiques en matière de renforcement

Commencez modestement — Commencez par 100 à 200 exemples, validez l'exactitude de la fonction de récompense et échelonnez progressivement en fonction des résultats
Évaluation préalable au réglage : testez les performances du modèle de référence avant de peaufiner le renforcement. Si les récompenses sont toujours de 0 %, utilisez d'abord un réglage précis supervisé pour établir les capacités de base. Si les récompenses sont supérieures à 95 %, il se peut qu'il ne soit pas nécessaire de peaufiner le renforcement
Surveillez la formation : suivez les scores moyens des récompenses et leur distribution. Attention au surajustement (les récompenses d'entraînement augmentent tandis que les récompenses de validation diminuent). Recherchez des modèles inquiétants tels que le plafonnement des récompenses en dessous de 0,15, l'augmentation de la variance des récompenses au fil du temps et la baisse des performances de validation
Optimisez les fonctions de récompense : exécutez-les en quelques secondes (et non en quelques minutes), minimisez les appels d'API externes, utilisez des algorithmes efficaces, implémentez une gestion appropriée des erreurs et profitez de la mise à l'échelle parallèle de Lambda
Stratégie d'itération — Si les récompenses ne s'améliorent pas, ajustez la conception de la fonction de récompense, augmentez la diversité des ensembles de données, ajoutez des exemples plus représentatifs et vérifiez que les signaux de récompense sont clairs et cohérents

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Soumettre une tâche de mise au point d'un modèle

Fine-tune Modèles Amazon Nova