View a markdown version of this page

Personnalisez un modèle en affinant les armatures dans Amazon Bedrock - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Personnalisez un modèle en affinant les armatures dans Amazon Bedrock

Le réglage fin du renforcement est une technique de personnalisation des modèles dans Amazon Bedrock qui améliore les performances du modèle de base en enseignant aux modèles ce qui constitue une « bonne » réponse par le biais de signaux de feedback appelés récompenses. Contrairement aux méthodes de réglage précises traditionnelles qui reposent sur des ensembles de données étiquetés, le réglage fin par renforcement utilise une approche axée sur le feedback qui optimise le modèle de manière itérative afin de maximiser ces récompenses.

Renfort : affiner les applications et les scénarios

Utilisez le réglage précis du renforcement lorsque vous pouvez définir des critères de succès clairs et mesurables pour évaluer la qualité des réponses. Le réglage fin du renforcement excelle dans les domaines où la qualité de sortie peut être mesurée de manière objective, en particulier lorsque plusieurs réponses valides existent ou lorsque les réponses optimales sont difficiles à définir dès le départ. C'est idéal pour :

  • Résolution de problèmes mathématiques et génération de code (utilisation d'évaluateurs basés sur des règles pour une évaluation objective)

  • Raisonnement scientifique et analyse de données structurées

  • Tâches subjectives telles que le suivi des instructions, la modération du contenu et l'écriture créative (en utilisant des juges basés sur l'IA)

  • Tâches nécessitant un step-by-step raisonnement ou une résolution de problèmes en plusieurs étapes

  • Scénarios comportant plusieurs solutions valides où certaines sont clairement meilleures que d'autres

  • Applications équilibrant plusieurs objectifs (précision, efficacité, style)

  • Applications nécessitant une amélioration itérative, une personnalisation ou le respect de règles métier complexes

  • Scénarios dans lesquels le succès peut être vérifié par programmation par le biais de résultats d'exécution ou de mesures de performance

  • Cas où la collecte d'exemples étiquetés de haute qualité est coûteuse ou peu pratique

Avantages du réglage précis des armatures

  • Performances du modèle améliorées — Le réglage précis du renforcement améliore la précision du modèle jusqu'à 66 % en moyenne par rapport aux modèles de base. Cela permet d'optimiser le prix et les performances en affinant des variantes de modèles plus petites, plus rapides et plus efficaces.

  • Facilité d'utilisation : Amazon Bedrock automatise la complexité du réglage précis du renforcement, le rendant ainsi accessible aux développeurs qui créent des applications d'IA. Vous pouvez affiner les modèles à l'aide des ensembles de données que vous avez téléchargés ou des journaux d'appel d'API existants. Vous pouvez définir des fonctions de récompense qui évaluent les sorties du modèle avec un code personnalisé à l'aide de Lambda ou d' model-as-a-judgeun évaluateur, avec des modèles intégrés qui facilitent la configuration rapide.

  • Sécurité et conformité — Vos données propriétaires ne quittent jamais AWS l'environnement sécurisé et régi pendant le processus de personnalisation.

Modèles pris en charge pour un réglage précis du renforcement

Le tableau suivant présente les modèles de base que vous pouvez personnaliser grâce à un ajustement précis des armatures :

Modèles pris en charge pour un réglage précis du renforcement
Fournisseur Modèle ID du modèle Nom de la région Région
Amazon Nova 2 Lite amazon.nova-2-lite-v 1:0:256 k

USA Est (Virginie du Nord)

us-east-1

OpenAI GPT-OSS-20b openai.gpt-oss-20b USA Ouest (Oregon) us-west-2
Qwen Qwen3 32B qwen.qwen3-32b USA Ouest (Oregon) us-west-2

Comment fonctionne le réglage précis des armatures

Amazon Bedrock automatise entièrement le flux de travail de réglage précis du renforcement. Le modèle reçoit des instructions de votre jeu de données d'entraînement et génère plusieurs réponses par invite. Ces réponses sont ensuite notées par une fonction de récompense. Amazon Bedrock utilise les paires prompte-réponse et les scores pour entraîner le modèle par le biais d'un apprentissage basé sur des politiques à l'aide de l'optimisation des politiques relatives aux groupes (GRPO). La boucle d'entraînement se poursuit jusqu'à la fin de vos données d'entraînement ou jusqu'à ce que vous arrêtiez le travail à un point de contrôle choisi, produisant ainsi un modèle optimisé pour la métrique qui compte pour vous.

Amélioration des meilleures pratiques en matière de renforcement

  • Commencez modestement — Commencez par 100 à 200 exemples, validez l'exactitude de la fonction de récompense et échelonnez progressivement en fonction des résultats

  • Évaluation préalable au réglage : testez les performances du modèle de référence avant de peaufiner le renforcement. Si les récompenses sont toujours de 0 %, utilisez d'abord un réglage précis supervisé pour établir les capacités de base. Si les récompenses sont supérieures à 95 %, il se peut qu'il ne soit pas nécessaire de peaufiner le renforcement

  • Surveillez la formation : suivez les scores moyens des récompenses et leur distribution. Attention au surajustement (les récompenses d'entraînement augmentent tandis que les récompenses de validation diminuent). Recherchez des modèles inquiétants tels que le plafonnement des récompenses en dessous de 0,15, l'augmentation de la variance des récompenses au fil du temps et la baisse des performances de validation

  • Optimisez les fonctions de récompense : exécutez-les en quelques secondes (et non en quelques minutes), minimisez les appels d'API externes, utilisez des algorithmes efficaces, implémentez une gestion appropriée des erreurs et profitez de la mise à l'échelle parallèle de Lambda

  • Stratégie d'itération — Si les récompenses ne s'améliorent pas, ajustez la conception de la fonction de récompense, augmentez la diversité des ensembles de données, ajoutez des exemples plus représentatifs et vérifiez que les signaux de récompense sont clairs et cohérents