Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Configuration des fonctions de récompense pour les modèles à poids ouvert
Les fonctions de récompense évaluent la qualité des réponses et fournissent des signaux de rétroaction pour l'entraînement des modèles. Vous pouvez configurer des fonctions de récompense à l'aide de fonctions Lambda personnalisées. Choisissez l'approche qui correspond aux exigences de votre tâche.
Fonctions Lambda personnalisées pour l'évaluation des récompenses
Vous pouvez configurer des fonctions de récompense à l'aide de fonctions Lambda personnalisées. Au sein de votre fonction Lambda, vous disposez d'une certaine flexibilité dans la manière dont vous implémentez la logique d'évaluation :
-
Tâches objectives : pour les tâches objectives telles que la génération de code ou le raisonnement mathématique, utilisez des évaluateurs vérifiables basés sur des règles qui vérifient l'exactitude par rapport à des normes ou à des scénarios de test connus.
-
Tâches subjectives : pour les tâches subjectives telles que le suivi des instructions ou les interactions avec un chatbot, faites appel aux modèles Amazon Bedrock Foundation en tant que juges au sein de votre fonction Lambda afin d'évaluer la qualité des réponses en fonction de vos critères.
Votre fonction Lambda peut implémenter une logique complexe, intégrer des éléments externes APIs, effectuer des calculs en plusieurs étapes ou combiner plusieurs critères d'évaluation en fonction des exigences de votre tâche.
Note
Lorsque vous utilisez des fonctions Lambda personnalisées :
-
Augmentez le délai Lambda de 3 secondes par défaut à 15 minutes maximum pour les évaluations complexes.
-
Le rôle d'exécution Lambda a besoin d'autorisations pour appeler la fonction Lambda, comme décrit dans. Autorisations Lambda pour les fonctions de récompense
Détails de mise en œuvre de la fonction Lambda
Lorsque vous implémentez des fonctions de récompense Lambda personnalisées, votre fonction doit accepter et renvoyer des données au format suivant.
Directives de conception
Classez les réponses — Donnez à la meilleure réponse un score nettement supérieur
Utilisez des contrôles cohérents : évaluez l'achèvement des tâches, le respect du format, la sécurité et une durée raisonnable
Maintenez une mise à l'échelle stable : maintenez les scores normalisés et non exploitables