Fonctions Lambda personnalisées pour l'évaluation des récompenses Détails de mise en œuvre de la fonction Lambda

Configuration des fonctions de récompense pour les modèles à poids ouvert

Les fonctions de récompense évaluent la qualité des réponses et fournissent des signaux de rétroaction pour l'entraînement des modèles. Vous pouvez configurer des fonctions de récompense à l'aide de fonctions Lambda personnalisées. Choisissez l'approche qui correspond aux exigences de votre tâche.

Fonctions Lambda personnalisées pour l'évaluation des récompenses

Vous pouvez configurer des fonctions de récompense à l'aide de fonctions Lambda personnalisées. Au sein de votre fonction Lambda, vous disposez d'une certaine flexibilité dans la manière dont vous implémentez la logique d'évaluation :

Tâches objectives : pour les tâches objectives telles que la génération de code ou le raisonnement mathématique, utilisez des évaluateurs vérifiables basés sur des règles qui vérifient l'exactitude par rapport à des normes ou à des scénarios de test connus.
Tâches subjectives : pour les tâches subjectives telles que le suivi des instructions ou les interactions avec un chatbot, faites appel aux modèles Amazon Bedrock Foundation en tant que juges au sein de votre fonction Lambda afin d'évaluer la qualité des réponses en fonction de vos critères.

Votre fonction Lambda peut implémenter une logique complexe, intégrer des API externes, effectuer des calculs en plusieurs étapes ou combiner plusieurs critères d'évaluation en fonction des exigences de votre tâche.

Note

Lorsque vous utilisez des fonctions Lambda personnalisées :

Augmentez le délai Lambda de 3 secondes par défaut à 15 minutes maximum pour les évaluations complexes.
Le rôle d'exécution Lambda a besoin d'autorisations pour appeler la fonction Lambda, comme décrit dans. Autorisations Lambda pour les fonctions de récompense

Détails de mise en œuvre de la fonction Lambda

Lorsque vous implémentez des fonctions de récompense Lambda personnalisées, votre fonction doit accepter et renvoyer des données au format suivant.

Directives de conception

Classez les réponses — Donnez à la meilleure réponse un score nettement supérieur
Utilisez des contrôles cohérents : évaluez l'achèvement des tâches, le respect du format, la sécurité et une durée raisonnable
Maintenez une mise à l'échelle stable : maintenez les scores normalisés et non exploitables

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Préparation des données

Créez des tâches de réglage précis