Configuration des fonctions de récompense pour les modèles à poids ouvert - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Configuration des fonctions de récompense pour les modèles à poids ouvert

Les fonctions de récompense évaluent la qualité des réponses et fournissent des signaux de rétroaction pour l'entraînement des modèles. Vous pouvez configurer des fonctions de récompense à l'aide de fonctions Lambda personnalisées. Choisissez l'approche qui correspond aux exigences de votre tâche.

Fonctions Lambda personnalisées pour l'évaluation des récompenses

Vous pouvez configurer des fonctions de récompense à l'aide de fonctions Lambda personnalisées. Au sein de votre fonction Lambda, vous disposez d'une certaine flexibilité dans la manière dont vous implémentez la logique d'évaluation :

  • Tâches objectives : pour les tâches objectives telles que la génération de code ou le raisonnement mathématique, utilisez des évaluateurs vérifiables basés sur des règles qui vérifient l'exactitude par rapport à des normes ou à des scénarios de test connus.

  • Tâches subjectives : pour les tâches subjectives telles que le suivi des instructions ou les interactions avec un chatbot, faites appel aux modèles Amazon Bedrock Foundation en tant que juges au sein de votre fonction Lambda afin d'évaluer la qualité des réponses en fonction de vos critères.

Votre fonction Lambda peut implémenter une logique complexe, intégrer des éléments externes APIs, effectuer des calculs en plusieurs étapes ou combiner plusieurs critères d'évaluation en fonction des exigences de votre tâche.

Note

Lorsque vous utilisez des fonctions Lambda personnalisées :

  • Augmentez le délai Lambda de 3 secondes par défaut à 15 minutes maximum pour les évaluations complexes.

  • Le rôle d'exécution Lambda a besoin d'autorisations pour appeler la fonction Lambda, comme décrit dans. Autorisations Lambda pour les fonctions de récompense

Détails de mise en œuvre de la fonction Lambda

Lorsque vous implémentez des fonctions de récompense Lambda personnalisées, votre fonction doit accepter et renvoyer des données au format suivant.

Input structure
[{ "id": "123", "messages": [ { "role": "user", "content": "Do you have a dedicated security team?" }, { "role": "assistant", "content": "As an AI developed by Amazon, I don not have a dedicated security team..." } ], "metadata": { "reference_answer": { "compliant": "No", "explanation": "As an AI developed by Company, I do not have a traditional security team..." }, "my_key": "sample-001" } }]
Output structure
[{ "id": "123", "aggregate_reward_score": 0.85, "metrics_list": [ { "name": "accuracy", "value": 0.9, "type": "Reward" }, { "name": "policy_compliance", "value": 0.8, "type": "Metric" } ] }]

Directives de conception

  • Classez les réponses — Donnez à la meilleure réponse un score nettement supérieur

  • Utilisez des contrôles cohérents : évaluez l'achèvement des tâches, le respect du format, la sécurité et une durée raisonnable

  • Maintenez une mise à l'échelle stable : maintenez les scores normalisés et non exploitables