Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Création d’un jeu de données d’invite pour une tâche d’évaluation des modèles qui utilise un modèle en tant que juge
Pour créer une tâche d’évaluation des modèles qui utilise un modèle en tant que juge, vous devez spécifier un jeu de données d’invite. Ce jeu de données d’invite utilise le même format que les tâches d’évaluation des modèles automatiques et est utilisé lors de l’inférence avec les modèles que vous sélectionnez pour évaluation.
Si vous souhaitez évaluer des modèles autres qu’Amazon Bedrock à l’aide des réponses que vous avez déjà générées, incluez-les dans le jeu de données d’invite, comme décrit dans Préparation d’un jeu de données pour une tâche d’évaluation à l’aide de vos propres données de réponse d’inférence. Lorsque vous fournissez vos propres données de réponse d’inférence, Amazon Bedrock ignore l’étape d’invocation du modèle et effectue la tâche d’évaluation avec les données que vous fournissez.
Les jeux de données d’invite personnalisés doivent être stockés dans Amazon S3 et utiliser le format de ligne JSON et l’extension de fichier .jsonl. Chaque ligne doit être un objet JSON valide. Votre jeu de données peut contenir jusqu’à 1 000 invites par tâche d’évaluation.
Pour les tâches créées à l’aide de la console, vous devez mettre à jour la configuration CORS (Cross Origin Resource Sharing) sur le compartiment S3. Pour en savoir plus sur les autorisations CORS nécessaires, consultez Autorisation CORS (Cross Origin Resource Sharing) nécessaire sur les compartiments S3.
Préparez un jeu de données pour une tâche d’évaluation dans laquelle Amazon Bedrock invoque des modèles pour vous
Pour exécuter une tâche d’évaluation dans laquelle Amazon Bedrock invoque les modèles pour vous, créez un jeu de données d’invite contenant les paires clé-valeur suivantes :
-
prompt: l’invite à laquelle vous souhaitez que les modèles répondent. -
referenceResponse: (facultatif) la réponse comportant une vérité terrain. -
category(facultatif) : génère des scores d’évaluation rapportés pour chaque catégorie.
Note
Si vous choisissez de fournir une réponse comportant une vérité terrain (referenceResponse), Amazon Bedrock utilisera ce paramètre pour calculer les métriques Exhaustivité (Builtin.Completeness) et Exactitude (Builtin.Correctness). Vous pouvez également utiliser ces métriques sans fournir de réponse comportant une vérité terrain. Pour voir les invites d’évaluation pour ces deux scénarios, reportez-vous à la section relative au modèle d’évaluation que vous avez choisi dans Invites de l’évaluateur de métrique intégré pour des tâches d’évaluation de modèle en tant que juge.
Voici un exemple de jeu de données personnalisé qui contient 6 entrées et utilise le format de ligne JSON.
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
L’exemple suivant est une entrée unique développée dans un souci de clarté. Dans votre jeu de données d’invite actuel, chaque ligne doit être un objet JSON valide.
{ "prompt": "What is high intensity interval training?", "category": "Fitness", "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods." }
Préparation d’un jeu de données pour une tâche d’évaluation à l’aide de vos propres données de réponse d’inférence
Pour exécuter une tâche d’évaluation à l’aide des réponses que vous avez déjà générées, créez un jeu de données d’invite contenant les paires clé-valeur suivantes :
-
prompt: la requête que vos modèles ont utilisée pour générer les réponses. -
referenceResponse: (facultatif) la réponse comportant une vérité terrain. -
category(facultatif) : génère des scores d’évaluation rapportés pour chaque catégorie. -
modelResponses: la réponse issue de votre propre inférence que vous souhaitez qu’Amazon Bedrock évalue. Les tâches d’évaluation qui utilisent un modèle en tant que juge ne prennent en charge qu’une seule réponse du modèle pour chaque invite, définie à l’aide des clés suivantes :-
response: une chaîne contenant la réponse issue de votre inférence de modèle. -
modelIdentifier: une chaîne identifiant le modèle qui a généré la réponse. Vous ne pouvez utiliser qu’unmodelIdentifierunique dans une tâche d’évaluation et chaque invite de votre jeu de données doit utiliser cet identifiant.
-
Note
Si vous choisissez de fournir une réponse comportant une vérité terrain (referenceResponse), Amazon Bedrock utilisera ce paramètre pour calculer les métriques Exhaustivité (Builtin.Completeness) et Exactitude (Builtin.Correctness). Vous pouvez également utiliser ces métriques sans fournir de réponse comportant une vérité terrain. Pour voir les invites d’évaluation pour ces deux scénarios, reportez-vous à la section relative au modèle d’évaluation que vous avez choisi dans Invites de l’évaluateur de métrique intégré pour des tâches d’évaluation de modèle en tant que juge.
Voici un exemple de jeu de données personnalisé avec 6 entrées au format de ligne JSON.
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]} {"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]} {"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]} {"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]} {"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]} {"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
L’exemple suivant montre une entrée unique dans un jeu de données d’invite développée dans un souci de clarté.
{ "prompt": "What is high intensity interval training?", "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods.", "category": "Fitness", "modelResponses": [ { "response": "High intensity interval training (HIIT) is a workout strategy that alternates between short bursts of intense, maximum-effort exercise and brief recovery periods, designed to maximize calorie burn and improve cardiovascular fitness.", "modelIdentifier": "my_model" } ] }