Préparez un jeu de données pour une tâche d’évaluation dans laquelle Amazon Bedrock invoque des modèles pour vous Préparation d’un jeu de données pour une tâche d’évaluation à l’aide de vos propres données de réponse d’inférence

Création d’un jeu de données d’invite pour une tâche d’évaluation des modèles qui utilise un modèle en tant que juge

Pour créer une tâche d’évaluation des modèles qui utilise un modèle en tant que juge, vous devez spécifier un jeu de données d’invite. Ce jeu de données d’invite utilise le même format que les tâches d’évaluation des modèles automatiques et est utilisé lors de l’inférence avec les modèles que vous sélectionnez pour évaluation.

Si vous souhaitez évaluer des modèles autres qu’Amazon Bedrock à l’aide des réponses que vous avez déjà générées, incluez-les dans le jeu de données d’invite, comme décrit dans Préparation d’un jeu de données pour une tâche d’évaluation à l’aide de vos propres données de réponse d’inférence. Lorsque vous fournissez vos propres données de réponse d’inférence, Amazon Bedrock ignore l’étape d’invocation du modèle et effectue la tâche d’évaluation avec les données que vous fournissez.

Les jeux de données d’invite personnalisés doivent être stockés dans Amazon S3 et utiliser le format de ligne JSON et l’extension de fichier .jsonl. Chaque ligne doit être un objet JSON valide. Votre jeu de données peut contenir jusqu’à 1 000 invites par tâche d’évaluation.

La configuration CORS n'est pas requise pour les tâches LLM-as-a-judge d'évaluation. Pour les tâches d'évaluation basées sur l'homme, CORS est requis sur le compartiment de sortie S3. Pour en savoir plus, veuillez consulter la section Autorisation CORS (Cross Origin Resource Sharing) nécessaire sur les compartiments S3.

Préparez un jeu de données pour une tâche d’évaluation dans laquelle Amazon Bedrock invoque des modèles pour vous

Pour exécuter une tâche d’évaluation dans laquelle Amazon Bedrock invoque les modèles pour vous, créez un jeu de données d’invite contenant les paires clé-valeur suivantes :

prompt : l’invite à laquelle vous souhaitez que les modèles répondent.
referenceResponse : (facultatif) la réponse comportant une vérité terrain.
category (facultatif) : génère des scores d’évaluation rapportés pour chaque catégorie.

Note

Si vous choisissez de fournir une réponse comportant une vérité terrain (referenceResponse), Amazon Bedrock utilisera ce paramètre pour calculer les métriques Exhaustivité (Builtin.Completeness) et Exactitude (Builtin.Correctness). Vous pouvez également utiliser ces métriques sans fournir de réponse comportant une vérité terrain. Pour voir les invites d’évaluation pour ces deux scénarios, reportez-vous à la section relative au modèle d’évaluation que vous avez choisi dans Built-in un évaluateur métrique invite à effectuer des tâches d'évaluation du modèle en tant que juge.

Voici un exemple de jeu de données personnalisé qui contient 6 entrées et utilise le format de ligne JSON.


{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}

L’exemple suivant est une entrée unique développée dans un souci de clarté. Dans votre jeu de données d’invite actuel, chaque ligne doit être un objet JSON valide.


{
  "prompt": "What is high intensity interval training?",
  "category": "Fitness",
  "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods."
}

Préparation d’un jeu de données pour une tâche d’évaluation à l’aide de vos propres données de réponse d’inférence

Pour exécuter une tâche d’évaluation à l’aide des réponses que vous avez déjà générées, créez un jeu de données d’invite contenant les paires clé-valeur suivantes :

prompt : la requête que vos modèles ont utilisée pour générer les réponses.
referenceResponse : (facultatif) la réponse comportant une vérité terrain.
category (facultatif) : génère des scores d’évaluation rapportés pour chaque catégorie.
modelResponses : la réponse issue de votre propre inférence que vous souhaitez qu’Amazon Bedrock évalue. Les tâches d’évaluation qui utilisent un modèle en tant que juge ne prennent en charge qu’une seule réponse du modèle pour chaque invite, définie à l’aide des clés suivantes :
- response : une chaîne contenant la réponse issue de votre inférence de modèle.
- modelIdentifier : une chaîne identifiant le modèle qui a généré la réponse. Vous ne pouvez utiliser qu’un modelIdentifier unique dans une tâche d’évaluation et chaque invite de votre jeu de données doit utiliser cet identifiant.

Note

Voici un exemple de jeu de données personnalisé avec 6 entrées au format de ligne JSON.


{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}

L’exemple suivant montre une entrée unique dans un jeu de données d’invite développée dans un souci de clarté.


{
    "prompt": "What is high intensity interval training?",
    "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods.",
    "category": "Fitness",
     "modelResponses": [
        {
            "response": "High intensity interval training (HIIT) is a workout strategy that alternates between short bursts of intense, maximum-effort exercise and brief recovery periods, designed to maximize calorie burn and improve cardiovascular fitness.",
            "modelIdentifier": "my_model"
        }
    ]
}

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

LLM-juge : tâches d’évaluation de modèles

Métriques d’évaluation