Création d’une tâche d’évaluation de modèles à l’aide de métriques intégrées

Pour créer une tâche à l’aide des instructions suivantes, vous avez besoin d’un jeu de données d’invite. Si vous n’en avez pas encore créé, consultez Création d’un jeu de données d’invite pour une tâche d’évaluation des modèles qui utilise un modèle en tant que juge.

Console

Ouvrez la console Amazon Bedrock.
Dans le volet de gauche, sous Inférence et évaluation, sélectionnez Évaluations.
Dans le volet Évaluations des modèles, choisissez Créer, puis sélectionnez Automatique : modèle en tant que juge.
Saisissez les informations relatives à l’évaluation de votre modèle en procédant comme suit :
1. Dans le volet Détails de l’évaluation du modèle, sous Nom de l’évaluation, entrez le nom de votre tâche d’évaluation. Le nom que vous choisissez doit être unique au sein de votre Région AWS.
2. Éventuellement, dans Description – Facultatif, entrez la description de votre tâche d’évaluation.
3. Sous Modèle évaluateur, choisissez Sélectionner un modèle et sélectionnez le modèle d’évaluation que vous souhaitez évaluer.
Entrez la source d’inférence pour votre tâche d’évaluation. Avec les évaluations des modèles Amazon Bedrock, vous pouvez soit évaluer les performances des modèles Amazon Bedrock, soit celles d’autres modèles en fournissant vos propres données de réponse d’inférence dans le jeu de données d’invite. Pour sélectionner un modèle Amazon Bedrock, procédez comme suit :
1. Dans le volet Source d’inférence, sous Sélectionner la source, sélectionnez Modèles Bedrock.
2. Sous Sélectionner le modèle, choisissez Sélectionner le modèle.
3. Dans la fenêtre contextuelle, sélectionnez le modèle que vous souhaitez évaluer et choisissez Appliquer.
4. (Facultatif) Pour modifier les paramètres d’inférence du modèle, pour Configuration d’inférence, choisissez Mettre à jour.
Pour apporter vos propres données de réponse d’inférence, procédez comme suit :
1. Dans le volet Source d’inférence, sous Sélectionner la source, sélectionnez Apporter vos propres réponses d’inférence.
2. Dans Nom de la source, entrez le nom du modèle que vous avez utilisé pour créer les données de réponse. Le nom que vous saisissez doit correspondre au paramètre modelIdentifier de votre jeu de données d’invite.
Sélectionnez les métriques intégrées que vous souhaitez que le modèle évaluation utilise pour noter les réponses de votre modèle générateur en sélectionnant au moins une métrique dans le volet Métriques.
Définissez les emplacements d’entrée et de sortie de votre jeu de données et de vos résultats en procédant comme suit :
1. Dans le volet Jeux de données, sous Choisir un jeu de données d’invite, saisissez l’URI Amazon S3 de votre jeu de données d’invite ou cliquez sur Parcourir S3 et sélectionnez votre fichier. Pour voir une définition du format de jeu de données d’invite requis pour une tâche d’évaluation basée sur un modèle en tant que juge, consultez Création d’un jeu de données d’invite pour une tâche d’évaluation des modèles qui utilise un modèle en tant que juge.
2. Sous Résultats de l’évaluation, saisissez un emplacement Amazon S3 pour Amazon Bedrock afin d’enregistrer vos résultats ou cliquez sur Parcourir S3 pour sélectionner un emplacement.
Sous Rôle IAM Amazon Bedrock : autorisations, sélectionnez Créer et utiliser un nouveau rôle de service pour qu’Amazon Bedrock crée un nouveau rôle IAM pour la tâche d’évaluation, ou sélectionnez Utiliser un rôle de service existant pour sélectionner un rôle IAM existant. Pour obtenir la liste des autorisations requises pour créer et exécuter une tâche d’évaluation, consultez Conditions préalables.
(Facultatif) pour utiliser votre propre clé KMS pour chiffrer vos données d'évaluation, sous KMSKey - Facultatif, cochez Personnaliser les paramètres de chiffrement (avancés) et sélectionnez votre clé. AWS KMS Par défaut, Amazon Bedrock chiffre les données de votre tâche d’évaluation à l’aide d’une clé KMS détenue par AWS.
Cliquez sur Créer pour terminer la création de votre tâche d’évaluation.

AWS CLI

Exemple AWS CLI commande et fichier JSON pour créer une tâche d'évaluation pour un modèle Amazon Bedrock


aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json


{
    "jobName": "model-eval-llmaj",
    "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
    "applicationType": "ModelEvaluation",
    "evaluationConfig": {
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "General",
                    "dataset": {
                        "name": "text_dataset",
                        "datasetLocation": {
                            "s3Uri": "s3://amzn-s3-demo-bucket/input_datasets/text_dataset_input.jsonl"
                        }
                    },
                    "metricNames": [
                        "Builtin.Correctness",
                        "Builtin.Completeness"
                    ]
                }
            ],
            "evaluatorModelConfig": {
                "bedrockEvaluatorModels": [
                    {
                        "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
                    }
                ]
            }
        }
    },
    "inferenceConfig": {
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier": "anthropic.claude-v2",
                    "inferenceParams": "{\"inferenceConfig\":{\"maxTokens\":512,\"temperature\":1,\"topP\":0.999,\"stopSequences\":[\"stop\"]},\"additionalModelRequestFields\":{\"top_k\": 128}}"
                }
            }
        ]
    },
    "outputDataConfig": {
        "s3Uri": "s3://amzn-s3-demo-bucket/output_data/"
    }
}

Exemple AWS CLI commande et fichier JSON pour créer une tâche d'évaluation dans laquelle vous fournissez vos propres données de réponse d'inférence


aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json


{
    "jobName": "model-eval-llmaj",
    "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
    "evaluationConfig": {
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "General",
                    "dataset": {
                        "name": "text_dataset",
                        "datasetLocation": {
                            "s3Uri": "s3://amzn-s3-demo-bucket/input/model-eval/fitness-dataset-model-eval-byoi.jsonl"
                        }
                    },
                    "metricNames": [
                        "Builtin.Correctness",
                        "Builtin.Completeness"
                    ]
                }
            ],
            "evaluatorModelConfig": {
                "bedrockEvaluatorModels": [
                    {
                        "modelIdentifier": "us.meta.llama3-1-70b-instruct-v1:0"
                    }
                ]
            }
        }
    },
    "inferenceConfig": {
        "models": [
            {
                "precomputedInferenceSource": {
                    "inferenceSourceIdentifier": "my_model"
                }
            }
        ]
    },
    "outputDataConfig": {
        "s3Uri": "s3://amzn-s3-demo-bucket/output/"
    }
}

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Créez une tâche

Création une tâche avec des métriques personnalisées