

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Création d’une tâche d’évaluation de modèles à l’aide de métriques intégrées
<a name="model-evaluation-built-in-metrics"></a>

Pour créer une tâche à l’aide des instructions suivantes, vous avez besoin d’un jeu de données d’invite. Si vous n’en avez pas encore créé, consultez [Création d’un jeu de données d’invite pour une tâche d’évaluation des modèles qui utilise un modèle en tant que juge](model-evaluation-prompt-datasets-judge.md).

------
#### [ Console ]

1. Ouvrez la [console Amazon Bedrock](https://console.aws.amazon.com/bedrock/home).

1. Dans le volet de gauche, sous **Inférence et évaluation**, sélectionnez **Évaluations**.

1. Dans le volet **Évaluations des modèles**, choisissez **Créer**, puis sélectionnez **Automatique : modèle en tant que juge**.

1. Saisissez les informations relatives à l’évaluation de votre modèle en procédant comme suit :

   1. Dans le volet **Détails de l’évaluation du modèle**, sous **Nom de l’évaluation**, entrez le nom de votre tâche d’évaluation. Le nom que vous choisissez doit être unique au sein de votre Région AWS.

   1. Éventuellement, dans **Description – *Facultatif***, entrez la description de votre tâche d’évaluation.

   1. Sous **Modèle évaluateur**, choisissez **Sélectionner un modèle** et sélectionnez le modèle d’évaluation que vous souhaitez évaluer.

1. Entrez la source d’inférence pour votre tâche d’évaluation. Avec les évaluations des modèles Amazon Bedrock, vous pouvez soit évaluer les performances des modèles Amazon Bedrock, soit celles d’autres modèles en fournissant vos propres données de réponse d’inférence dans le [jeu de données d’invite](model-evaluation-prompt-datasets-judge.md). Pour sélectionner un modèle Amazon Bedrock, procédez comme suit :

   1. Dans le volet **Source d’inférence**, sous **Sélectionner la source**, sélectionnez **Modèles Bedrock**.

   1. Sous **Sélectionner le modèle**, choisissez **Sélectionner le modèle**.

   1. Dans la fenêtre contextuelle, sélectionnez le modèle que vous souhaitez évaluer et choisissez **Appliquer**.

   1. (Facultatif) Pour modifier les paramètres d’inférence du modèle, pour **Configuration d’inférence**, choisissez **Mettre à jour**.

1. Pour apporter vos propres données de réponse d’inférence, procédez comme suit :

   1. Dans le volet **Source d’inférence**, sous **Sélectionner la source**, sélectionnez **Apporter vos propres réponses d’inférence**.

   1. Dans **Nom de la source**, entrez le nom du modèle que vous avez utilisé pour créer les données de réponse. Le nom que vous saisissez doit correspondre au paramètre `modelIdentifier` de votre [jeu de données d’invite](model-evaluation-prompt-datasets-judge.md#model-evaluation-prompt-datasets-judge-byoir).

1. Sélectionnez les métriques intégrées que vous souhaitez que le modèle évaluation utilise pour noter les réponses de votre modèle générateur en sélectionnant au moins une métrique dans le volet **Métriques**.

1. Définissez les emplacements d’entrée et de sortie de votre jeu de données et de vos résultats en procédant comme suit :

   1. Dans le volet **Jeux de données**, sous **Choisir un jeu de données d’invite**, saisissez l’URI Amazon S3 de votre jeu de données d’invite ou cliquez sur **Parcourir S3** et sélectionnez votre fichier. Pour voir une définition du format de jeu de données d’invite requis pour une tâche d’évaluation basée sur un modèle en tant que juge, consultez [Création d’un jeu de données d’invite pour une tâche d’évaluation des modèles qui utilise un modèle en tant que juge](model-evaluation-prompt-datasets-judge.md).

   1. Sous **Résultats de l’évaluation**, saisissez un emplacement Amazon S3 pour Amazon Bedrock afin d’enregistrer vos résultats ou cliquez sur **Parcourir S3** pour sélectionner un emplacement.

1. Sous **Rôle IAM Amazon Bedrock : autorisations**, sélectionnez **Créer et utiliser un nouveau rôle de service** pour qu’Amazon Bedrock crée un nouveau rôle IAM pour la tâche d’évaluation, ou sélectionnez **Utiliser un rôle de service existant** pour sélectionner un rôle IAM existant. Pour obtenir la liste des autorisations requises pour créer et exécuter une tâche d’évaluation, consultez [Conditions préalables](model-evaluation-judge-create.md#model-evaluation-judge-create-prereqs).

1. (Facultatif) pour utiliser votre propre clé KMS pour chiffrer vos données d'évaluation, sous **KMSKey - *Facultatif*, cochez **Personnaliser les paramètres de chiffrement (avancés)** et sélectionnez votre clé**. AWS KMS Par défaut, Amazon Bedrock chiffre les données de votre tâche d’évaluation à l’aide d’une clé KMS détenue par AWS.

1. Cliquez sur **Créer** pour terminer la création de votre tâche d’évaluation.

------
#### [ AWS CLI ]
+   
**Example AWS CLI commande et fichier JSON pour créer une tâche d'évaluation pour un modèle Amazon Bedrock**  

  ```
  aws bedrock create-evaluation-job --cli-input-json file://{{my_eval_job.json}}
  ```

  ```
  {
      "jobName": {{"model-eval-llmaj"}},
      "roleArn": "arn:aws:iam::{{111122223333}}:role/Amazon-Bedrock-ModelAsAJudgeTest",
      "applicationType": "ModelEvaluation",
      "evaluationConfig": {
          "automated": {
              "datasetMetricConfigs": [
                  {
                      "taskType": "General",
                      "dataset": {
                          "name": "text_dataset",
                          "datasetLocation": {
                              "s3Uri": "s3://amzn-s3-demo-bucket/input_datasets/text_dataset_input.jsonl"
                          }
                      },
                      "metricNames": [
                          "Builtin.Correctness",
                          "Builtin.Completeness"
                      ]
                  }
              ],
              "evaluatorModelConfig": {
                  "bedrockEvaluatorModels": [
                      {
                          "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
                      }
                  ]
              }
          }
      },
      "inferenceConfig": {
          "models": [
              {
                  "bedrockModel": {
                      "modelIdentifier": "anthropic.claude-v2",
                      "inferenceParams": "{\"inferenceConfig\":{\"maxTokens\":512,\"temperature\":1,\"topP\":0.999,\"stopSequences\":[\"stop\"]},\"additionalModelRequestFields\":{\"top_k\": 128}}"
                  }
              }
          ]
      },
      "outputDataConfig": {
          "s3Uri": "s3://amzn-s3-demo-bucket/output_data/"
      }
  }
  ```  
**Example AWS CLI commande et fichier JSON pour créer une tâche d'évaluation dans laquelle vous fournissez vos propres données de réponse d'inférence**  

  ```
  aws bedrock create-evaluation-job --cli-input-json file://{{my_eval_job.json}}
  ```

  ```
  {
      "jobName": {{"model-eval-llmaj"}},
      "roleArn": "arn:aws:iam::{{111122223333}}:role/Amazon-Bedrock-ModelAsAJudgeTest",
      "evaluationConfig": {
          "automated": {
              "datasetMetricConfigs": [
                  {
                      "taskType": "General",
                      "dataset": {
                          "name": "text_dataset",
                          "datasetLocation": {
                              "s3Uri": "{{s3://amzn-s3-demo-bucket/input/model-eval/fitness-dataset-model-eval-byoi.jsonl}}"
                          }
                      },
                      "metricNames": [
                          "Builtin.Correctness",
                          "Builtin.Completeness"
                      ]
                  }
              ],
              "evaluatorModelConfig": {
                  "bedrockEvaluatorModels": [
                      {
                          "modelIdentifier": "us.meta.llama3-1-70b-instruct-v1:0"
                      }
                  ]
              }
          }
      },
      "inferenceConfig": {
          "models": [
              {
                  "precomputedInferenceSource": {
                      "inferenceSourceIdentifier": "my_model"
                  }
              }
          ]
      },
      "outputDataConfig": {
          "s3Uri": "s3://amzn-s3-demo-bucket/output/"
      }
  }
  ```

------