

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Buat pekerjaan evaluasi model menggunakan metrik bawaan
<a name="model-evaluation-built-in-metrics"></a>

Untuk membuat pekerjaan menggunakan petunjuk berikut, Anda memerlukan kumpulan data yang cepat. Jika Anda belum membuatnya, lihat[Buat kumpulan data cepat untuk pekerjaan evaluasi model yang menggunakan model sebagai hakim](model-evaluation-prompt-datasets-judge.md).

------
#### [ Console ]

1. Buka [konsol Amazon Bedrock](https://console.aws.amazon.com/bedrock/home).

1. **Di panel sebelah kiri di bawah **Inferensi dan penilaian**, pilih Evaluasi.**

1. Di panel **evaluasi Model**, pilih **Buat** dan pilih **Otomatis: Model sebagai** juri.

1. Masukkan detail evaluasi model Anda dengan melakukan hal berikut:

   1. Di panel **Detail evaluasi model** di bawah **Nama evaluasi**, masukkan nama untuk pekerjaan evaluasi Anda. Nama yang Anda pilih harus unik di dalam diri Anda Wilayah AWS.

   1. Secara opsional, di bawah **Deskripsi - *opsional***, masukkan deskripsi untuk pekerjaan evaluasi Anda.

   1. Di bawah **model Evaluator**, **pilih Pilih model** dan pilih model juri yang ingin Anda lakukan evaluasi.

1. Masukkan sumber inferensi untuk pekerjaan evaluasi Anda. [Dengan evaluasi model Amazon Bedrock, Anda dapat mengevaluasi kinerja model Amazon Bedrock, atau model lain dengan menyediakan data respons inferensi Anda sendiri dalam kumpulan data yang cepat.](model-evaluation-prompt-datasets-judge.md) Untuk memilih model Amazon Bedrock, lakukan hal berikut:

   1. Di panel **Sumber inferensi**, di bawah **Pilih sumber pilih Model** **batuan dasar**.

   1. Di bawah **Pilih model**, pilih **Pilih model**.

   1. Di pop-up, pilih model yang ingin Anda evaluasi dan pilih **Terapkan**.

   1. **(Opsional) untuk mengubah parameter inferensi model, untuk **konfigurasi Inferensi**, pilih pembaruan.**

1. Untuk membawa data respons inferensi Anda sendiri, lakukan hal berikut:

   1. Di panel **Sumber inferensi**, di bawah **Pilih sumber pilih** **Bawa tanggapan inferensi Anda sendiri**.

   1. Untuk **nama Sumber**, masukkan nama untuk model yang Anda gunakan untuk membuat data respons. Nama yang Anda masukkan harus cocok dengan `modelIdentifier` parameter dalam [kumpulan data prompt](model-evaluation-prompt-datasets-judge.md#model-evaluation-prompt-datasets-judge-byoir) Anda.

1. Pilih metrik bawaan yang Anda inginkan agar model evaluator menilai respons model generator Anda dengan memilih setidaknya satu metrik di panel **Metrik**.

1. Tentukan lokasi input dan output untuk dataset dan hasil Anda dengan melakukan hal berikut:

   1. **Di panel **Datasets** di bawah **Pilih kumpulan data prompt, masukkan URI Amazon S3 untuk kumpulan data** prompt Anda, atau pilih Jelajahi S3 dan pilih file Anda.** Untuk melihat definisi format kumpulan data prompt yang diperlukan untuk pekerjaan model-as-a-judge evaluasi, lihat[Buat kumpulan data cepat untuk pekerjaan evaluasi model yang menggunakan model sebagai hakim](model-evaluation-prompt-datasets-judge.md).

   1. Di bawah **Hasil evaluasi**, masukkan lokasi Amazon S3 untuk Amazon Bedrock untuk menyimpan hasil Anda, atau pilih **Jelajahi S3** untuk memilih lokasi.

1. Di bawah **peran Amazon Bedrock IAM - Izin**, pilih **Buat dan gunakan peran layanan baru** agar Amazon Bedrock membuat peran IAM baru untuk pekerjaan evaluasi, atau pilih **Gunakan peran layanan yang ada untuk memilih peran IAM yang ada**. Untuk daftar izin yang diperlukan untuk membuat dan menjalankan pekerjaan evaluasi, lihat[Prasyarat](model-evaluation-judge-create.md#model-evaluation-judge-create-prereqs).

1. (Opsional) untuk menggunakan kunci KMS Anda sendiri untuk mengenkripsi data evaluasi Anda, di bawah **KMSkey - *Opsional***, periksa **Sesuaikan pengaturan enkripsi (lanjutan)** dan pilih kunci Anda AWS KMS . Secara default, Amazon Bedrock mengenkripsi data pekerjaan evaluasi Anda dengan kunci KMS yang AWS dimiliki.

1. Pilih **Buat** untuk menyelesaikan pembuatan pekerjaan evaluasi Anda.

------
#### [ AWS CLI ]
+   
**Example AWS CLI perintah dan file JSON untuk membuat pekerjaan evaluasi untuk model Amazon Bedrock**  

  ```
  aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json
  ```

  ```
  {
      "jobName": "model-eval-llmaj",
      "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
      "applicationType": "ModelEvaluation",
      "evaluationConfig": {
          "automated": {
              "datasetMetricConfigs": [
                  {
                      "taskType": "General",
                      "dataset": {
                          "name": "text_dataset",
                          "datasetLocation": {
                              "s3Uri": "s3://amzn-s3-demo-bucket/input_datasets/text_dataset_input.jsonl"
                          }
                      },
                      "metricNames": [
                          "Builtin.Correctness",
                          "Builtin.Completeness"
                      ]
                  }
              ],
              "evaluatorModelConfig": {
                  "bedrockEvaluatorModels": [
                      {
                          "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
                      }
                  ]
              }
          }
      },
      "inferenceConfig": {
          "models": [
              {
                  "bedrockModel": {
                      "modelIdentifier": "anthropic.claude-v2",
                      "inferenceParams": "{\"inferenceConfig\":{\"maxTokens\":512,\"temperature\":1,\"topP\":0.999,\"stopSequences\":[\"stop\"]},\"additionalModelRequestFields\":{\"top_k\": 128}}"
                  }
              }
          ]
      },
      "outputDataConfig": {
          "s3Uri": "s3://amzn-s3-demo-bucket/output_data/"
      }
  }
  ```  
**Example AWS CLI perintah dan file JSON untuk membuat pekerjaan evaluasi di mana Anda memberikan data respons inferensi Anda sendiri**  

  ```
  aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json
  ```

  ```
  {
      "jobName": "model-eval-llmaj",
      "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
      "evaluationConfig": {
          "automated": {
              "datasetMetricConfigs": [
                  {
                      "taskType": "General",
                      "dataset": {
                          "name": "text_dataset",
                          "datasetLocation": {
                              "s3Uri": "s3://amzn-s3-demo-bucket/input/model-eval/fitness-dataset-model-eval-byoi.jsonl"
                          }
                      },
                      "metricNames": [
                          "Builtin.Correctness",
                          "Builtin.Completeness"
                      ]
                  }
              ],
              "evaluatorModelConfig": {
                  "bedrockEvaluatorModels": [
                      {
                          "modelIdentifier": "us.meta.llama3-1-70b-instruct-v1:0"
                      }
                  ]
              }
          }
      },
      "inferenceConfig": {
          "models": [
              {
                  "precomputedInferenceSource": {
                      "inferenceSourceIdentifier": "my_model"
                  }
              }
          ]
      },
      "outputDataConfig": {
          "s3Uri": "s3://amzn-s3-demo-bucket/output/"
      }
  }
  ```

------