

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Membuat pekerjaan evaluasi model menggunakan metrik kustom
<a name="model-evaluation-custom-metrics-create-job"></a>

Untuk membuat pekerjaan evaluasi yang menggunakan metrik kustom, Anda perlu menyediakan yang berikut:
+ Prompt yang berisi instruksi terperinci untuk digunakan model hakim
+ Model evaluator yang ingin Anda gunakan untuk metrik kustom

Anda juga dapat menentukan skala penilaian (skema keluaran) yang dapat digunakan model hakim untuk menilai respons model generator.

Anda dapat membuat tugas evaluasi dengan metrik kustom menggunakan Konsol Manajemen AWS, AWS Command Line Interface (AWS CLI), atau menggunakan Amazon Bedrock API. Gunakan instruksi berikut untuk membuat pekerjaan evaluasi Anda. Untuk petunjuk dan panduan cara membuat prompt untuk metrik Anda dan menentukan skala peringkat yang Anda tentukan selama pembuatan, lihat[Buat prompt untuk metrik kustom](model-evaluation-custom-metrics-prompt-formats.md).

Saat Anda membuat pekerjaan evaluasi dengan satu atau beberapa metrik kustom, Amazon Bedrock menyimpan definisi metrik Anda sebagai file JSON di bucket output S3 yang Anda tentukan. Anda dapat mengakses file-file ini dengan menavigasi ke. `s3://S3-output-bucket-name/job-name/job-uuid/custom_metrics` Untuk melihat format definisi JSON dari metrik kustom, lihat. [Membuat file JSON untuk membuat metrik khusus](model-evaluation-custom-metrics-prompt-formats.md#model-evaluation-custom-metrics-prompt-formats-json)

Untuk membuat pekerjaan menggunakan instruksi berikut, Anda juga memerlukan kumpulan data yang cepat. Jika Anda belum membuatnya, lihat[Buat kumpulan data cepat untuk pekerjaan evaluasi model yang menggunakan model sebagai hakim](model-evaluation-prompt-datasets-judge.md).

Gunakan petunjuk berikut untuk membuat pekerjaan model-as-a-judge evaluasi dengan satu atau beberapa metrik kustom

------
#### [ Console ]

1. Buka [konsol Amazon Bedrock](https://console.aws.amazon.com/bedrock/home).

1. **Di panel sebelah kiri di bawah **Inferensi dan penilaian**, pilih Evaluasi.**

1. Di panel **evaluasi Model**, pilih **Buat** dan pilih **Otomatis: Model sebagai hakim**.

1. Masukkan detail evaluasi model Anda dengan melakukan hal berikut:

   1. Di panel **Detail evaluasi model** di bawah **Nama evaluasi**, masukkan nama untuk pekerjaan evaluasi Anda. Nama yang Anda pilih harus unik di dalam diri Anda Wilayah AWS.

   1. Secara opsional, di bawah **Deskripsi - *opsional***, masukkan deskripsi untuk pekerjaan evaluasi Anda.

   1. Di bawah **Model Evaluator**, **pilih Pilih model** dan pilih model juri yang ingin Anda lakukan dalam pekerjaan evaluasi Anda. Perhatikan bahwa model yang Anda pilih di sini digunakan untuk mengevaluasi model generator Anda terhadap metrik bawaan yang Anda pilih. Anda dapat memilih model evaluator yang berbeda untuk digunakan untuk metrik kustom Anda di langkah selanjutnya.

1. Masukkan sumber inferensi untuk pekerjaan evaluasi Anda. [Dengan evaluasi model Amazon Bedrock, Anda dapat mengevaluasi kinerja model Amazon Bedrock, atau model lain dengan menyediakan data respons inferensi Anda sendiri dalam kumpulan data yang cepat.](model-evaluation-prompt-datasets-judge.md) Untuk memilih model Amazon Bedrock, lakukan hal berikut:

   1. Di panel **Sumber inferensi**, di bawah **Pilih sumber pilih Model** **batuan dasar**.

   1. Di bawah **Pilih model**, pilih **Pilih model**.

   1. Di pop-up, pilih model yang ingin Anda evaluasi dan pilih **Terapkan**.

   1. **(Opsional) untuk mengubah parameter inferensi model, untuk **konfigurasi Inferensi**, pilih pembaruan.**

1. Untuk membawa data respons inferensi Anda sendiri, lakukan hal berikut:

   1. Di panel **Sumber inferensi**, di bawah **Pilih sumber pilih** **Bawa tanggapan inferensi Anda sendiri**.

   1. Untuk **nama Sumber**, masukkan nama untuk model yang Anda gunakan untuk membuat data respons. Nama yang Anda masukkan harus cocok dengan `modelIdentifier` parameter dalam [kumpulan data prompt](model-evaluation-prompt-datasets-judge.md#model-evaluation-prompt-datasets-judge-byoir) Anda.

1. Pilih metrik bawaan yang Anda inginkan agar model evaluator dapat menilai respons model generator Anda dengan memilihnya di panel **Metrik**.

1. Untuk menambahkan satu metrik kustom lagi, mulailah dengan memilih model evaluator yang ingin Anda gunakan untuk mengevaluasi metrik Anda. Di panel **Metrik kustom**, lakukan hal berikut:

   1. Pilih **Pilih model**.

   1. Di pop-up, pilih model yang ingin Anda gunakan.

   1. Pilih **Terapkan**.

1. Di bawah **Nama metrik**, masukkan nama untuk metrik Anda.

1. Anda dapat mengonfigurasi metrik Anda dengan tiga cara: dengan menyediakan file JSON yang menentukan metrik, dengan mengedit prompt metrik bawaan yang ada dari templat, atau dengan memasukkan prompt langsung di konsol untuk digunakan model evaluator.

   Untuk membuat metrik dari file JSON, lakukan hal berikut:

   1. Di bawah **Pilih jenis metrik**, pilih **Impor file JSON**.

   1. Di bawah **Impor file JSON**, pilih **Pilih file**.

   1. **Menggunakan pemilih file, pilih file JSON dengan definisi metrik kustom Anda dan pilih Buka.** Untuk mempelajari skema untuk menentukan metrik kustom menggunakan file JSON, dan untuk melihat beberapa contoh file, lihat. [Membuat file JSON untuk membuat metrik khusus](model-evaluation-custom-metrics-prompt-formats.md#model-evaluation-custom-metrics-prompt-formats-json)

   1. (Opsional) untuk membuat metrik lain, pilih **Tambahkan metrik khusus**. Anda dapat membuat hingga 10 metrik khusus untuk pekerjaan evaluasi.

      Setelah selesai membuat metrik kustom, lanjutkan ke langkah 13 untuk mengonfigurasi kumpulan data Anda untuk pekerjaan evaluasi.

1. Untuk membuat metrik kustom dari templat bawaan, lakukan hal berikut:

   1. Di bawah **Pilih jenis metrik**, pilih **Gunakan templat**.

   1. Di bawah **Pilih templat**, gunakan daftar tarik-turun untuk memilih prompt metrik bawaan yang ada untuk digunakan sebagai titik awal untuk metrik kustom Anda.

   1. Di bawah **Instruksi** edit prompt yang Anda pilih agar sesuai dengan kasus penggunaan Anda sendiri. Untuk praktik terbaik dan daftar elemen yang diperlukan saat membuat prompt metrik kustom, lihat[Buat prompt untuk metrik kustom](model-evaluation-custom-metrics-prompt-formats.md).

   1. Jika Anda ingin pekerjaan evaluasi Anda menghasilkan output terstruktur dengan skor peringkat, biarkan **skema Output diaktifkan (disarankan)** dicentang. Konfigurasi metrik Anda tidak perlu menyertakan skema keluaran, tetapi kami menyarankan Anda untuk mendefinisikannya. Jika Anda tidak menggunakan skema, hasil yang Anda lihat hanya akan menyertakan penjelasan tanpa skor atau visualisasi data.

   1. Di bawah **Jenis skala**, pilih **Numerik** atau **String** sesuai dengan kasus penggunaan Anda, dan masukkan definisi skala dan deskripsi Anda di kotak teks. Untuk panduan dan praktik terbaik dalam menentukan skala keluaran, lihat[Menentukan skema keluaran (skala penilaian)](model-evaluation-custom-metrics-prompt-formats.md#model-evaluation-custom-metrics-prompt-formats-schema).

   1. (Opsional) untuk membuat metrik lain, pilih **Tambahkan metrik khusus**. Anda dapat membuat hingga 10 metrik khusus untuk pekerjaan evaluasi.

      Setelah selesai membuat metrik kustom, lanjutkan ke langkah 13 untuk mengonfigurasi kumpulan data Anda untuk pekerjaan evaluasi.

1. Untuk membuat metrik kustom dari awal di konsol, lakukan hal berikut:

   1. Di bawah **Pilih jenis metrik**, pilih **Kustom**.

   1. Di bawah **Instruksi**, masukkan prompt untuk metrik kustom Anda langsung di kotak teks. Untuk praktik terbaik dan daftar elemen yang diperlukan saat membuat prompt metrik kustom, lihat[Konstruksi yang cepat dan praktik terbaik](model-evaluation-custom-metrics-prompt-formats.md#model-evaluation-custom-metrics-prompt-formats-create).

   1. Jika Anda ingin pekerjaan evaluasi Anda menghasilkan output terstruktur dengan skor peringkat, biarkan **skema Output diaktifkan (disarankan)** dicentang. Konfigurasi metrik Anda tidak perlu menyertakan skema keluaran, tetapi kami menyarankan Anda untuk mendefinisikannya. Jika Anda tidak menggunakan skema, hasil yang Anda lihat hanya akan menyertakan penjelasan tanpa skor atau visualisasi data.

   1. Di bawah **Jenis skala**, pilih **numerik** atau **String** sesuai dengan kasus penggunaan Anda, dan masukkan definisi skala dan deskripsi Anda di kotak teks. Untuk panduan dan praktik terbaik dalam menentukan skala keluaran, lihat[Menentukan skema keluaran (skala penilaian)](model-evaluation-custom-metrics-prompt-formats.md#model-evaluation-custom-metrics-prompt-formats-schema).

   1. (Opsional) untuk membuat yang lain, pilih **Tambahkan metrik khusus**. Anda dapat membuat hingga 10 metrik khusus untuk pekerjaan evaluasi.

      Setelah selesai membuat metrik kustom, lanjutkan ke langkah berikutnya untuk mengonfigurasi kumpulan data Anda untuk pekerjaan evaluasi.

1. Tentukan lokasi input dan output untuk dataset dan hasil Anda dengan melakukan hal berikut:

   1. **Di panel **Datasets** di bawah **Pilih kumpulan data prompt, masukkan URI Amazon S3 untuk kumpulan data** prompt Anda, atau pilih Jelajahi S3 dan pilih file Anda.** Untuk melihat definisi format kumpulan data prompt yang diperlukan untuk pekerjaan model-as-a-judge evaluasi, lihat[Buat kumpulan data cepat untuk pekerjaan evaluasi model yang menggunakan model sebagai hakim](model-evaluation-prompt-datasets-judge.md).

   1. Di bawah **Hasil evaluasi**, masukkan lokasi Amazon S3 untuk Amazon Bedrock untuk menyimpan hasil Anda, atau pilih **Jelajahi S3** untuk memilih lokasi.

1. Di bawah **peran Amazon Bedrock IAM - Izin**, pilih **Buat dan gunakan peran layanan baru** agar Amazon Bedrock membuat peran IAM baru untuk pekerjaan evaluasi, atau pilih **Gunakan peran layanan yang ada untuk memilih peran IAM yang ada**. Untuk daftar izin yang diperlukan untuk membuat dan menjalankan pekerjaan evaluasi, lihat[Prasyarat](model-evaluation-judge-create.md#model-evaluation-judge-create-prereqs).

1. (Opsional) untuk menggunakan kunci KMS Anda sendiri untuk mengenkripsi data evaluasi Anda, di bawah **KMSkey - *Opsional***, periksa **Sesuaikan pengaturan enkripsi (lanjutan)** dan pilih kunci Anda AWS KMS . Secara default, Amazon Bedrock mengenkripsi data pekerjaan evaluasi Anda dengan kunci KMS yang AWS dimiliki.

1. Pilih **Buat** untuk menyelesaikan pembuatan pekerjaan evaluasi Anda.

------
#### [ AWS CLI ]

Contoh berikut menunjukkan cara membuat `create-evaluation-job` permintaan menggunakan AWS CLI untuk pekerjaan yang menyertakan metrik kustom. Pastikan itu `applicationType` ditentukan sebagai`ModelEvaluation`.

Anda dapat mengevaluasi kinerja model di Amazon Bedrock, atau Anda dapat mengevaluasi model lain dengan menyediakan data respons inferensi Anda sendiri sebagai bagian dari kumpulan data prompt. Untuk mempelajari lebih lanjut tentang cara membuat kumpulan data prompt menggunakan respons inferensi Anda sendiri, lihat. [Buat kumpulan data cepat untuk pekerjaan evaluasi model yang menggunakan model sebagai hakim](model-evaluation-prompt-datasets-judge.md)

**Example AWS CLI perintah dan file JSON untuk membuat pekerjaan evaluasi dengan metrik khusus untuk model Amazon Bedrock**  

```
aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json
```

```
{
    "jobName": "custom-metrics-maaj",
    "applicationType": "ModelEvaluation",
    "roleArn": "arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-Custom-Metric",
    "evaluationConfig": {
        "automated": {
            "datasetMetricConfigs": [{
                "taskType": "General",
                "dataset": {
                    "name": "text_dataset",
                    "datasetLocation": {
                        "s3Uri": "s3://amzn-s3-demo-bucket/input_datasets/text_dataset_input.jsonl"
                    }
                },
                 "metricNames": [
                        "CustomMetric-Correctness-FloatRatingScale"
                    ]
            }],
            "customMetricConfig": {
                "customMetrics": [{
                        "customMetricDefinition": {
                            "name": "CustomMetric-Correctness-FloatRatingScale",
                            "instructions": "<Your complete custom metric prompt including at least one {{input variable}}>",
                            "ratingScale": [{
                                    "definition": "Not at all",
                                    "value": {
                                        "floatValue": 0
                                    }
                                },
                                {
                                    "definition": "Somewhat",
                                    "value": {
                                        "floatValue": 1
                                    }
                                },
                                {
                                    "definition": "Mostly",
                                    "value": {
                                        "floatValue": 2
                                    }
                                }
                            ]
                        }
                    }
                ],
                "evaluatorModelConfig": {
                    "bedrockEvaluatorModels": [{
                        "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
                    }]
                }
            },
            "evaluatorModelConfig": {
                "bedrockEvaluatorModels": [{
                    "modelIdentifier": "mistral.mistral-large-2402-v1:0"
                }]
            }
        }
    },
    "inferenceConfig": {
        "models": [{
            "bedrockModel": {
                "modelIdentifier": "anthropic.claude-v2",
                "inferenceParams": "{\"textGenerationConfig\":{\"maxTokenCount\":256,\"temperature\":0.25,\"topP\":0.25}}"
            }
        }]
    },
    "outputDataConfig": {
        "s3Uri": "s3://amzn-s3-demo-destination-bucket/output/"
    }
}
```
Contoh file JSON berisi dua `evaluatorModelConfig` objek. Yang di dalam `customMetricConfig` objek menentukan model evaluator yang akan digunakan dengan metrik kustom. Contoh lain menentukan model yang akan digunakan untuk metrik bawaan. Berhati-hatilah untuk menentukan kedua objek ini dengan benar.

**Example AWS CLI perintah dan file JSON untuk membuat pekerjaan evaluasi dengan metrik khusus tempat Anda memberikan data respons inferensi Anda sendiri**  

```
aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json
```

```
{
    "jobName": "custom-metrics-maaj",
    "applicationType": "ModelEvaluation",
    "roleArn": "arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-Custom-Metric",
    "evaluationConfig": {
        "automated": {
            "datasetMetricConfigs": [{
                "taskType": "General",
                "dataset": {
                    "name": "text_dataset",
                    "datasetLocation": {
                        "s3Uri": "s3://amzn-s3-demo-bucket/input_datasets/text_dataset_input.jsonl"
                    }
                },
                "metricNames": [
                        "CustomMetric-Correctness-FloatRatingScale"
                    ]
            }],
            "customMetricConfig": {
                "customMetrics": [{
                        "customMetricDefinition": {
                            "name": "CustomMetric-Correctness-FloatRatingScale",
                            "instructions": "<Your complete custom metric prompt including at least one {{input variable}}>",
                            "ratingScale": [{
                                    "definition": "Not at all",
                                    "value": {
                                        "floatValue": 0
                                    }
                                },
                                {
                                    "definition": "Somewhat",
                                    "value": {
                                        "floatValue": 1
                                    }
                                },
                                {
                                    "definition": "Mostly",
                                    "value": {
                                        "floatValue": 2
                                    }
                                }
                            ]
                        }
                    }
                ],
                "evaluatorModelConfig": {
                    "bedrockEvaluatorModels": [{
                        "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
                    }]
                }
            },
            "evaluatorModelConfig": {
                "bedrockEvaluatorModels": [{
                    "modelIdentifier": "mistral.mistral-large-2402-v1:0"
                }]
            }
        }
    },
     "inferenceConfig": {
        "models": [
            {
                "precomputedInferenceSource": {
                    "inferenceSourceIdentifier": "my_model"
                }
            }
        ]
    },
    "outputDataConfig": {
        "s3Uri": "s3://amzn-s3-demo-destination-bucket/output/"
    }
}
```
Contoh file JSON berisi dua `evaluatorModelConfig` objek. Yang di dalam `customMetricConfig` objek menentukan model evaluator yang akan digunakan dengan metrik kustom. Contoh lain menentukan model yang akan digunakan untuk metrik bawaan. Berhati-hatilah untuk menentukan kedua objek ini dengan benar.

------