

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Jenis tugas evaluasi model di Amazon Bedrock
<a name="model-evaluation-tasks"></a>

Dalam pekerjaan evaluasi model, jenis tugas evaluasi adalah tugas yang Anda ingin model lakukan berdasarkan informasi dalam petunjuk Anda. Anda dapat memilih satu jenis tugas per pekerjaan evaluasi model.

Tabel berikut merangkum jenis tugas yang tersedia untuk evaluasi model otomatis, kumpulan data bawaan, dan metrik yang relevan untuk setiap jenis tugas.


**Set data bawaan yang tersedia untuk pekerjaan evaluasi model otomatis di Amazon Bedrock**  


- **Generasi teks umum **
  - **Metrik:** Akurasi  / **Built-in kumpulan data:** [TREX](https://hadyelsahar.github.io/t-rex/) / **Metrik yang dihitung:** Skor pengetahuan dunia nyata (RWK)
  - **Metrik:** Kekokohan / **Built-in kumpulan data:** [BERANI](https://github.com/amazon-science/bold) / **Metrik yang dihitung:** Tingkat kesalahan kata
  - **Built-in kumpulan data:** [TREX](https://hadyelsahar.github.io/t-rex/)
  - **Built-in kumpulan data:** [WikiText2](https://huggingface.co/datasets/Salesforce/wikitext)
  - **Metrik:** Toksisitas / **Built-in kumpulan data:** [RealToxicityPrompts](https://github.com/allenai/real-toxicity-prompts) / **Metrik yang dihitung:** Toksisitas 
  - **Built-in kumpulan data:** [BERANI](https://github.com/amazon-science/bold)

- **Ringkasan teks**
  - **Metrik:** Akurasi  / **Built-in kumpulan data:** Gigaword / **Metrik yang dihitung:** BertScore
  - **Metrik:** Toksisitas / **Built-in kumpulan data:** Gigaword / **Metrik yang dihitung:** Toksisitas 
  - **Metrik:**  Kekokohan  / **Built-in kumpulan data:** Gigaword / **Metrik yang dihitung:** BertScore dan DeltabertScore

- **Pertanyaan dan jawaban**
  - **Metrik:** Akurasi / **Built-in kumpulan data:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **Metrik yang dihitung:** NLP-F1
  - **Built-in kumpulan data:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **Built-in kumpulan data:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)
  - **Metrik:** Kekokohan / **Built-in kumpulan data:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **Metrik yang dihitung:** F1 dan DeltaF1 
  - **Built-in kumpulan data:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **Built-in kumpulan data:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)
  - **Metrik:** Toksisitas / **Built-in kumpulan data:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **Metrik yang dihitung:** Toksisitas 
  - **Built-in kumpulan data:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **Built-in kumpulan data:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)

- **Klasifikasi teks**
  - **Metrik:** Akurasi  / **Built-in kumpulan data:** [Ulasan Pakaian E-commerce Wanita](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) / **Metrik yang dihitung:** Akurasi (Akurasi biner dari classification\_accuracy\_score)
  - **Metrik:** Kekokohan  / **Built-in kumpulan data:** [Ulasan Pakaian E-commerce Wanita](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) / **Metrik yang dihitung:** classification\_accuracy\_score dan delta\_classification\_accuracy\_score



**Topics**
+ [Pembuatan teks umum untuk evaluasi model di Amazon Bedrock](model-evaluation-tasks-general-text.md)
+ [Ringkasan teks untuk evaluasi model di Amazon Bedrock](model-evaluation-tasks-text-summary.md)
+ [Pertanyaan dan jawaban untuk evaluasi model di Amazon Bedrock](model-evaluation-tasks-question-answer.md)
+ [Klasifikasi teks untuk evaluasi model di Amazon Bedrock](model-evaluation-text-classification.md)