

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Tipos de tarefa de avaliação de modelo no Amazon Bedrock
<a name="model-evaluation-tasks"></a>

Em um trabalho de avaliação de modelo, um tipo de tarefa de avaliação é uma tarefa que você deseja que o modelo execute com base nas informações dos prompts. É possível escolher um tipo de tarefa por trabalho de avaliação de modelo.

A tabela a seguir resume os tipos de tarefa disponíveis para avaliações de modelo automáticas, conjuntos de dados integrados e métricas relevantes de cada tipo de tarefa.


**Conjuntos de dados integrados disponíveis para trabalhos automáticos de avaliação de modelo no Amazon Bedrock**  


- **Geração de texto geral **
  - **Métrica:** Precisão  / **Built-in conjuntos de dados:** [TREX](https://hadyelsahar.github.io/t-rex/) / **Métrica computada:** Pontuação de conhecimento do mundo real (RWK)
  - **Métrica:** Robustez / **Built-in conjuntos de dados:** [BOLD](https://github.com/amazon-science/bold) / **Métrica computada:** Taxa de palavras erradas
  - **Built-in conjuntos de dados:** [TREX](https://hadyelsahar.github.io/t-rex/)
  - **Built-in conjuntos de dados:** [WikiText2](https://huggingface.co/datasets/Salesforce/wikitext)
  - **Métrica:** Toxicidade / **Built-in conjuntos de dados:** [RealToxicityPrompts](https://github.com/allenai/real-toxicity-prompts) / **Métrica computada:** Toxicidade 
  - **Built-in conjuntos de dados:** [BOLD](https://github.com/amazon-science/bold)

- **Resumo de texto**
  - **Métrica:** Precisão  / **Built-in conjuntos de dados:** Gigaword / **Métrica computada:** BERTScore
  - **Métrica:** Toxicidade / **Built-in conjuntos de dados:** Gigaword / **Métrica computada:** Toxicidade 
  - **Métrica:**  Robustez  / **Built-in conjuntos de dados:** Gigaword / **Métrica computada:** BERTScore e deltaBERTScore

- **Pergunta e resposta**
  - **Métrica:** Precisão / **Built-in conjuntos de dados:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **Métrica computada:** NLP-F1
  - **Built-in conjuntos de dados:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **Built-in conjuntos de dados:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)
  - **Métrica:** Robustez / **Built-in conjuntos de dados:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **Métrica computada:** F1 e deltaF1 
  - **Built-in conjuntos de dados:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **Built-in conjuntos de dados:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)
  - **Métrica:** Toxicidade / **Built-in conjuntos de dados:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **Métrica computada:** Toxicidade 
  - **Built-in conjuntos de dados:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **Built-in conjuntos de dados:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)

- **Classificação de texto**
  - **Métrica:** Precisão  / **Built-in conjuntos de dados:** [Women's Ecommerce Clothing Reviews](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) / **Métrica computada:** Precisão (precisão binária de classification\_accuracy\_score)
  - **Métrica:** Robustez  / **Built-in conjuntos de dados:** [Women's Ecommerce Clothing Reviews](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) / **Métrica computada:** classification\_accuracy\_score e delta\_classification\_accuracy\_score



**Topics**
+ [Geração de texto geral para avaliação de modelo no Amazon Bedrock](model-evaluation-tasks-general-text.md)
+ [Resumo de texto para avaliação de modelo no Amazon Bedrock.](model-evaluation-tasks-text-summary.md)
+ [Pergunta e resposta da avaliação de modelo no Amazon Bedrock.](model-evaluation-tasks-question-answer.md)
+ [Classificação de texto para avaliação de modelo no Amazon Bedrock](model-evaluation-text-classification.md)