

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Geração de texto geral para avaliação de modelo no Amazon Bedrock
<a name="model-evaluation-tasks-general-text"></a>

A geração de texto geral é uma tarefa usada por aplicações que incluem chatbots. As respostas geradas por um modelo às perguntas gerais são influenciadas pela exatidão, relevância e desvio contidos no texto usado para treinar o modelo.

**Importante**  
Para a geração de texto geral, há um problema conhecido do sistema que impede que os modelos da Cohere concluam uma avaliação de toxicidade com êxito.

Os conjuntos de dados integrados a seguir contêm prompts que são adequados para uso em tarefas de geração de texto geral.

**Viés no conjunto de dados de geração de Open-ended linguagem (BOLD)**  
O Bias in Open-ended Language Generation Dataset (BOLD) é um conjunto de dados que avalia a justiça na geração geral de texto, com foco em cinco domínios: profissão, gênero, raça, ideologias religiosas e ideologias políticas. Ele contém 23.679 prompts diferentes de geração de texto.

**RealToxicityPrompts**  
RealToxicityPrompts é um conjunto de dados que avalia a toxicidade. Ele tenta fazer com que o modelo gere uma linguagem racista, sexista ou tóxica. Esse conjunto de dados contém 100.000 prompts diferentes de geração de texto.

**T-Rex : Um alinhamento em grande escala da linguagem natural com triplos da base de conhecimento (TREX)**  
TREX é um conjunto de dados que consiste em Knowledge Base Triples (KBTs) extraídas da Wikipedia. As KBTs são um tipo de estrutura de dados usada no processamento de linguagem natural (PLN) e na representação do conhecimento. Elas consistem em um sujeito, predicado e objeto, onde o sujeito e o objeto estão ligados por uma relação. Um exemplo de Knowledge Base Triple (KBT) é “George Washington foi presidente dos Estados Unidos”. O sujeito é “George Washington”, o predicado é “foi presidente do” e o objeto é “os Estados Unidos”.

**WikiText2**  
WikiText2 é um HuggingFace conjunto de dados que contém avisos usados na geração geral de texto.

A tabela a seguir resume as métricas calculadas e o conjunto de dados integrado recomendado que estão disponíveis para trabalhos automáticos de avaliação de modelo. Para especificar com êxito os conjuntos de dados integrados disponíveis usando o AWS CLI, ou um AWS SDK compatível, use os nomes dos parâmetros na coluna, *Built-in conjuntos de dados (*API).


**Conjuntos de dados integrados disponíveis para geração de texto geral no Amazon Bedrock**  


- **Geração de texto geral **
  - **Métrica:** Precisão / **Built-in conjuntos de dados (console):** [TREX](https://hadyelsahar.github.io/t-rex/) / **Built-in conjuntos de dados (API):** Builtin.T-REx / **Métrica computada:** Pontuação de conhecimento do mundo real (RWK)
  - **Métrica:** Robustez / **Built-in conjuntos de dados (console):** [BOLD](https://github.com/amazon-science/bold) / **Built-in conjuntos de dados (API):** Builtin.BOLD / **Métrica computada:** Taxa de palavras erradas
  - **Built-in conjuntos de dados (console):** [WikiText2](https://huggingface.co/datasets/Salesforce/wikitext) / **Built-in conjuntos de dados (API):** Builtin.WikiText2
  - **Built-in conjuntos de dados (console):** [TREX](https://hadyelsahar.github.io/t-rex/) / **Built-in conjuntos de dados (API):** Builtin.T-REx
  - **Métrica:** Toxicidade / **Built-in conjuntos de dados (console):** [RealToxicityPrompts](https://github.com/allenai/real-toxicity-prompts) / **Built-in conjuntos de dados (API):** Builtin.RealToxicityPrompts / **Métrica computada:** Toxicidade
  - **Built-in conjuntos de dados (console):** [BOLD](https://github.com/amazon-science/bold) / **Built-in conjuntos de dados (API):** Builtin.Bold



Para saber mais sobre como a métrica computada para cada conjunto de dados incorporado é calculada, consulte [Analisar os relatórios e métricas do trabalho de avaliação de modelo no Amazon Bedrock](model-evaluation-report.md).