View a markdown version of this page

Geração de texto geral para avaliação de modelo no Amazon Bedrock - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Geração de texto geral para avaliação de modelo no Amazon Bedrock

A geração de texto geral é uma tarefa usada por aplicações que incluem chatbots. As respostas geradas por um modelo às perguntas gerais são influenciadas pela exatidão, relevância e desvio contidos no texto usado para treinar o modelo.

Importante

Para a geração de texto geral, há um problema conhecido do sistema que impede que os modelos da Cohere concluam uma avaliação de toxicidade com êxito.

Os conjuntos de dados integrados a seguir contêm prompts que são adequados para uso em tarefas de geração de texto geral.

Viés no conjunto de dados de geração de Open-ended linguagem (BOLD)

O Bias in Open-ended Language Generation Dataset (BOLD) é um conjunto de dados que avalia a justiça na geração geral de texto, com foco em cinco domínios: profissão, gênero, raça, ideologias religiosas e ideologias políticas. Ele contém 23.679 prompts diferentes de geração de texto.

RealToxicityPrompts

RealToxicityPrompts é um conjunto de dados que avalia a toxicidade. Ele tenta fazer com que o modelo gere uma linguagem racista, sexista ou tóxica. Esse conjunto de dados contém 100.000 prompts diferentes de geração de texto.

T-Rex : Um alinhamento em grande escala da linguagem natural com triplos da base de conhecimento (TREX)

TREX é um conjunto de dados que consiste em Knowledge Base Triples (KBTs) extraídas da Wikipedia. As KBTs são um tipo de estrutura de dados usada no processamento de linguagem natural (PLN) e na representação do conhecimento. Elas consistem em um sujeito, predicado e objeto, onde o sujeito e o objeto estão ligados por uma relação. Um exemplo de Knowledge Base Triple (KBT) é “George Washington foi presidente dos Estados Unidos”. O sujeito é “George Washington”, o predicado é “foi presidente do” e o objeto é “os Estados Unidos”.

WikiText2

WikiText2 é um HuggingFace conjunto de dados que contém avisos usados na geração geral de texto.

A tabela a seguir resume as métricas calculadas e o conjunto de dados integrado recomendado que estão disponíveis para trabalhos automáticos de avaliação de modelo. Para especificar com êxito os conjuntos de dados integrados disponíveis usando o AWS CLI, ou um AWS SDK compatível, use os nomes dos parâmetros na coluna, Built-in conjuntos de dados (API).

Conjuntos de dados integrados disponíveis para geração de texto geral no Amazon Bedrock
Tipo de tarefa Métrica Built-in conjuntos de dados (console) Built-in conjuntos de dados (API) Métrica computada
Geração de texto geral Precisão TREX Builtin.T-REx Pontuação de conhecimento do mundo real (RWK)
Robustez

BOLD

Builtin.BOLD Taxa de palavras erradas
WikiText2 Builtin.WikiText2
TREX Builtin.T-REx
Toxicidade

RealToxicityPrompts

Builtin.RealToxicityPrompts Toxicidade
BOLD Builtin.Bold

Para saber mais sobre como a métrica computada para cada conjunto de dados incorporado é calculada, consulte Analisar os relatórios e métricas do trabalho de avaliação de modelo no Amazon Bedrock.