

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 在 Amazon Bedrock 中针对模型评测使用提示数据集
<a name="model-evaluation-prompt-datasets"></a>

要创建自动模型评测作业，您必须指定提示数据集。此类提示随后会在推理过程中用于所选的待评测模型。Amazon Bedrock 提供了可用于自动模型评估的内置数据集，您也可以自带提示数据集。

通过以下部分，详细了解可用的内置提示数据集和创建自定义提示数据集。

## 在 Amazon Bedrock 中针对自动模型评测使用内置提示数据集
<a name="model-evaluation-prompt-datasets-builtin"></a>

Amazon Bedrock 提供了多个内置提示数据集，您可以在自动模型评估作业中使用这些数据集。每个内置数据集都基于一个开源数据集。我们对每个开源数据集都进行了随机下采样，仅包含 100 个提示。

创建自动模型评估作业并选择**任务类型**时，Amazon Bedrock 会为您提供推荐指标列表。Amazon Bedrock 还为每个指标提供了推荐的内置数据集。要了解有关可用任务类型的更多信息，请参阅 [Amazon Bedrock 中的模型评测任务类型](model-evaluation-tasks.md)。

** Open-ended 语言生成数据集中的偏差（粗体）**  
 Open-ended 语言生成数据集中的偏见（BOLD）是一个评估一般文本生成公平性的数据集，重点关注五个领域：职业、性别、种族、宗教意识形态和政治意识形态。它包含 23,679 条不同的文本生成提示。

**RealToxicityPrompts**  
RealToxicityPrompts 是评估毒性的数据集。它会试图让模型生成带有种族主义、性别歧视或其他倾向的毒性内容。此数据集包含 100,000 条不同的文本生成提示。

**T-Rex : 自然语言与知识库三元组的大规模对齐 (TREX)**  
TREX 是由从维基百科提取的知识库三元组 (KBT) 组成的数据集。KBT 是一种用于自然语言处理 (NLP) 和知识表示的数据结构，由主语、谓词和宾语组成，其中主语和宾语通过某种关系联系起来。例如，“乔治·华盛顿曾任美国总统”就是一个知识库三元组 (KBT)。主语是“乔治·华盛顿”，谓语是“曾任”，宾语是“美国总统”。

**WikiText2**  
WikiText2 是一个包含一般文本生成中使用的提示 HuggingFace 的数据集。

**Gigaword**  
Gigaword 数据集由新闻文章标题组成。此数据集用于文本摘要任务。

**BoolQ**  
BoolQ 是一个由 yes/no 问答对组成的数据集。提示包含一小段内容，然后是一个关于该段内容的问题。建议将此数据集用于问答类型的任务。

**自然问题 **  
自然问题是由提交给 Google 搜索的真实用户问题组成的数据集。

**TriviaQA**  
TriviaQA 是一个数据集，包含超过 65 万个“问题-答案-证据”三元组。此数据集用于问答任务。

**女 E-Commerce 装评测**  
女 E-Commerce 装评论是一个包含顾客撰写的服装评论的数据集。此数据集用于文本分类任务。

下表中显示了按任务类型分组的可用数据集列表。要了解有关如何计算自动指标的更多信息，请参阅 [在 Amazon Bedrock（控制台）中查看自动模型评测作业的指标](model-evaluation-report-programmatic.md)。


**Amazon Bedrock 中可用于自动模型评估作业的内置数据集**  


- **一般文本生成 **
  - **指标:** 准确性  / **Built-in 数据集:** [TREX](https://hadyelsahar.github.io/t-rex/) / **计算指标:** 现实世界知识 (RWK) 得分
  - **指标:** 稳健性 / **Built-in 数据集:** [BOLD](https://github.com/amazon-science/bold) / **计算指标:** 字词错误率
  - **Built-in 数据集:** [TREX](https://hadyelsahar.github.io/t-rex/)
  - **Built-in 数据集:** [WikiText2](https://huggingface.co/datasets/Salesforce/wikitext)
  - **指标:** 毒性 / **Built-in 数据集:** [RealToxicityPrompts](https://github.com/allenai/real-toxicity-prompts) / **计算指标:** 毒性 
  - **Built-in 数据集:** [BOLD](https://github.com/amazon-science/bold)

- **文本摘要**
  - **指标:** 准确性  / **Built-in 数据集:** Gigaword / **计算指标:** BERTScore
  - **指标:** 毒性 / **Built-in 数据集:** Gigaword / **计算指标:** 毒性 
  - **指标:**  稳健性  / **Built-in 数据集:** Gigaword / **计算指标:** BERTScore 和 deltaBERTScore

- **问答**
  - **指标:** 准确性 / **Built-in 数据集:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **计算指标:** NLP-F1
  - **Built-in 数据集:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **Built-in 数据集:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)
  - **指标:** 稳健性 / **Built-in 数据集:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **计算指标:** F1 和 deltaF1 
  - **Built-in 数据集:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **Built-in 数据集:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)
  - **指标:** 毒性 / **Built-in 数据集:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **计算指标:** 毒性 
  - **Built-in 数据集:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **Built-in 数据集:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)

- **文本分类**
  - **指标:** 准确性  / **Built-in 数据集:** [女性电子商务服装评论](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) / **计算指标:** 准确性（来自 classification\_accuracy\_score 的二元准确性）
  - **指标:** 稳健性  / **Built-in 数据集:** [女性电子商务服装评论](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) / **计算指标:** classification\_accuracy\_score 和 delta\_classification\_accuracy\_score



要了解有关创建要求和自定义提示数据集示例的更多信息，请参阅 [在 Amazon Bedrock 中针对模型评测使用自定义提示数据集](#model-evaluation-prompt-datasets-custom)。

## 在 Amazon Bedrock 中针对模型评测使用自定义提示数据集
<a name="model-evaluation-prompt-datasets-custom"></a>

您可以在自动模型评测作业中创建自定义提示数据集。自定义提示数据集必须存储在 Amazon S3 中，使用 JSON 行格式和 `.jsonl` 文件扩展名。每行必须是有效的 JSON 对象。每个自动评估作业的数据集中最多可以有 1000 条提示。

自动模型评估作业不需要 CORS 配置。对于基于人工的评估任务，需要在 S3 输出存储桶上使用 CORS。要了解更多信息，请参阅[必需的 S3 存储桶的跨源资源共享（CORS）权限](model-evaluation-security-cors.md)。

您必须在自定义数据集内使用以下键值对。
+ `prompt` – 必要键，用于指明以下任务的输入：
  + 模型在一般文本生成中应当响应的提示。
  + 模型在问答任务类型中应当回答的问题。
  + 模型在文本摘要任务中应当总结的文本。
  + 模型在分类任务中应当分类的文本。
+ `referenceResponse` – 必要键，用于指明在针对以下任务类型评估模型时，所依据的真实响应：
  + 问答任务中所有提示的答案。
  + 所有准确性和稳健性评估的答案。
+ `category`–（可选）生成每个类别报告的评估分数。

举个例子，准确性既要求提供要问的问题，又要求提供检查模型响应所依据的答案。因此，使用键 `prompt` 和问题中包含的值，使用键 `referenceResponse` 和答案中包含的值，如下所示。

```
{
  "prompt": "Bobigny is the capital of",
  "referenceResponse": "Seine-Saint-Denis",
  "category": "Capitals"
}
```

前面的示例是某个 JSON 行输入文件中的一行，该文件将作为推理请求发送给您的模型。系统将为您的 JSON 行数据集中的每条此类记录调用模型。以下数据输入示例用于问答任务，该任务使用可选的 `category` 键进行评估。

```
{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"}
{"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"}
{"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}
```