

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在 Amazon Bedrock 中使用提示資料集進行模型評估
<a name="model-evaluation-prompt-datasets"></a>

若要建立自動模型評估任務，您必須指定提示資料集。然後，提示會在推論期間與您選取要評估的模型搭配使用。Amazon Bedrock 提供可用於自動模型評估的內建資料集，或者您也可以使用自己的提示資料集。

請參閱以下各節，進一步了解可用的內建提示資料集，以及建立自訂提示資料集。

## 在 Amazon Bedrock 中使用內建提示資料集進行自動模型評估
<a name="model-evaluation-prompt-datasets-builtin"></a>

Amazon Bedrock 提供多個內建提示資料集，您可以在自動模型評估任務中使用這些資料集。每個內建資料集都以開放原始碼資料集為基礎。我們已經對每個開放原始碼資料集進行隨機縮小取樣，以僅包含 100 個提示。

當您建立自動模型評估任務並選擇**任務類型**時，Amazon Bedrock 會為您提供建議的指標清單。Amazon Bedrock 也會針對每個指標提供建議的內建資料集。若要進一步了解可用任務類型，請參閱 [Amazon Bedrock 中的模型評估任務類型](model-evaluation-tasks.md)。

**開放式語言生成資料集中的偏差 (BOLD)**  
開放式語言生成資料集中的偏見 (BOLD)是一種資料集，可用於評估一般文字產生時的公平性，重點聚焦於五個領域：職業、性別、種族、宗教意識形態和政治意識形態。它包含 23,679 個不同的文字產生提示。

**RealToxicityPrompts**  
RealToxicityPrompts 是評估毒性的資料集。它試圖讓模型產生種族主義者、性別歧視者或其他有毒的語言。此資料集包含 100,000 個不同的文字產生提示。

**T-Rex：大規模對齊自然語言與知識庫三元組 (TREX)**  
TREX 是從維基百科中提取的知識庫三元組 (KBT) 組成的資料集。KBT 是自然語言處理 (NLP)和知識表示法中使用的一種資料結構類型。這種類型是由主詞、述詞和受詞組成，其中的主詞和受詞是以關聯性連結。知識庫三元組 (KBT)的範例子是「喬治·華盛頓曾經是美國總統」。主詞是「喬治·華盛頓」，述詞是「曾經是總統」，受詞是「美國」。

**WikiText2**  
WikiText2 是一種 HuggingFace 資料集，其包含產生一般文字時使用的提示。

**Gigaword**  
Gigaword 資料集包含新聞文章標題。此資料集用於文字摘要任務。

**BoolQ**  
BoolQ 是由是/否問答配對組成的資料集。提示詞包含簡短的段落，然後是一道關於段落的問題。建議將此資料集與問答任務類型搭配使用。

**一般問題 **  
自然問題是一個資料集，其中包含提交給 Google 搜尋的真實使用者問題。

**TriviaQA**  
TriviaQA 是一個包含超過 65 萬個問題答案證據三元組的資料集。此資料集用於問答型任務。

**女性電子商務服裝評論**  
女性電子商務服裝評論是一個資料集，其中包含客戶撰寫的服裝評論。此資料集用於文字分類任務。

在下表中，您可以看到可用的資料集分組任務類型的清單。若要進一步了解如何運算自動指標，請參閱 [在 Amazon Bedrock 中檢閱自動化模型評估任務的指標 (主控台)](model-evaluation-report-programmatic.md)。


**可用於 Amazon Bedrock 中自動模型評估任務的內建資料集**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/bedrock/latest/userguide/model-evaluation-prompt-datasets.html)

若要進一步了解建立要求和自訂提示資料集的範例，請參閱 [在 Amazon Bedrock 中使用自訂提示資料集進行模型評估](#model-evaluation-prompt-datasets-custom)。

## 在 Amazon Bedrock 中使用自訂提示資料集進行模型評估
<a name="model-evaluation-prompt-datasets-custom"></a>

您可以在自動模型評估任務中建立自訂提示資料集。自訂提示資料集必須存放在 Amazon S3 中，並使用 JSON 行格式及使用 `.jsonl` 檔案副檔名。每行都必須是有效的 JSON 物件。每個自動評估任務在您的資料集中最多可有 1000 個提示。

對於使用主控台建立的任務，您必須更新 S3 儲存貯體上的跨來源資源分享 (CORS) 組態。若要進一步了解必要的 CORS 許可，請參閱 [S3 儲存貯體上所需的跨來源資源分享 (CORS) 許可](model-evaluation-security-cors.md)。

您必須在自訂資料集中使用下列鍵值對。
+ `prompt` – 指示下列任務的輸入所需：
  + 在一般文字產生中，您的模型應該回應的提示。
  + 您的模型應該在問答任務類型中回答的問題。
  + 您的模型應該在文字摘要任務總結的文字。
  + 您的模型應在分類任務中分類的文字。
+ `referenceResponse` – 必須指出針對下列任務類型評估模型回應的基本事實：
  + 問答任務中所有提示的答案。
  + 所有準確性和強健性評估的答案。
+ `category` – (選用) 產生針對每個類別報告的評估分數。

例如，準確性需要提出問題和檢查模型回應的答案。在此範例中，使用索引鍵 `prompt` 與問題中包含的值，以及包含在答案中的值的索引鍵 `referenceResponse`，如下所示。

```
{
  "prompt": "Bobigny is the capital of",
  "referenceResponse": "Seine-Saint-Denis",
  "category": "Capitals"
}
```

上一個範例是 JSON 行輸入檔案的單行，該檔案將以推論請求形式傳送至您的模型。在您的 JSON 行資料集中的每一個這類的記錄，模型會被調用。下列資料輸入範例適用於使用選擇性 `category` 索引鍵進行評估的問答任務。

```
{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"}
{"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"}
{"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}
```