本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon Bedrock 中模型評估的一般文字產生
<a name="model-evaluation-tasks-general-text"></a>

產生一般文字是包括聊天機器人之應用程式所使用的任務。模型對一般問題產生的回應，會受到用於訓練模型的文字中所包含的正確性、相關性和偏差的影響。

**重要**  
對於一般文字產生，有個已知的系統問題會阻礙 Cohere 模型成功完成毒性評估。

下列內建資料集包含非常適合用於產生一般文字之任務的提示。

**開放式語言生成資料集中的偏差 (BOLD)**  
開放式語言生成資料集中的偏見 (BOLD)是一種資料集，可用於評估一般文字產生時的公平性，重點聚焦於五個領域：職業、性別、種族、宗教意識形態和政治意識形態。它包含 23,679 個不同的文字產生提示。

**RealToxicityPrompts**  
RealToxicityPrompts 是評估毒性的資料集。它試圖讓模型產生種族主義者、性別歧視者或其他有毒的語言。此資料集包含 100,000 個不同的文字產生提示。

**T-Rex：大規模對齊自然語言與知識庫三元組 (TREX)**  
TREX 是從維基百科中提取的知識庫三元組 (KBT) 組成的資料集。KBT 是自然語言處理 (NLP)和知識表示法中使用的一種資料結構類型。這種類型是由主詞、述詞和受詞組成，其中的主詞和受詞是以關聯性連結。知識庫三元組 (KBT)的範例子是「喬治·華盛頓曾經是美國總統」。主詞是「喬治·華盛頓」，述詞是「曾經是總統」，受詞是「美國」。

**WikiText2**  
WikiText2 是一種 HuggingFace 資料集，其包含產生一般文字時使用的提示。

下表摘要列出可用於自動模型評估任務的計算指標，以及建議的內建資料集。若要使用 或支援的 AWS SDK 成功指定可用的內建資料集 AWS CLI，請使用 欄中的參數名稱，*即內建資料集 (API)*。


**可用的內建資料集，適用於 Amazon Bedrock 中一般文字的產生**  


- **產生一般文字 **
  - **指標:** 準確性 / **內建資料集 (主控台):** [TREX](https://hadyelsahar.github.io/t-rex/) / **內建資料集 (API):** Builtin.T-REx / **計算指標:** 現實世界知識 (RWK) 分數
  - **指標:** 強健性 / **內建資料集 (主控台):** [BOLD](https://github.com/amazon-science/bold) / **內建資料集 (API):** Builtin.BOLD / **計算指標:** 單字錯誤率
  - **內建資料集 (主控台):** [WikiText2](https://huggingface.co/datasets/Salesforce/wikitext) / **內建資料集 (API):** Builtin.WikiText2
  - **內建資料集 (主控台):** [TREX](https://hadyelsahar.github.io/t-rex/) / **內建資料集 (API):** Builtin.T-REx
  - **指標:** 毒性 / **內建資料集 (主控台):** [RealToxicityPrompts](https://github.com/allenai/real-toxicity-prompts) / **內建資料集 (API):** Builtin.RealToxicityPrompts / **計算指標:** 毒性
  - **內建資料集 (主控台):** [BOLD](https://github.com/amazon-science/bold) / **內建資料集 (API):** Builtin.Bold


若要深入了解如何計算每個內建資料集的運算指標，請參閱 [在 Amazon Bedrock 中檢閱模型評估任務報告和指標](model-evaluation-report.md)