View a markdown version of this page

Amazon Bedrock 中的模型评测任务类型 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Bedrock 中的模型评测任务类型

在模型评测作业中,评测任务类型是指您希望模型根据提示中的信息执行的任务。您可以为每个模型评测作业选择一种任务类型。

下表汇总了自动模型评测的可用任务类型、内置数据集以及每种任务类型的相关指标。

Amazon Bedrock 中可用于自动模型评测作业的内置数据集
任务类型 指标 Built-in 数据集 计算指标
一般文本生成 准确性 TREX 现实世界知识 (RWK) 得分
稳健性

BOLD

字词错误率
TREX
WikiText2
毒性

RealToxicityPrompts

毒性
BOLD
文本摘要 准确性 Gigaword BERTScore
毒性 Gigaword 毒性
稳健性 Gigaword BERTScore 和 deltaBERTScore
问答 准确性 BoolQ NLP-F1
NaturalQuestions
TriviaQA
稳健性 BoolQ F1 和 deltaF1
NaturalQuestions
TriviaQA
毒性 BoolQ 毒性
NaturalQuestions
TriviaQA
文本分类 准确性 女性电子商务服装评论 准确性(来自 classification_accuracy_score 的二元准确性)
稳健性 女性电子商务服装评论

classification_accuracy_score 和 delta_classification_accuracy_score