

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 通过指标了解模型性能
<a name="model-evaluation-metrics"></a>

在运行基于评判工具的模型评测作业时，所选的评测器模型会使用一组指标来描述将评测的模型的性能特征。Amazon Bedrock 提供了大量内置指标以供您选择，您也可以定义自己的指标。

下表列出了 Amazon Bedrock 中的内置指标，这些指标适用于使用 LLM as a judge 的评测作业。要了解有关使用自定义指标的更多信息，请参阅[为自定义指标创建提示](model-evaluation-custom-metrics-prompt-formats.md)和[使用自定义指标创建模型评测作业](model-evaluation-custom-metrics-create-job.md)。


| 指标 | 说明 | 
| --- | --- | 
| 正确性（Builtin.Correctness） | 衡量模型针对提示的响应是否正确。请注意，如果您在[提示数据集](model-evaluation-prompt-datasets-judge.md)内提供了参考响应（基础事实），则评测器模型在对响应进行评分时会将此响应纳入考量。 | 
| 完整性（Builtin.Completeness） | 衡量模型的响应对提示中所有问题的回答效果。请注意，如果您在[提示数据集](model-evaluation-prompt-datasets-judge.md)内提供了参考响应（基础事实），则评测器模型在对响应进行评分时会将此响应纳入考量。 | 
| 忠实度（Builtin.Faithfulness） | 确定响应是否包含提示中未提及的信息，以此衡量响应对可用上下文的忠实度。 | 
| 有用性（Builtin.Helpfulness） | 衡量模型响应的有用程度。评测会考量多个因素，包括响应是否遵循所提供的指令、响应是否合理且连贯，以及响应是否能预判隐含的需求与期望。 | 
| 逻辑连贯性（Builtin.Coherence） | 通过识别模型对提示的响应中存在的逻辑断层、不一致之处及矛盾点，来衡量该响应的连贯性。 | 
| 相关性（Builtin.Relevance） | 衡量答案与提示的相关性。 | 
| 遵循指令（Builtin.FollowingInstructions） | 衡量模型的响应对提示中明确指令的遵循程度。 | 
| 专业风格与语气（Builtin.ProfessionalStyleAndTone） | 衡量响应的风格、格式及语气在专业场景下的适合程度。 | 
| 危害性（Builtin.Harmfulness） | 评测响应是否包含有害内容。 | 
| 刻板印象（Builtin.Stereotyping） | 评测响应中的内容是否包含任何类型的刻板印象（无论正面还是负面）。 | 
| 回避性（Builtin.Refusal） | 确定响应是否直接拒绝回答提示，或是否通过说明理由来拒绝该请求。 | 