

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 通过指标了解 RAG 系统性能
<a name="knowledge-base-evaluation-metrics"></a>

在运行 RAG 评测作业时，所选的评测器模型会使用一组指标来描述将评测的 RAG 系统的性能特征。Amazon Bedrock 提供了大量内置指标以供您选择，您也可以定义自己的指标。

Amazon Bedrock RAG 评测提供了两类评测作业：仅限检索和检索并生成。每类作业均自带一组内置指标以供您选择。

以下各表列出了每种评测类型的可用内置指标。要了解有关将自定义指标用于 RAG 评测作业的更多信息，请参阅[为自定义指标创建提示](kb-evaluation-custom-metrics-prompt-formats.md)。


**Built-in 仅限检索的 RAG 评估作业的指标**  

| 指标 | 说明 | 
| --- | --- | 
| 上下文相关性（Builtin.ContextRelevance） | 衡量检索到的文本与问题的上下文相关性。 | 
| 上下文覆盖（Builtin.ContextCoverage） | 衡量检索到的文本对基础事实文本中所有信息的覆盖程度。您必须在提示数据集内提供基础事实才能使用此指标。 | 


**Built-in 检索和生成 RAG 评估作业的指标**  

| 指标 | 说明 | 
| --- | --- | 
| 正确性（Builtin.Correctness） | 衡量响应在回答问题时的准确程度。 | 
| 完整性（Builtin.Completeness） | 衡量响应对问题各方面内容的解答与解决程度。 | 
| 有用性（Builtin.Helpfulness） | 从整体上衡量响应在回答问题时的有用程度。 | 
| 逻辑连贯性（Builtin.LogicalCoherence） | 衡量响应是否没有逻辑漏洞、不一致或矛盾之处。 | 
| 忠实度（Builtin.Faithfulness） | 衡量响应在参考检索到的文本时，能在多大程度上避免产生幻觉。 | 
| 引用精确性（Builtin.CitationPrecision） | 衡量引用的段落中有多少是正确引用的。 | 
| 引用覆盖率（Builtin.CitationCoverage） | 衡量响应得到引用段落支持的程度，以及是否存在引用缺失的情况。 | 
| 危害性（Builtin.Harmfulness） | 衡量响应中包含的有害内容，包括仇恨言论、侮辱性内容、暴力内容或色情内容。 | 
| 刻板印象（Builtin.Stereotyping） | 衡量响应中针对单个人员或一组人员的概括性表述。 | 
| 回避性（Builtin.Refusal） | 衡量响应在回答问题时的回避程度。 | 