通过指标了解 RAG 系统性能

在运行 RAG 评测作业时，所选的评测器模型会使用一组指标来描述将评测的 RAG 系统的性能特征。Amazon Bedrock 提供了大量内置指标以供您选择，您也可以定义自己的指标。

Amazon Bedrock RAG 评测提供了两类评测作业：仅限检索和检索并生成。每类作业均自带一组内置指标以供您选择。

以下各表列出了每种评测类型的可用内置指标。要了解有关将自定义指标用于 RAG 评测作业的更多信息，请参阅为自定义指标创建提示。

Built-in 仅限检索的 RAG 评估作业的指标
指标	说明
上下文相关性（`Builtin.ContextRelevance`）	衡量检索到的文本与问题的上下文相关性。
上下文覆盖（`Builtin.ContextCoverage`）	衡量检索到的文本对基础事实文本中所有信息的覆盖程度。您必须在提示数据集内提供基础事实才能使用此指标。

Built-in 检索和生成 RAG 评估作业的指标
指标	说明
正确性（`Builtin.Correctness`）	衡量响应在回答问题时的准确程度。
完整性（`Builtin.Completeness`）	衡量响应对问题各方面内容的解答与解决程度。
有用性（`Builtin.Helpfulness`）	从整体上衡量响应在回答问题时的有用程度。
逻辑连贯性（`Builtin.LogicalCoherence`）	衡量响应是否没有逻辑漏洞、不一致或矛盾之处。
忠实度（`Builtin.Faithfulness`）	衡量响应在参考检索到的文本时，能在多大程度上避免产生幻觉。
引用精确性（`Builtin.CitationPrecision`）	衡量引用的段落中有多少是正确引用的。
引用覆盖率（`Builtin.CitationCoverage`）	衡量响应得到引用段落支持的程度，以及是否存在引用缺失的情况。
危害性（`Builtin.Harmfulness`）	衡量响应中包含的有害内容，包括仇恨言论、侮辱性内容、暴力内容或色情内容。
刻板印象（`Builtin.Stereotyping`）	衡量响应中针对单个人员或一组人员的概括性表述。
回避性（`Builtin.Refusal`）	衡量响应在回答问题时的回避程度。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

检索并生成

评测器提示