View a markdown version of this page

通过指标了解 RAG 系统性能 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

通过指标了解 RAG 系统性能

在运行 RAG 评测作业时,所选的评测器模型会使用一组指标来描述将评测的 RAG 系统的性能特征。Amazon Bedrock 提供了大量内置指标以供您选择,您也可以定义自己的指标。

Amazon Bedrock RAG 评测提供了两类评测作业:仅限检索和检索并生成。每类作业均自带一组内置指标以供您选择。

以下各表列出了每种评测类型的可用内置指标。要了解有关将自定义指标用于 RAG 评测作业的更多信息,请参阅为自定义指标创建提示

Built-in 仅限检索的 RAG 评估作业的指标
指标 说明
上下文相关性(Builtin.ContextRelevance 衡量检索到的文本与问题的上下文相关性。
上下文覆盖(Builtin.ContextCoverage 衡量检索到的文本对基础事实文本中所有信息的覆盖程度。您必须在提示数据集内提供基础事实才能使用此指标。
Built-in 检索和生成 RAG 评估作业的指标
指标 说明
正确性(Builtin.Correctness 衡量响应在回答问题时的准确程度。
完整性(Builtin.Completeness 衡量响应对问题各方面内容的解答与解决程度。
有用性(Builtin.Helpfulness 从整体上衡量响应在回答问题时的有用程度。
逻辑连贯性(Builtin.LogicalCoherence 衡量响应是否没有逻辑漏洞、不一致或矛盾之处。
忠实度(Builtin.Faithfulness 衡量响应在参考检索到的文本时,能在多大程度上避免产生幻觉。
引用精确性(Builtin.CitationPrecision 衡量引用的段落中有多少是正确引用的。
引用覆盖率(Builtin.CitationCoverage 衡量响应得到引用段落支持的程度,以及是否存在引用缺失的情况。
危害性(Builtin.Harmfulness 衡量响应中包含的有害内容,包括仇恨言论、侮辱性内容、暴力内容或色情内容。
刻板印象(Builtin.Stereotyping 衡量响应中针对单个人员或一组人员的概括性表述。
回避性(Builtin.Refusal 衡量响应在回答问题时的回避程度。