

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 训练后数据和模型偏差
<a name="clarify-detect-post-training-bias"></a>

训练后偏差分析有助于揭示可能由数据中偏差或由分类和预测算法引入的偏差所引起的偏差。这些分析考虑了数据（包括标签）和模型的预测。您可以通过分析预测标签，或者针对具有不同属性的组，通过将预测值与数据中观测到的目标值进行比较，来评估性能。公平有不同的概念，每种概念都需要不同的偏差指标来衡量。

有些关于公平的法律概念可能不容易理解，因为它们难以检测到。例如，在美国，差别影响概念是指，即使所采取的方法看似公平，但某个群体（称为较不利的分面 *d*）仍会受到不利影响。这种偏差可能不是由机器学习模型引起，但仍可通过训练后偏差分析检测到。

Ama SageMaker zon Clarify 努力确保术语的使用一致。有关术语及其定义的列表，请参阅 [Amazon SageMaker 澄清偏见和公平条款](clarify-detect-data-bias.md#clarify-bias-and-fairness-terms)。

有关训练后偏见指标的更多信息，请参阅[了解 Amazon Clari SageMaker fy 如何帮助检测金融领域机器学习的偏见](https://aws.amazon.com/blogs/machine-learning/learn-how-amazon-sagemaker-clarify-helps-detect-bias/)[和公平措施](https://pages.awscloud.com/rs/112-TZM-766/images/Fairness.Measures.for.Machine.Learning.in.Finance.pdf)。 。

# 训练后数据和模型偏差指标
<a name="clarify-measure-post-training-bias"></a>

Amaz SageMaker on Clarify 提供了 11 个训练后数据和模型偏差指标，以帮助量化各种公平概念。这些概念不可能同时得到满足，如何选择取决于所分析的涉及潜在偏差案例的具体情况。这些指标大多是从不同人口统计群体的二进制分类混淆矩阵中提取的数字的组合。由于公平性和偏差可通过多种指标来定义，因此需要人为判断来理解和选择哪些指标与个别使用案例相关，客户应咨询相应的利益相关者，以确定其应用的适当公平性衡量标准。

我们使用以下表示法来讨论偏差指标。此处描述的概念模型适用于二进制分类，即事件被标记为在其样本空间中只有两种可能的结果，分别称为阳性结果（值为 1）和阴性结果（值为 0）。这一框架通常可以直接扩展到多类别分类，或在需要时扩展到涉及持续有价值结果的情况。在二进制分类的情况下，分别为原始数据集中记录的结果中的有利分面 *a* 和不利分面 *d* 分配阳性标签和阴性标签。这些标签 y 称为*观测标签*，以区别于机器学习模型在机器学习生命周期的训练或推理阶段分配的*预测标签* y'。这些标签用于定义各自分面结果的概率分布 Pa(y) 和 Pd(y)。
+ 标签：
  + y 表示训练数据集中观测到的事件结果的 n 个标签。
  + y' 表示经过训练的模型对数据集中 n 个观测标签的预测标签。
+ 结果：
  + 样本的阳性结果（值为 1），例如申请被接受。
    + n(1) 是阳性结果（接受）的观测标签数量。
    + n'(1) 是阳性结果（接受）的预测标签数量。
  + 样本的阴性结果（值为 0），例如申请被拒绝。
    + n(0) 是阴性结果（拒绝）的观测标签数量。
    + n'(0) 是阴性结果（拒绝）的预测标签数量。
+ 分面值：
  + 分面 *a* - 定义偏差有利的人口统计的特征值。
    + na 是有利分面值的观测标签数：na = na(1) \$1 na(0) 分面值 *a* 的阳性和阴性观测标签之和。
    + n'a 是有利分面值的预测标签数：n'a = n'a(1) \$1 n'a(0) 分面值 *a* 的阳性和阴性预测结果标签之和。请注意，n'a = na。
  + 分面 *d* - 定义偏差不利的人口统计的特征值。
    + nd 是不利分面值的观测标签数：nd = nd(1) \$1 nd(0) 分面值 *d* 的阳性和阴性观测标签之和。
    + n'd 是不利分面值的预测标签数：n'd = n'd(1) \$1 n'd(0) 分面值 *d* 的阳性和阴性预测标签之和。请注意，n'd = nd。
+ 标注的分面数据结果的概率分布：
  + Pa(y) 是分面 *a* 的观测标签的概率分布。对于二进制标注的数据，该分布由分面 *a* 中标注为阳性结果的样本数与总样本数之比 Pa(y1) = na(1)/ na，以及标注为阴性结果的样本数与总样本数之比 Pa(y0) = na(0)/ na 得出。
  + Pd(y) 是分面 *d* 的观测标签的概率分布。对于二进制标注的数据，该分布由分面 *d* 中标注为阳性结果的样本数与总样本数之比 Pd(y1) = nd(1)/ nd，以及标注为阴性结果的样本数与总样本数之比 Pd(y0) = nd(0)/ nd 得出。

下表包含快速指导的备忘单以及指向训练后偏差指标的链接。

训练后偏差指标


| 训练后偏差指标 | 说明 | 示例问题 | 解析指标值 | 
| --- | --- | --- | --- | 
| [预测标签中正比例的差异 (DPPL)](clarify-post-training-bias-metric-dppl.md) | 衡量有利分面 a 和不利分面 d 之间阳性预测值比例的差异。 |  在预测的阳性结果中，各人口统计群体之间是否存在可能表明偏差的不平衡？  |  标准化二进制和多类别分面标签的范围：`[-1,+1]` 连续标签的范围：(-∞, \$1∞) 解释： [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/clarify-measure-post-training-bias.html)  | 
| [差别影响 (DI)](clarify-post-training-bias-metric-di.md) | 测量有利分面 a 和不利分面 d 的预测标签比例之比。 | 在预测的阳性结果中，各人口统计群体之间是否存在可能表明偏差的不平衡？ |  标准化二进制、多类别分面和连续标签的范围：[0,∞) 解释： [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/clarify-measure-post-training-bias.html)  | 
| [预测标签中的条件人口统计差异 (CDDPL)](clarify-post-training-bias-metric-cddpl.md)  | 从整体上衡量各分面的预测标签差异，同时也按子组进行衡量。 | 某些人口统计群体在贷款申请结果中被拒绝的比例是否高于其被接受的比例？ |  二进制、多类别和连续结果的 CDDPL 值范围：`[-1, +1]` [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/clarify-measure-post-training-bias.html)  | 
| [反事实翻转测试 (FT)](clarify-post-training-bias-metric-ft.md)  | 检查分面 d 的每个成员并评估分面 a 的相似成员是否具有不同的模型预测。 | 某一特定年龄段的人群是否与另一年龄段的人群在所有特征上都非常接近，但平均收入却更高？ | 二进制和多类别分面标签的范围为 [-1, \$11]。[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/clarify-measure-post-training-bias.html) | 
| [准确率差异 (AD)](clarify-post-training-bias-metric-ad.md)  | 衡量有利和不利分面的预测准确率之间的差异。 | 该模型对所有人口统计群体应用的标签预测是否同样准确？ | 二进制和多类别分面标签的范围为 [-1, \$11]。[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/clarify-measure-post-training-bias.html) | 
| [查全率差异 (RD)](clarify-post-training-bias-metric-rd.md)  | 比较模型对有利和不利分面的查全率。 | 模型对某个年龄组的查全率高于另一年龄组，这是否会造成基于年龄的贷款偏差？ |  二进制和多类别分类的范围：`[-1, +1]`。 [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/clarify-measure-post-training-bias.html)  | 
| [有条件录取的差异 (DCAcc)](clarify-post-training-bias-metric-dcacc.md)  | 将观测标签与模型预测的标签进行比较。评估各分面的预测阳性结果（接受）是否相同。 | 在将一个年龄组与另一个年龄组进行比较时，接受贷款的频率是高于还是低于预测值（基于资格条件）？ |  二进制、多类别分面和连续标签的范围：(-∞, \$1∞)。 [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/clarify-measure-post-training-bias.html)  | 
| [接受率差异 (DAR)](clarify-post-training-bias-metric-dar.md)  | 衡量有利和不利分面在观测的阳性结果 (TP) 与预测的阳性结果 (TP \$1 FP) 之比方面的差异。 | 该模型在预测各年龄组合格申请人的贷款接受情况时是否具有同等精度？ | 二进制、多类别分面和连续标签的范围为 [-1, \$11]。[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/clarify-measure-post-training-bias.html) | 
| [特异性差异 (SD)](clarify-post-training-bias-metric-sd.md)  | 比较模型对有利和不利分面的特异性。 | 模型预测某个年龄组的特异性高于另一年龄组，这是否会造成基于年龄的贷款偏差？ |  二进制和多类别分类的范围：`[-1, +1]`。 [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/clarify-measure-post-training-bias.html)  | 
| [有条件拒绝差异 (DCR)](clarify-post-training-bias-metric-dcr.md)  | 将观测标签与模型预测标签进行比较，并评估各分面的阴性结果（拒绝）是否相同。 | 一个年龄组与另一年龄组相比，基于资格条件预测的贷款申请被拒绝的次数是多还是少？ | 二进制、多类别分面和连续标签的范围：(-∞, \$1∞)。[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/clarify-measure-post-training-bias.html) | 
| [拒绝率差异 (DRR)](clarify-post-training-bias-metric-drr.md)  | 衡量不利和有利分面在观测的阴性结果 (TN) 与预测的阴性结果 (TN \$1 FN) 之比方面的差异。 | 该模型在预测各年龄组不合格申请人的贷款拒绝情况时是否具有同等精度？ | 二进制、多类别分面和连续标签的范围为 [-1, \$11]。[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/clarify-measure-post-training-bias.html) | 
| [平等对待 (TE)](clarify-post-training-bias-metric-te.md)  | 衡量有利和不利分面在假阳性与假阴性之比方面的差异。 | 在贷款申请中，所有年龄段人口的假阳性与假阴性的相对比率是否相同？  | 二进制和多类别分面标签的范围：(-∞, \$1∞)。[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/clarify-measure-post-training-bias.html) | 
| [广义熵 (GE)](clarify-post-training-bias-metric-ge.md)  | 衡量模型预测中分配给每项输入的权益 b 的不平等程度。 | 在贷款申请分类的两个候选模型中，一个模型是否比另一个模型导致预期结果的分布更不均衡？ | 二进制和多类别标签的范围：(0, 0.5)。当模型仅预测假阴性时，GE 的定义不明确。[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/clarify-measure-post-training-bias.html) | 

有关训练后偏差指标的更多信息，请参阅[金融领域机器学习的公平性衡量标准系列](https://pages.awscloud.com/rs/112-TZM-766/images/Fairness.Measures.for.Machine.Learning.in.Finance.pdf)。

**Topics**
+ [预测标签中正比例的差异 (DPPL)](clarify-post-training-bias-metric-dppl.md)
+ [差别影响 (DI)](clarify-post-training-bias-metric-di.md)
+ [有条件录取的差异 (DCAcc)](clarify-post-training-bias-metric-dcacc.md)
+ [有条件拒绝差异 (DCR)](clarify-post-training-bias-metric-dcr.md)
+ [特异性差异 (SD)](clarify-post-training-bias-metric-sd.md)
+ [查全率差异 (RD)](clarify-post-training-bias-metric-rd.md)
+ [接受率差异 (DAR)](clarify-post-training-bias-metric-dar.md)
+ [拒绝率差异 (DRR)](clarify-post-training-bias-metric-drr.md)
+ [准确率差异 (AD)](clarify-post-training-bias-metric-ad.md)
+ [平等对待 (TE)](clarify-post-training-bias-metric-te.md)
+ [预测标签中的条件人口统计差异 (CDDPL)](clarify-post-training-bias-metric-cddpl.md)
+ [反事实翻转测试 (FT)](clarify-post-training-bias-metric-ft.md)
+ [广义熵 (GE)](clarify-post-training-bias-metric-ge.md)

# 预测标签中正比例的差异 (DPPL)
<a name="clarify-post-training-bias-metric-dppl"></a>

预测标签中正比例的差异 (DPPL) 指标可确定模型对每个分面的结果预测是否不同。其定义是分面 *a* 的阳性预测值 (y’ = 1) 比例与分面 *d* 的阳性预测值 (y’ = 1) 比例之差。例如，如果模型预测向 60% 的中年组（分面 *a*）和 50% 的其他年龄组（分面 *d*）发放贷款，则可能存在不利于分面 *d* 的偏差。在本例中，您必须确定这 10% 的差异是否对偏差案例有实质性影响。

标签比例差异 (DPL) 是衡量训练前偏差的指标，而 DPPL 则是衡量训练后偏差的指标，两者的比较可以评测数据集中最初存在的正比例偏差在训练后是否发生了变化。如果 DPPL 大于 DPL，那么训练后正比例的偏差就会增加。如果 DPPL 小于 DPL，则说明模型在训练后没有增加正比例偏差。将 DPL 与 DPPL 进行比较并不能保证该模型在所有方面都能减少偏差。例如，在考虑 [反事实翻转测试 (FT)](clarify-post-training-bias-metric-ft.md) 或 [准确率差异 (AD)](clarify-post-training-bias-metric-ad.md) 等其他指标时，模型可能仍然存在偏差。有关偏见检测的更多信息，请参阅博客文章[了解 Amazon Clarif SageMaker y 如何帮助检测偏见](https://aws.amazon.com/blogs/machine-learning/learn-how-amazon-sagemaker-clarify-helps-detect-bias/)。有关 DPL 的更多信息，请参阅 [标签比例差异 (DPL)](clarify-data-bias-metric-true-label-imbalance.md)。

DPPL 的计算公式为：



        DPPL = q'a - q'd

其中：
+ q'a = n'a(1)/na 是分面 *a* 中得到值为 1 的阳性结果的预测比例。在我们的例子中，是预计获得贷款的中年组分面的比例。这里 n'a(1) 表示分面 *a* 中获得值为 1 的阳性预测结果的成员数，na 表示分面 *a* 的成员数。
+ q'd = n'd(1)/nd 是分面 *d* 中获得值为 1 的阳性结果的预测比例。在我们的例子中，有一部分老年人和年轻人预计会获得贷款。这里 n'd(1) 表示分面 *d* 中获得阳性预测结果的成员数，nd 表示分面 *d* 的成员数。

如果 DPPL 足够接近于 0，则表示已经实现了训练后*人口统计均等*。

对于二进制和多类别分面标签，标准化 DPL 值范围在 [-1, 1] 区间内。对于连续标签，值在区间 (-∞, \$1∞) 内变化。
+ 正 DPPL 值表示与分面 *d* 相比，分面 *a* 的预测阳性结果比例更高。

  这称为*正偏差*。
+ DPPL 值接近于零表示分面 *a* 和分面 *d* 之间的预测阳性结果比例更加均等，而值为零则表示完全的人口统计均等。
+ 负 DPPL 值表示与分面 *a* 相比，分面 *d* 的预测阳性结果比例更高。这称为*负偏差*。

# 差别影响 (DI)
<a name="clarify-post-training-bias-metric-di"></a>

预测标签中正比例的差异指标可通过比率的形式来评估。

预测标签中正比例的比较指标可通过比率的形式来评估，而不是像[预测标签中正比例的差异 (DPPL)](clarify-post-training-bias-metric-dppl.md) 那样用差值来评估。差别影响 (DI) 指标定义为分面 *d* 的阳性预测值 (y' = 1) 比例与分面 *a* 的阳性预测值 (y' = 1) 比例之比。例如，如果模型预测向 60% 的中年组（分面 *a*）和 50% 的其他年龄组（分面 *d*）发放贷款，则 DI = .5/.6 = 0.8，这表明存在正偏差，并对分面 *d* 所代表的其他年龄组产生不利影响。

预测标签比例比率的公式：



        DI = q'd/q'a

其中：
+ q'a = n'a(1)/na 是分面 *a* 中得到值为 1 的阳性结果的预测比例。在我们的例子中，是预计获得贷款的中年组分面的比例。这里 n'a(1) 表示分面 *a* 中获得阳性预测结果的成员数，na 表示分面 *a* 的成员数。
+ q'd = n'd(1)/nd 是分面 *d* 中获得值为 1 的阳性结果的预测比例。在我们的例子中，有一部分老年人和年轻人预计会获得贷款。这里 n'd(1) 表示分面 *d* 中获得阳性预测结果的成员数，nd 表示分面 *d* 的成员数。

对于二进制、多类别分面和连续标签，DI 值的范围在 [0, ∞) 区间内。
+ 值小于 1 表示分面 *a* 的预测阳性结果比例高于分面 *d*。这称为*正偏差*。
+ 值为 1 表示人口统计均等。
+ 值大于 1 表示分面 *d* 的预测阳性结果比例高于分面 *a*。这称为*负偏差*。

# 有条件录取的差异 (DCAcc)
<a name="clarify-post-training-bias-metric-dcacc"></a>

该指标将观测标签与模型预测标签进行比较，并评估各分面的预测阳性结果是否相同。该指标接近于模仿人类的偏差，因为它量化了与训练数据集中观测的结果（标签 y）相比，模型对某个分面预测的阳性结果（标签 y'）多了多少。例如，如果与包含其他年龄组的分面（分面 *d*）相比，在训练数据集中观测的中年组（分面 *a*）贷款申请的接受率（阳性结果）高于基于资格条件的模型预测值，则可能表明贷款批准方式上存在有利于中年组的潜在偏差。

有条件接受差异的公式：

        DCAcc = c a-c d

其中：
+ ca = na(1)/ n'a(1) 是分面 *a* 中值为 1（接受）的观测阳性结果数与分面 *a* 的预测阳性结果（接受）数之比。
+ cd = nd(1)/ n'd(1) 是分面 *d* 中值为 1（接受）的观测阳性结果数与分面 *d* 的预测阳性结果（接受）数之比。

该 DCAcc 指标可以捕捉正面和负面的偏见，这些偏见揭示了基于资格的优惠待遇。请考虑以下在贷款接受方面存在基于年龄的偏差的示例。

**示例 1：正偏差** 

假设我们的数据集有 100 名中年人（分面 *a*）和 50 名来自其他年龄组的人（分面 *d*）申请贷款，其中模型建议向分面 *a* 中的 60 人和分面 *d* 中的 30 人发放贷款。因此，就 DPPL 指标而言，预测的比例无偏差，但观测标签显示，分面 *a* 中的 70 人和分面 *d* 中的 20 人获得了贷款。换句话说，该模型向中年组分面发放贷款的人数比训练数据中建议的观测标签少 17% (70/60 = 1.17)，向其他年龄组发放贷款的人数比建议的观测标签多 33% (20/30 = 0.67)。该 DCAcc 值的计算结果如下：

        DCAcc = 70/60-20/30 = 1/2

正值表示存在对中年组分面 *a* 的潜在偏差，与另一分面 *d* 相比，接受率低于观测数据（视为无偏差）所指示的值。

**示例 2：负偏差** 

假设我们的数据集有 100 名中年人（分面 *a*）和 50 名来自其他年龄组的人（分面 *d*）申请贷款，其中模型建议向分面 *a* 中的 60 人和分面 *d* 中的 30 人发放贷款。因此，就 DPPL 指标而言，预测的比例无偏差，但观测标签显示，分面 *a* 中的 50 人和分面 *d* 中的 40 人获得了贷款。换句话说，该模型向中年组分面发放贷款的人数比训练数据中建议的观测标签少 17% (50/60 = 0.83)，向其他年龄组发放贷款的人数比建议的观测标签多 33% (40/30 = 1.33)。该 DCAcc 值的计算结果如下：

        DCAcc = 50/60-40/30 = -1/2

负值表示存在不利于分面 *d* 的潜在偏差，与中年组分面 *a* 相比，接受率低于观测数据（视为无偏差）所指示的值。

请注意，您可以使用 DCAcc 来帮助您检测人类在环境中监督模型预测的潜在（非故意的）偏差。 human-in-the-loop例如，假设模型的预测 y' 无偏差，但最终决策由人类做出（可能还可以访问其他特征），该人可以修改模型预测以生成新的最终版 y'。从一个方面来看，人为的额外处理可能会无意中拒绝向不成比例的人提供贷款。 DCAcc可以帮助发现此类潜在的偏见。

二进制、多类别分面和连续标签的有条件接受差异的值范围为 (-∞, \$1∞)。
+ 当分面 *a* 的观测接受次数与预测接受次数之比高于分面 *d* 的这一比率时，就会出现正值。这些值表示可能存在不利于分面 *a* 中合格申请人的偏差。比率的差异越大，表观偏差就越严重。
+ 当分面 *a* 的观测接受次数与预测接受次数之比类似于分面 *d* 的这一比率时，就会出现接近零的值。这些值表示预测的接受率与标签数据中的观测值一致，并且两个分面的合格申请人被接受的情况相似。
+ 当分面 *a* 的观测接受次数与预测接受次数之比低于分面 *d* 的这一比率时，就会出现负值。这些值表示可能存在不利于分面 *d* 中合格申请人的偏差。比率的差异越负，表观偏差就越严重。

# 有条件拒绝差异 (DCR)
<a name="clarify-post-training-bias-metric-dcr"></a>

该指标将观测标签与模型预测标签进行比较，并评估各分面的阴性结果（拒绝）是否相同。该指标接近于模仿人类的偏差，因为它量化了与训练数据集中标签建议值（观测标签 y）相比，模型对某个分面赋予的阴性结果（预测标签 y'）多了多少。例如，如果与包含其他年龄组的分面（分面 *d*）相比，观测的中年组（分面 *a*）贷款申请被拒绝（阴性结果）的次数多于模型基于资格条件预测的值，则可能表明在拒绝贷款的方式上存在潜在偏差，中年组比其他组更有利。

有条件接受差异的公式：

        DCR = rd - ra

其中：
+ rd = nd(0)/ n'd(0) 是分面 *d* 中值为 0 的观测阴性结果（拒绝）数与分面 *d* 的预测阴性结果（拒绝）数之比。
+ ra = na(0)/ n'a(0) 是分面 *a* 中值为 0 的观测阴性结果（拒绝）数与分面 *a* 的预测阴性结果（拒绝）数之比。

DCR 指标既能反映正偏差，也能反映负偏差，这些偏差揭示了基于资格条件的优先处理。请考虑以下在贷款拒绝方面存在基于年龄的偏差的示例。

**示例 1：正偏差** 

假设我们的数据集有 100 名中年人（分面 *a*）和 50 名来自其他年龄组的人（分面 *d*）申请贷款，其中模型建议拒绝向分面 *a* 中的 60 人和分面 *d* 中的 30 人发放贷款。因此，根据 DPPL 指标，预测的比例无偏差，但观测标签显示，分面 *a* 中的 50 人和分面 *d* 中的 40 人被拒绝。换句话说，该模型拒绝向中年组分面发放贷款的人数比训练数据中建议的观测标签多 17% (50/60 = 0.83)，拒绝向其他年龄组发放贷款的人数比建议的观测标签少 33% (40/30 = 1.33)。DCR 值量化了各分面之间在观测到的拒绝率与预测的拒绝率之比方面的这种差异。正值表示存在有利于中年组的潜在偏差，与其他组相比，拒绝率低于观测数据（视为无偏差）所指示的值。

        DCR = 40/30 - 50/60 = 1/2

**示例 2：负偏差** 

假设我们的数据集有 100 名中年人（分面 *a*）和 50 名来自其他年龄组的人（分面 *d*）申请贷款，其中模型建议拒绝向分面 *a* 中的 60 人和分面 *d* 中的 30 人发放贷款。因此，根据 DPPL 指标，预测的比例无偏差，但观测标签显示，分面 *a* 中的 70 人和分面 *d* 中的 20 人被拒绝。换句话说，该模型拒绝向中年组分面发放贷款的人数比训练数据中建议的观测标签少 17% (70/60 = 1.17)，拒绝向其他年龄组发放贷款的人数比建议的观测标签多 33% (20/30 = 0.67)。负值表示存在有利于分面 *a* 的潜在偏差，与中年组分面 *d* 相比，拒绝率低于观测数据（视为无偏差）所指示的值。

        DCR = 20/30 - 70/60 = -1/2

二进制、多类别分面和连续标签的有条件拒绝差异的值范围为 (-∞, \$1∞)。
+ 当分面 *d* 的观测拒绝次数与预测拒绝次数之比高于分面 *a* 的这一比率时，就会出现正值。这些值表示可能存在不利于分面 *a* 中合格申请人的偏差。DCR 指标值越大，表观偏差就越严重。
+ 当分面 *a* 的观测拒绝次数与预测拒绝次数之比类似于分面 *d* 的这一比率时，就会出现接近零的值。这些值表示预测的拒绝率与标签数据中的观测值一致，并且两个分面的合格申请人被拒绝的情况相似。
+ 当分面 *d* 的观测拒绝次数与预测拒绝次数之比低于分面 *a* 的这一比率时，就会出现负值。这些值表示可能存在不利于分面 *d* 中合格申请人的偏差。负 DCR 指标的幅度越大，表观偏差就越严重。

 

# 特异性差异 (SD)
<a name="clarify-post-training-bias-metric-sd"></a>

特异性差异 (SD) 是有利分面 *a* 和不利分面 *d* 之间的特异性差异。特异性衡量模型正确预测阴性结果 (y'=0) 的频率。这些特异性的任何差异都是一种潜在的偏差。

如果某一分面的所有 y=0 案例都正确预测，则该分面的特异性是完美的。当模型尽可能地减少假阳性（即 I 型错误）时，特异性就会更高。例如，向分面 *a* 提供贷款的低特异性与向分面 *d* 提供贷款的高特异性之间的差异是衡量不利于分面 *d* 的偏差的一项指标。

以下公式用于计算分面 *a* 和 *d* 的特异性差异。

        SD = TNd/(TNd \$1 FPd) - TNa/(TNa \$1 FPa) = TNRd - TNRa

用于计算 SD 的变量定义如下：
+ TNd 是分面 *d* 的真阴性预测值。
+ FPd 是分面 *d* 的假阳性预测值。
+ TNd 是分面 *a* 的真阴性预测值。
+ FPd 是分面 *a* 的假阳性预测值。
+ TNRa = TNa/(TNa \$1 FPa) 是分面 *a* 的真阴性率，也称为特异性。
+ TNRd = TNd/(TNd \$1 FPd) 是分面 *d* 的真阴性率，也称为特异性。

例如，考虑分面 *a* 和 *d* 的以下混淆矩阵。

有利分面 `a` 的混淆矩阵


| 类 a 预测 | 实际结果 0 | 实际结果 1 | Total  | 
| --- | --- | --- | --- | 
| 0 | 20 | 5 | 25 | 
| 1 | 10 | 65 | 75 | 
| Total | 30 | 70 | 100 | 

不利分面 `d` 的混淆矩阵


| 类 d 预测 | 实际结果 0 | 实际结果 1 | Total  | 
| --- | --- | --- | --- | 
| 0 | 18 | 7 | 25 | 
| 1 | 5 | 20 | 25 | 
| Total | 23 | 27 | 50 | 

特异性差异值为 `SD = 18/(18+5) - 20/(20+10) = 0.7826 - 0.6667 = 0.1159`，表示存在不利于分面 *d* 的偏差。

对于二进制和多类别分类，分面 *a* 和 *d* 之间的特异性差异值范围为 `[-1, +1]`。此指标对连续标签不可用。以下是不同 SD 值的含义：
+ 当分面 *d* 的特异性高于分面 *a* 时，就会获得正值。这表明该模型发现分面 *d* 的假阳性少于分面 *a* 的假阳性。正值表示存在不利于分面 *d* 的偏差。
+ 接近零的值表示所比较的分面的特异性相似。这表明该模型在这两个分面发现的假阳性数量相似，没有偏差。
+ 当分面 *a* 的特异性高于分面 *d* 时，就会获得负值。这表明该模型发现分面 *a* 的假阳性多于分面 *d* 的假阳性。负值表示存在不利于分面 *a* 的偏差。

# 查全率差异 (RD)
<a name="clarify-post-training-bias-metric-rd"></a>

查全率差异 (RD) 指标是模型在有利分面 *a* 和不利分面 *d* 之间的查全率差异。这些查全率的任何差异都是一种潜在的偏差。查全率是真阳性率 (TPR)，用于衡量模型正确预测应得到阳性结果的案例的频率。如果某一分面的所有 y=1 案例都正确预测为 y'=1，则该分面的查全率是完美的。当模型尽可能地减少假阴性（即 II 型错误）时，查全率会更高。例如，模型正确检测了两个不同组（分面 *a* 和 *d*）中有多少人本应有资格获得贷款？ 如果向分面 *a* 提供贷款的查全率高，而向分面 *d* 提供贷款的查全率低，那么差异就可用来衡量这种不利于分面 *d* 中组的偏差。

分面 *a* 和 *d* 查全率差异的公式：

        RD = TPa/(TPa \$1 FNa) - TPd/(TPd \$1 FNd) = TPRa - TPRd 

其中：
+ TPa 是分面 *a* 的真阳性预测值。
+ FNa 是分面 *a* 的假阴性预测值。
+ TPd 是分面 *d* 的真阳性预测值。
+ FNd 是分面 *d* 的假阴性预测值。
+ TPRa = TPa/(TPa \$1 FNa) 是分面 *a* 的查全率或其真阳性率。
+ TPRd TPd/(TPd \$1 FNd) 是分面 *d* 的查全率或其真阳性率。

例如，考虑分面 *a* 和 *d* 的以下混淆矩阵。

有利分面 a 的混淆矩阵


| 类 a 预测 | 实际结果 0 | 实际结果 1 | Total  | 
| --- | --- | --- | --- | 
| 0 | 20 | 5 | 25 | 
| 1 | 10 | 65 | 75 | 
| Total | 30 | 70 | 100 | 

不利分面 d 的混淆矩阵


| 类 d 预测 | 实际结果 0 | 实际结果 1 | Total  | 
| --- | --- | --- | --- | 
| 0 | 18 | 7 | 25 | 
| 1 | 5 | 20 | 25 | 
| Total | 23 | 27 | 50 | 

查全率差异值为 RD = 65/70 - 20/27 = 0.93 - 0.74 = 0.19，这表明存在不利于分面 *d* 的偏差。

对于二进制和多类别分类，分面 *a* 和 *d* 之间的查全率差异值范围为 [-1, \$11]。此指标对连续标签不可用。
+ 当分面 *a* 的查全率高于分面 *d* 时，就会获得正值。这表明该模型发现分面 *a* 的真阳性多于分面 *d* 的真阳性，这是一种形式的偏差。
+ 接近零的值表示所比较的分面的查全率相似。这表明该模型在这两个分面发现的真阳性数量大致相同，没有偏差。
+ 当分面 *d* 的查全率高于分面 *a* 时，就会获得负值。这表明该模型发现分面 *d* 的真阳性多于分面 *a* 的真阳性，这是一种形式的偏差。

# 接受率差异 (DAR)
<a name="clarify-post-training-bias-metric-dar"></a>

接受率差异 (DAR) 指标是分面 *a* 和 *d* 的真阳性 (TP) 预测值与观测到的阳性值 (TP \$1 FP) 之比的差值。该指标衡量了模型对这两个分面的接受率的预测精度差异。精度衡量的是模型从合格候选人库中识别出的合格候选人的比例。如果模型对合格申请人的预测精度在不同分面之间存在差异，这就是偏差，其大小由 DAR 来衡量。

分面 *a* 和 *d* 之间接受率差异的公式：

        DAR = TPa/(TPa \$1 FPa) - TPd/(TPd \$1 FPd) 

其中：
+ TPa 是分面 *a* 的真阳性预测值。
+ FPa 是分面 *a* 的假阳性预测值。
+ TPd 是分面 *d* 的真阳性预测值。
+ FPd 是分面 *d* 的假阳性预测值。

例如，假设该模型接受 70 名中年申请人（分面 *a*）申请贷款（预测阳性标签），其中只有 35 人实际被接受（观测阳性标签）。还假设该模型接受来自其他年龄人群（分面 *d*）的 100 名申请人申请贷款（预测阳性标签），其中只有 40 人实际被接受（观测阳性标签）。那么 DAR = 35/70 - 40/100 = 0.10，这表明存在不利于第二个年龄组（分面 *d*）合格人群的潜在偏差。

二进制、多类别分面和连续标签的 DAR 值范围为 [-1, \$11]。
+ 当分面 *a* 的预测阳性结果（接受）与观测阳性结果（合格申请人）之比大于分面 *d* 的这一比率时，就会出现正值。这些值表示由于分面 *d* 中出现相对较多的假阳性，因此可能存在不利于不利分面 *d* 的偏差。比率的差异越大，表观偏差就越严重。
+ 当分面 *a* 和 *d* 的预测阳性结果（接受）与观测阳性结果（合格申请人）之比具有相似的值时，就会出现接近零的值，这表明模型以同样的精度预测阳性结果的观测标签。
+ 当分面 *d* 的预测阳性结果（接受）与观测阳性结果（合格申请人）之比大于分面 *a* 的这一比率时，就会出现负值。这些值表示由于分面 *a* 中出现相对较多的假阳性，因此可能存在不利于有利分面 *a* 的偏差。比率的差异越负，表观偏差就越严重。

# 拒绝率差异 (DRR)
<a name="clarify-post-training-bias-metric-drr"></a>

拒绝率差异 (DRR) 指标是分面 *a* 和 *d* 的真阴性 (TN) 预测结果与观测阴性结果 (TN \$1 FN) 之比的差异。该指标衡量了模型对这两个分面的拒绝率的预测精度差异。精度衡量的是模型从不合格候选人库中识别出的不合格候选人的比例。如果模型对不合格申请人的预测精度在不同分面之间存在差异，这就是偏差，其大小由 DRR 来衡量。

分面 *a* 和 *d* 之间拒绝率差异的公式：

        DRR = TNd/(TNd \$1 FNd) - TNa/(TNa \$1 FNa) 

前述 DRR 等式的分量如下所示。
+ TNd 是分面 *d* 的真阴性预测值。
+ FNd 是分面 *d* 的假阴性预测值。
+ TPa 是分面 *a* 的真阴性预测值。
+ FNa 是分面 *a* 的假阴性预测值。

例如，假设该模型拒绝了 100 名中年贷款申请人（分面 *a*）（预测阴性标签），其中 80 人实际上不合格（观测阴性标签）。还假设该模型拒绝来自其他年龄人群（分面 *d*）的 50 名申请人申请贷款（预测阴性标签），其中只有 40 人实际上不合格（观测阴性标签）。那么 DRR = 40/50 - 80/100 = 0，表明没有偏差。

二进制、多类别分面和连续标签的 DRR 值范围为 [-1, \$11]。
+ 当分面 *d* 的预测阴性结果（拒绝）与观测阴性结果（不合格申请人）之比大于分面 *a* 的这一比率时，就会出现正值。这些值表示由于分面 *a* 中出现相对较多的假阴性，因此可能存在不利于有利分面 *a* 的偏差。比率的差异越大，表观偏差就越严重。
+ 当分面 *a* 和 *d* 的预测阴性结果（拒绝）与观测阴性结果（不合格申请人）之比具有相似的值时，就会出现接近零的值，这表明模型以同样的精度预测阴性结果的观测标签。
+ 当分面 *a* 的预测阴性结果（拒绝）与观测阴性结果（不合格申请人）之比大于分面 *d* 的这一比率时，就会出现负值。这些值表示由于分面 *d* 中出现相对较多的假阳性，因此可能存在不利于不利分面 *d* 的偏差。比率的差异越负，表观偏差就越严重。

# 准确率差异 (AD)
<a name="clarify-post-training-bias-metric-ad"></a>

准确率差异 (AD) 指标是不同分面的预测准确率之间的差异。该指标确定模型对一个分面的分类是否比另一个分面更准确。AD 表示某一分面是否会产生更大比例的 I 型和 II 型错误。但它无法区分 I 型和 II 型错误。例如，模型对不同年龄人口的准确率可能相同，但对一个年龄组的错误可能主要是假阳性（I 型错误），而对另一年龄组的错误可能主要是假阴性（II 型错误）。

另外，如果对中年人口（分面 *a*）的贷款审批准确率远高于对另一年龄段人口（分面 *d*）的贷款审批准确率，那么要么第二组中更大比例的合格申请人被拒绝发放贷款 (FN)，要么该组中更大比例的不合格申请人获得贷款 (FP)，要么两者兼而有之。这可能会导致第二组的组内不公平，即使两个年龄组的贷款发放比例几乎相同，这表现为 DPPL 值接近于零。

AD 指标的计算公式为分面 *a* 的预测准确率 (ACCa) 减去分面 *d* 的预测准确率 (ACCd)：

        AD = ACCa - ACCd

其中：
+ ACCa = (TPa \$1 TNa)/(TPa \$1 TNa \$1 FPa \$1 FNa) 
  + TPa 是分面 *a* 的真阳性预测值
  + TNa 是分面 *a* 的真阴性预测值
  + FPa 是分面 *a* 的假阳性预测值
  + FNa 是分面 *a* 的假阴性预测值
+ ACCd = (TPd \$1 TNd)/(TPd \$1 TNd \$1 FPd \$1 FNd)
  + TPd 是分面 *d* 的真阳性预测值
  + TNd 是分面 *d* 的真阴性预测值
  + FPd 是分面 *d* 的假阳性预测值
  + FNd 是分面 *d* 的假阴性预测值

例如，假设一个模型向分面 *a* 的 100 名申请人中的 70 名批准发放贷款，而拒绝了另外 30 名申请人。10 名申请人不应该获得批准 (FPa)，而 60 名申请人本应获得批准 (TPa)。被拒绝的申请人中有 20 人本应获得批准 (FNa)，10 人被正确拒绝 (TNa)。分面 *a* 的准确率如下：

        ACCa = (60 \$1 10)/(60 \$1 10 \$1 20 \$1 10) = 0.7

接下来，假设一个模型向分面 *d* 的 100 名申请人中的 50 名批准发放贷款，而拒绝了另外 50 名申请人。10 名申请人不应该获得批准 (FPa)，而 40 名申请人本应获得批准 (TPa)。被拒绝的申请人中有 40 人本应获得批准 (FNa)，10 人被正确拒绝 (TNa)。分面 *a* 的准确率如下：

        ACCd= (40 \$1 10)/(40 \$1 10 \$1 40 \$1 10) = 0.5

因此，准确率差异为 AD = ACCa - ACCd = 0.7 - 0.5 = 0.2。这表明存在不利于分面 *d* 的偏差，因为该指标为正值。

二进制和多类别分面标签的 AD 值范围为 [-1, \$11]。
+ 当分面 *a* 的预测准确率高于分面 *d* 的预测准确率时，就会出现正值。这意味着分面 *d* 更容易受到假阳性（I 型错误）或假阴性（II 型错误）的某种组合的影响。这意味着存在不利于不利分面 *d* 的潜在偏差。
+ 当分面 *a* 的预测准确率与分面 *d* 的预测准确率相似时，就会出现接近零的值。
+ 当分面 *d* 的预测准确率高于分面 *a* 的预测准确率时，就会出现负值。这意味着分面 *a* 更容易受到假阳性（I 型错误）或假阴性（II 型错误）的某种组合的影响。这意味着存在不利于有利分面 *a* 的偏差。

# 平等对待 (TE)
<a name="clarify-post-training-bias-metric-te"></a>

平等对待 (TE) 是指分面 *a* 和分面 *d* 之间假阴性与假阳性比率之差。该指标的主要理念是评估即使各组的准确率相同，错误对一组的伤害是否比另一组更大？ 错误率来自假阳性和假阴性的总和，但对于不同的分面，这两者的细分可能大不相同。TE 衡量错误在各分面的补偿方式是相似还是不同。

平等对待的公式：

        TE = FNd/FPd - FNa/FPa

其中：
+ FNd 是分面 *d* 的假阴性预测值。
+ FPd 是分面 *d* 的假阳性预测值。
+ FNa 是分面 *a* 的假阴性预测值。
+ FPa 是分面 *a* 的假阳性预测值。

请注意，如果 FPa 或 FPd 为零，该指标就会变成无界。

例如，假设有 100 名贷款申请人来自分面 *a*，有 50 名贷款申请人来自分面 *d*。就分面 *a* 而言，有 8 人被错误地拒绝贷款 (FNa)，另有 6 人被错误地批准贷款 (FPa)。其余的预测均正确，那么 TPa \$1 TNa = 86。对于分面 *d*，有 5 人被错误地拒绝 (FNd)，有 2 人被错误地批准 (FPd)。其余的预测均正确，那么 TPd \$1 TNd = 43。分面 *a* 的假阴性与假阳性之比等于 8/6 = 1.33，分面 *d* 的假阴性与假阳性之比等于 5/2 = 2.5。因此，TE = 2.5 - 1.33 = 1.167，尽管两个分面的准确率相同：

        ACCa = (86)/(86\$1 8 \$1 6) = 0.86

        ACCd = (43)/(43 \$1 5 \$1 2) = 0.86

二进制和多类别分面标签的有条件拒绝差异的值范围为 (-∞, \$1∞)。未为连续标签定义 TE 指标。对该指标的解释取决于假阳性（I 型错误）和假阴性（II 型错误）的相对重要性。
+ 当分面 *d* 的假阴性与假阳性之比大于分面 *a* 的假阴性与假阳性之比时，就会出现正值。
+ 当分面 *a* 的假阴性与假阳性之比和分面 *d* 的假阴性与假阳性之比相似时，就会出现接近零的值。
+ 当分面 *d* 的假阴性与假阳性之比小于分面 *a* 的假阴性与假阳性之比时，就会出现负值。

**注意**  
先前的版本指出，平等对待指标的计算公式是 FPa / FNa - FPd / FNd，而不是 FNd / FPd - FNa / FPa。这两个版本都可以使用。有关更多信息，请参阅 [https://pages.awscloud.com/rs/112-TZM-766/images/Fairness.Measures.for.Machine.Learning.in.Finance.pdf](https://pages.awscloud.com/rs/112-TZM-766/images/Fairness.Measures.for.Machine.Learning.in.Finance.pdf)。

# 预测标签中的条件人口统计差异 (CDDPL)
<a name="clarify-post-training-bias-metric-cddpl"></a>

人口统计差异 (DDPL) 指标用于确定分面 *d* 中预测拒绝标签比例是否大于预测接受标签比例。它可以比较不同分面的预测拒绝比例和预测接受比例的差异。该指标与训练前 CDD 指标完全相同，只不过它是根据预测标签而不是观测标签进行计算。该指标的范围是 (-1,\$11)。

分面 *d* 标签的人口统计差异预测公式如下：

        DDPLd = n'd(0)/n'(0) - n'd(1)/n'(1) = PdR(y'0) - PdA(y'1) 

其中：
+ n'(0) = n'a(0) \$1 n'd(0) 是分面 *a* 和 *d* 的预测拒绝标签数。
+ n'(1) = n'a(1) \$1 n'd(1) 是分面 *a* 和 *d* 的预测接受标签数。
+ PdR(y'0) 是分面 *d* 中预测拒绝标签（值 0）的比例。
+ PdA(y'1) 是分面 *d* 中预测接受标签（值 1）的比例。

为了排除辛普森悖论，需要使用预测标签中的条件人口统计差异 (CDDPL) 指标，该指标根据数据集上定义子组层次的属性来限制 DDPL。通过重新分组，可以深入了解较不利分面出现明显人口统计差异的原因。经典案例是伯克利大学招生案例，该大学的男性录取率总体上高于女性。但研究院系子组后，我们发现，在某些院系，女性的录取率高于男性。对此的解释是，女性申请的院系比男性申请的院系的录取率低。研究子组录取率后发现，在录取率较低的院系中，女性的录取率实际上高于男性。

CDDPL 指标通过对数据集的某一属性所定义的子组中发现的所有差异进行平均，从而给出一个单一的衡量标准。它被定义为每个子组的预测标签中的人口统计差异 (DDPLi) 的加权平均值，每个子组的差异根据所含观测值的数量按比例加权。预测标签中的条件人口统计差异的公式如下：

        CDDPL = (1/n)\$1∑ini \$1DDPLi 

其中：
+ ∑ini = n 是观测值的总数，ni 是每个子组的观测值数。
+ DDPLi = n'i(0)/n(0) - n'i(1)/n(1) = PiR(y'0) - PiA(y'1) 是该子组的预测标签中的人口统计差异。

因此，子组的预测标签中的人口统计差异 (DDPLi) 是每个子组的预测拒绝标签比例与预测接受标签比例之间的差异。

二进制、多类别和连续结果的 DDPL 值范围为 [-1,\$11]。
+ \$11：当分面 *a* 或子组没有预测拒绝标签且分面 *d* 或子组没有预测接受标签时。
+ 正值表示预测标签中存在人口统计差异，因为分面 *d* 或子组的预测拒绝标签比例高于预测接受标签比例。值越大，差异就越大。
+ 接近零的值表示平均而言没有人口统计差异。
+ 负值表示预测标签中存在人口统计差异，因为分面 *a* 或子组的预测拒绝标签比例高于预测接受标签比例。值越小，差异就越大。
+ -1：当分面 *d* 或子组没有预测拒绝标签且分面 *a* 或子组没有预测接受标签时。

# 反事实翻转测试 (FT)
<a name="clarify-post-training-bias-metric-ft"></a>

翻转测试是一种检查分面 *d* 的每个成员并评估分面 *a* 的相似成员是否具有不同模型预测的方法。分面 *a* 的成员被选为分面 *d* 中观测值的 k 最近邻。我们评估有多少对立组的最近邻得到了不同的预测，其中翻转的预测可以从正变为负，反之亦然。

反事实翻转测试的公式是两个集合的基数之差除以分面 *d* 的成员数：

        FT = (F\$1 - F-)/nd

其中：
+ F\$1 是具有不利结果的不利分面 *d* 的成员数，这些成员在有利分面 *a* 中的最近邻获得了有利结果。
+ F- 是具有有利结果的不利分面 *d* 的成员数，这些成员在有利分面 *a* 中的最近邻获得了不利结果。
+ nd 是分面 *d* 的样本量。

二进制和多类别分面标签的反事实翻转测试的值范围为 [-1, \$11]。对于连续标签，我们设置了一个阈值，将标签折叠为二进制标签。
+ 当不利分面 *d* 的不利反事实翻转测试决策数量超过有利决策的数量时，就会出现正值。
+ 当不利和有利反事实翻转测试决策的数量达到平衡时，就会出现接近零的值。
+ 当不利分面 *d* 的不利反事实翻转测试决策数量少于有利决策的数量时，就会出现负值。

# 广义熵 (GE)
<a name="clarify-post-training-bias-metric-ge"></a>

广义熵指数 (GE) 衡量预测标签与观测标签相比在权益 `b` 上的不平等程度。当预测到假阳性结果时，就会获得权益。当阴性观测值 (y=0) 的预测结果为阳性 (y'=1) 时，就会出现假阳性。当观测标签和预测标签相同（也称为真阳性和真阴性）时，也会获得权益。当预测到假阴性时，不会获得任何权益。当预测到阳性观测值 (y=1) 的结果为阴性 (y'=0) 时，就会出现假阴性。权益 `b` 定义如下。

```
 b = y' - y + 1
```

根据此定义，假阳性获得值为 `2` 的权益 `b`，而假阴性获得值为 `0` 的权益。真阳性和真阴性都将获得值为 `1` 的权益。

GE 指标按照[广义熵指数](https://en.wikipedia.org/wiki/Generalized_entropy_index) (GE) 计算，权重 `alpha` 设置为 `2`。此权重控制对不同权益值的敏感度。`alpha` 越小，对较小值的敏感度就越高。

![\[定义广义熵指数的等式，alpha 参数设置为 2。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/clarify-post-training-bias-metric-ge.png)


用于计算 GE 的变量定义如下：
+ bi 是 `ith` 数据点获得的权益。
+ b' 是所有权益的平均值。

GE 的范围为 0 到 0.5，值为零表示所有数据点的权益没有不平等现象。当所有输入都正确预测时，或者当所有预测均为假阳性时，就会发生这种情况。当所有预测均为假阴性时，GE 的定义不明确。

**注意**  
GE 指标并不取决于某个分面值是有利还是不利。