

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 特异性差异 (SD)
<a name="clarify-post-training-bias-metric-sd"></a>

特异性差异 (SD) 是有利分面 *a* 和不利分面 *d* 之间的特异性差异。特异性衡量模型正确预测阴性结果 (y'=0) 的频率。这些特异性的任何差异都是一种潜在的偏差。

如果某一分面的所有 y=0 案例都正确预测，则该分面的特异性是完美的。当模型尽可能地减少假阳性（即 I 型错误）时，特异性就会更高。例如，向分面 *a* 提供贷款的低特异性与向分面 *d* 提供贷款的高特异性之间的差异是衡量不利于分面 *d* 的偏差的一项指标。

以下公式用于计算分面 *a* 和 *d* 的特异性差异。

        SD = TNd/(TNd \$1 FPd) - TNa/(TNa \$1 FPa) = TNRd - TNRa

用于计算 SD 的变量定义如下：
+ TNd 是分面 *d* 的真阴性预测值。
+ FPd 是分面 *d* 的假阳性预测值。
+ TNd 是分面 *a* 的真阴性预测值。
+ FPd 是分面 *a* 的假阳性预测值。
+ TNRa = TNa/(TNa \$1 FPa) 是分面 *a* 的真阴性率，也称为特异性。
+ TNRd = TNd/(TNd \$1 FPd) 是分面 *d* 的真阴性率，也称为特异性。

例如，考虑分面 *a* 和 *d* 的以下混淆矩阵。

有利分面 `a` 的混淆矩阵


| 类 a 预测 | 实际结果 0 | 实际结果 1 | Total  | 
| --- | --- | --- | --- | 
| 0 | 20 | 5 | 25 | 
| 1 | 10 | 65 | 75 | 
| Total | 30 | 70 | 100 | 

不利分面 `d` 的混淆矩阵


| 类 d 预测 | 实际结果 0 | 实际结果 1 | Total  | 
| --- | --- | --- | --- | 
| 0 | 18 | 7 | 25 | 
| 1 | 5 | 20 | 25 | 
| Total | 23 | 27 | 50 | 

特异性差异值为 `SD = 18/(18+5) - 20/(20+10) = 0.7826 - 0.6667 = 0.1159`，表示存在不利于分面 *d* 的偏差。

对于二进制和多类别分类，分面 *a* 和 *d* 之间的特异性差异值范围为 `[-1, +1]`。此指标对连续标签不可用。以下是不同 SD 值的含义：
+ 当分面 *d* 的特异性高于分面 *a* 时，就会获得正值。这表明该模型发现分面 *d* 的假阳性少于分面 *a* 的假阳性。正值表示存在不利于分面 *d* 的偏差。
+ 接近零的值表示所比较的分面的特异性相似。这表明该模型在这两个分面发现的假阳性数量相似，没有偏差。
+ 当分面 *a* 的特异性高于分面 *d* 时，就会获得负值。这表明该模型发现分面 *a* 的假阳性多于分面 *d* 的假阳性。负值表示存在不利于分面 *a* 的偏差。