

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Kolmogorov-Smirnov (KS)
<a name="clarify-data-bias-metric-kolmogorov-smirnov"></a>

Kolmogorov-Smirnov 偏差指标 (KS) 等于数据集的分面 *a* 和分面 *d* 分布中标签之间的最大差异。Clarify实施的双样本KS测试通过 SageMaker 找到最不平衡的标签来补充其他标签失衡的衡量标准。

Kolmogorov-Smirnov 指标的公式如下：

        KS = max(\$1Pa(y) - Pd(y)\$1)

例如，假设一组大学申请人（分面 *a*）被拒绝、列入候补名单或被录取的比率分别为 40%、40% 和 20%，而其他申请人（分面 *d*）的这些比率分别为 20%、10% 和 70%，则 Kolmogorov-Smirnov 偏差指标值如下所示：

KS = max(\$10.4-0.2\$1, \$10.4-0.1\$1, \$10.2-0.7\$1) = 0.5

这表明分面分布之间的最大差异为 0.5，并且出现在接受率中。等式中有三个项，因为标签是基数为三的多类。

二进制、多类别和连续结果的 LP 值范围为 [0, \$11]，其中：
+ 接近零的值表示标签在所有结果类别的各分面之间均匀分布。例如，申请贷款的两个分面分别获得了 50% 的接受率和 50% 的拒绝率。
+ 接近一的值表示一个结果的标签都集中在一个分面。例如，分面 *a* 获得了 100% 的接受率，而分面 *d* 的接受率为零。
+ 间歇值表示最大标签不平衡的相对程度。