

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 类别不平衡 (CI)
<a name="clarify-bias-metric-class-imbalance"></a>

当数据集中一个分面值 *d* 比另一个分面值 *a* 的训练样本少时，就会出现类别不平衡 (CI) 偏差。这是因为模型会优先拟合较大的分面，而忽略较小的分面，因此会导致分面 *d* 的训练误差增大。模型对较小数据集过度拟合的风险也较高，这会导致分面 *d* 的测试误差增大。举个例子，如果机器学习模型主要根据中年人（分面 a）的数据进行训练，那么在做出涉及年轻人和老年人（分面 d）的预测时，其准确性可能会降低。

（标准化）分面不平衡的衡量公式：

        CI = (na - nd)/(na \$1 nd)

其中 na 是分面 *a* 的成员数，nd 是分面 *d* 的成员数。它的值范围在 [-1, 1] 区间内。
+ 正 CI 值表示分面 *a* 在数据集中有更多的训练样本，值为 1 表示数据仅包含分面 *a* 的成员。
+  接近零的 CI 值表示各分面之间的成员分布更加均衡，值为零表示各分面之间完全等分，表明训练数据中样本分布均衡。
+ 负 CI 值表示分面 *d* 在数据集中有更多的训练样本，值为 -1 表示数据仅包含分面 *d* 的成员。
+ 如果 CI 值接近 -1 或 1 这两个极值，则表示非常不平衡，很有可能导致预测结果有偏差。

如果发现各分面之间存在明显的不平衡，则对样本进行模型训练之前，可能需要重新平衡样本。