

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 類別不平衡 (CI)
<a name="clarify-bias-metric-class-imbalance"></a>

*與資料集中的另一個構面 a 相比，當構面值 *d* 具有較少的訓練範例時，就會發生類別不平衡 (CI) 偏差。**這是因為模型會優先配合較大的構面，但會犧牲較小的構面，因此可能會導致構面 d 較高的訓練誤差。**模型也有較高風險過度擬合較小的資料集，這可能會導致構面 d 較大的測試誤差。*考慮機器學習模型主要根據中年人 (構面 a) 的資料進行訓練的範例，在進行涉及年輕人和老年人的預測時 (構面 d) 可能不太準確。

(標準化) 構面不平衡衡量的公式：

        CI = (na - nd)/(na \$1 nd)

其中 an 是構面 *a* 的項目數量和 nd 的構面 *d* 的數量。其值範圍在間隔 [-1, 1] 內。
+ *正 CI 值表示構面 *a* 在資料集中有更多訓練範例，值 1 表示資料只包含構面 a 的項目。*
+  CI 接近零的值表示多構面之間的項目的分布，且零值表示構面之間的完全相等的分區，並表示訓練資料樣本中的平衡分布。
+ *負 CI 值表示構面 *d* 在資料集中具有更多訓練範例，值為 -1 表示資料僅包含構面 d 的項目。*
+ 接近任一極端值 -1 或 1 的 CI 值非常不平衡，並且存在做出偏差預測的重大風險。

如果發現多構面之間存在明顯的多構面不平衡，您可能想要重新平衡樣本，然後再繼續在其上訓練模型。