

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 預測標籤 (CDDPL) 中的條件人口統計差異
<a name="clarify-post-training-bias-metric-cddpl"></a>

人口統計差異指標 (DDPL) 決定構面 *d* 在預測拒絕的標籤中是否比預測接受標籤有更大的比例。它可以比較預測拒絕比例和構面的預測接受比例的差異。此指標與預訓練 CDD 指標完全相同，不同之處在於它是用預測標籤而不是觀察標籤上運算的。此指標位於範圍 (-1, \$11)。

構面 *d* 標籤的人口統計差異預測公式如下：

        DDPLd = n'd(0)/n'(0) - n'd(1)/n'(1) = PdR(y'0) - PdA(y'1) 

其中：
+ n'(0) = n'a(0) \$1 n'd(0) 是構面 *a* 和 *d* 的預測拒絕標籤數目。
+ n'(1) = n'a(1) \$1 n'd(1) 是構面 *a* 和 *d* 的預測接受標籤數目。
+ PdR(y'0) 是預測拒絕標籤 (值 0) 在構面 *d* 中的比例。
+ PdA(y'1) 是預測接受標籤 (值 1) 在構面 *d* 中的比例。

預測標籤的條件式人口統計差異 (CDDPL) 指標中，需要在定義資料集上子組階層的屬性上調控 DDPL，以排除辛普森悖論。重組可以為不太有利構面提供明顯人口統計差異的原因分析。經典案例出現在柏克萊入學的情況下，男性被接受的比率比女性更高。但是，當檢查系所的子組時，證明個系所的女性的入學率高於男性。說明女性申請系所的接受率低於男性。檢視子組接受率發現，對於接受率較低的系所來說，女性的實際接受率高於男性。

CDDPL 指標針對資料集屬性所定義的子組中所有差異提供的單一量值，方法是將它們平均。它被定義為每個子組的預測標籤 (DDPLi) 中人口統計差異的加權平均值，每個子組差異均按照包含的觀察次數呈比例加權。預測標籤的條件式人口統計差異公式如下：

        CDDPL = (1/n)\$1∑ini \$1DDPLi 

其中：
+ ∑ini = n 是觀察的總數且 ni 是每個子組的觀察值數目。
+ DDPLi = n'i(0)/n(0) - n'i(1)/n(1) = PiR(y'0) - PiA(y'1) 是子組預測標籤中的人口統計差異。

因此，預測標籤 (DDPLi) 中的子組的人口統計差異是預測拒絕標籤的比例，與每個子組預測接受標籤的比例間差異。

二進位、多類別和連續性結果的 DDPL 值範圍為 [-1, \$11]。
+ \$11：當構面 *a* 或子組沒有預測拒絕標籤，且構面 *d* 或子組沒有預測接受標籤時。
+ 正值顯示預測標籤中存在人口統計差異，因為構面 *d* 或子組在預測拒絕的標籤中比預測接受標籤的比例大。值越大差異越大。
+ 接近零的值顯示平均而言沒有人口統計差異。
+ 負值顯示預測標籤中存在人口統計差異，因為構面 *a* 或子組在預測拒絕標籤中的比例大於預測的接受標籤的比例。值越低差異越大。
+ -1：當構面 *d* 或子組沒有預測的拒絕襟扣，並且構面 *a* 或子組沒有預測的接受襟扣時。