

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 條件式的人口統計差異 (CDD)
<a name="clarify-data-bias-metric-cddl"></a>

人口統計差異指標 (DD) 會決定構面在資料集中的拒絕結果是否比接受結果有更大的比例。在二進位情況下，有兩個構面，例如男性和女性，構成了資料集，不利構面被標籤為構面 *d*，有利被標籤為構面 *a*。例如，大學入學的案例，如果女性申請人佔被拒絕的申請人中的 46％，並且僅佔被接受的申請人中的 32％，我們認為存在*人口統計的差異*，因為女性被拒絕的比率超過被接受的比率。在這種情況下，女性申請人的標籤為構面 *d*。如果男性申請人佔被拒絕的申請人中的 54%，並且佔被接受的申請人中的 68% 獲接納的申請人，那麼在這構面並沒有人口統計上的差異，因為拒絕率低於接受率。在這種情況下，男性申請人的標籤為構面 *a*。

不太有利構面 *d* 之人口統計差異的公式如下：

        DDd = nd(0)/n(0) - nd(1)/n(1) = PdR(y0) - PdA(y1) 

其中：
+ n(0) = na(0) \+ nd(0) 是有利構面 *a* 和弱勢構面 *d* 資料集中拒絕結果的總數。
+ n(1) = na(1) \+ nd(1) 是資料集中接受結果的有利構面 *a* 和弱勢構面 *d* 的總數。
+ PdR(y0) 是構面 *d* 中被拒絕結果(值為 0)的比例。
+ PdA(y1) 是在構面 *d* 中接受的結果(值 1)的比例。

在大學入學的例子中，女性的人口統計差異為 DDd = 0.46 - 0.32 = 0.14。男性為 DDa = 0.54 - 0.68 = - 0.14。

一個條件式人口統計差異 (CDD) 指標標準，需要調控對定義資料集上一層子組屬性的 DD，以排除辛普森悖論。重組可以為不太有利構面提供明顯人口統計差異的原因分析。經典案例出現在柏克萊入學的情況下，男性被接受的比率比女性更高。在 DD 的範例計算中使用這個案例的統計資料。然而，當檢查系所子組時，證明女性的入學率高於男性，當以系所為條件的情況下。說明女性申請系所的接受率低於男性。檢查子組接受率顯示，對於接受率較低的系所，女性實際上的接受率高於男性。

CDD 指標透過平均資料集屬性定義的子組中發現的所有差異，提供了一個單一量值。其被定義為每個子組的人口統計差異 (DDi) 加權平均值，每個子組差異與包含的觀察數呈加權比例。條件式人口統計差異的公式如下：

        CDD = (1/n)\*∑ini \*DDi 

其中：
+ ∑ini = n 是觀察的總數且 ni 是每個子組的觀察值數目。
+ DDi = ni(0)/n(0) - ni(1)/n(1) = PiR(y0) - PiA(y1) 是第 i 個子組的人口統計差異。

一個子組 (DDi) 的人口統計差異是拒絕結果的比例，和每個子組接受結果的比例之間差異。

對於完整資料集 DDd 或其條件化子組 DDi 的二進位結果 DD 值的範圍是 [-1, \+1]。
+ \+1：當構面 *a* 或子組沒有拒絕，且構面 *d* 或子組中沒有接受時
+ 正值顯示存在人口統計差異，因為構面 *d* 或子組在資料集中被拒絕的結果比例大於接受的結果比例。值越高，構面越不利，差異越大。
+ 負值顯示沒有人口統計差異，因為構面 *d* 或子組在資料集中的接受結果比例比被拒絕的結果更大。值越低，構面越有利。
+ -1：當構面 *d* 或子組中沒有拒絕，且在構面 *a* 或子組中沒有接受時

如果您沒有設定任何條件，那麼 CDD 為零，如果且僅當 DPL 為零。

該指標對於探索歐盟和英國非歧視法律和法理中的直接和間接歧視，以及客觀理由的概念非常有用。有關其他資訊，請參閱[為什麼不能自動化公平性](https://arxiv.org/abs/2005.05906)。本文件還包含柏克萊招生案例的相關資料和分析，該案例顯示如何條件化系所入學率子組說明辛普森悖論。