

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 예측된 레이블의 조건부 인구통계학적 차이(CDDPL)
<a name="clarify-post-training-bias-metric-cddpl"></a>

예측된 레이블의 인구통계학적 차이(DDPL) 지표는 패싯 *d*에서 예측된 거부 레이블의 비중이 예측된 승인 레이블에 비해 더 큰지 여부를 결정합니다. 이를 통해 여러 패싯에 걸쳐 예측된 거부 비율과 예측된 승인 비율의 차이를 비교할 수 있습니다. 이 지표는 관찰된 레이블 대신 예측된 레이블을 기준으로 계산된다는 점을 제외하면 훈련 전 CDD 지표와 정확히 동일합니다. 이 지표의 범위는 (-1, \+1)입니다.

패싯 *d*의 예측된 레이블에서의 인구통계학적 차이를 구하는 공식은 다음과 같습니다.

        DDPLd = n'd(0)/n'(0) - n'd(1)/n'(1) = PdR(y'0) - PdA(y'1) 

위치: 
+ n'(0) = n'a(0) \+ n'd(0)은 패싯 *a*와 패싯 *d*에 대해 예측된 거부 레이블의 수입니다.
+ n'(1) = n'a(1) \+ n'd(1)은 패싯 *a*와 패싯 *d*에 대해 예측된 승인 레이블의 수입니다.
+ PdR(y'0)은 패싯 *d*에서 예측된 거부 레이블(값 0)의 비율입니다.
+ PdA(y'1)은 패싯 *d*에서 예측된 승인 레이블(값 1)의 비율입니다.

심슨의 역설을 배제할 수 있으려면 데이터세트 상의 부분군 계층을 정의하는 속성에 대해 DDPL 조건을 부여하는 예측된 레이블의 조건부 인구통계학적 차이(CDDPL) 지표가 필요합니다. 재군집화를 적용하며 덜 유리한 패싯에 대한 명백한 인구통계학적 차이의 원인을 파악하는 것이 가능해집니다. 한때 버클리대학교 입시에서 남성이 여성보다 전반적으로 더 높은 비율로 합격했던 것이 전형적인 사례입니다. 그러나 학과별 부분군을 조사하자, 학과별로 여성이 남성보다 입학률이 더 높은 것으로 나타났습니다. 여성이 남성보다 상대적으로 경쟁률이 낮은 학과에 지원했다는 것이 이에 대한 설명이었습니다. 부분군별로 경쟁률을 살펴본 결과 실제로 경쟁률이 낮은 학과에서 여성이 남성보다 더 높은 비율로 합격했던 것으로 나타났습니다.

CDDPL 지표는 데이터세트의 속성에 의해 정의된 부분군에서 확인된 모든 차이를 평균화함으로써 단일 측정값을 제공합니다. 이 값은 각 부분군에 대한 예측된 레이블의 인구통계학적 차이의 가중 평균치(DDPLi)로서 정의되며, 여기서 각 부분군 차이에 대한 가중치는 포함하고 있는 관측치의 수에 따라 비례적으로 부여됩니다. 예측된 레이블에서의 조건부 인구통계학적 차이를 구하는 공식은 다음과 같습니다.

        CDDPL = (1/n)\*∑ini \*DDPLi 

위치: 
+ ∑ini = n은 총 관측치의 수에 해당하고 ni은 각 부분군에 대한 관측치 수입니다.
+ DDPLi = n'i(0)/n(0) - n'i(1)/n(1) = PiR(y'0) - PiA(y'1)은 부분군에 대한 예측된 레이블의 인구통계학적 차이입니다.

따라서 부분군에 대한 예측된 레이브의 인구통계학적 차이(DDPLi)는 각 부분군에서 예측된 불합격 레이블의 비율과 예측된 합격 레이블의 비율 간에 나타나는 차이입니다.

바이너리, 멀티카테고리, 연속형 결과에 대한 DDPL 값의 범위는 [-1,\+1]입니다.
+ \+1: 패싯 *a* 또는 부분군에는 예측된 불합격 레이블이 없고 패싯 *d* 또는 부분군에는 예측된 합격자가 없는 경우.
+ 양수 값은 패싯 *d* 또는 부분군에서는 예측된 불합격 레이블의 비율이 예측된 합격 레이블의 비율보다 크기 때문에 예측된 레이블에 인구통계학적 차이가 존재함을 나타냅니다. 값이 높을수록 차이의 수준이 커집니다.
+ 값이 0에 가까우면 평균적으로 인구통계학적 차이가 없음을 나타냅니다.
+ 양수 값은 패싯 *a* 또는 부분군에서는 예측된 불합격 레이블의 비율이 예측된 합격 레이블의 비율보다 크기 때문에 예측된 레이블에 인구통계학적 차이가 존재함을 나타냅니다. 값이 낮을수록 차이의 수준이 커집니다.
+ -1: 패싯 *d* 또는 부분군에는 예측된 불합격 레이블이 없고 패싯 *a* 또는 부분군에는 예측된 합격자가 없는 경우.