

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 레이블 비율의 차이(DPL)
<a name="clarify-data-bias-metric-true-label-imbalance"></a>

레이블 비율의 차이(DPL)는 훈련 데이터세트에서 패싯 *d*에 대한 긍정적인 레이블이 있는 관찰 결과의 비율과 패싯 *a*의 긍정적인 레이블이 있는 관찰 결과의 비율을 서로 비교합니다. 예를 들어, 이는 금융 대출을 승인받은 중년 개인(패싯 *a*)과 기타 연령 그룹(패싯 *d*)의 비율을 비교하는 데 사용될 수 있습니다. 기계 학습 모델은 훈련 데이터상 결정을 최대한 비슷하게 모방하려고 시도합니다. 따라서 DPL이 높은 데이터세트에서 훈련된 기계 학습 모델은 향후의 예측 시 동일한 불균형을 그대로 반영할 가능성이 높습니다.

레이블 비율의 차이에 대한 공식은 다음과 같습니다.

        DPL = (qa - qd)

위치:
+ qa = na(1)/na은 관찰된 레이블 값이 1인 패싯 *a*의 비율입니다. 대출 승인을 받은 중년 인구 집단의 비율을 예로 들 수 있습니다. 여기서 na(1)은 패싯 *a*에서 긍정적인 결과를 얻은 멤버의 수를 나타내고 na은 패싯 *a*의 멤버 수를 나타냅니다.
+ qd = nd(1)/nd은 관찰된 레이블 값이 1인 패싯 *d*의 비율입니다. 대출 승인을 받은 중년 인구 집단 이외의 사람들의 비율을 예로 들 수 있습니다. 여기서 nd(1)은 패싯 *d*에서 긍정적인 결과를 얻은 멤버의 수를 나타내고 nd은 패싯 *d*의 멤버 수를 나타냅니다.

DPL이 0에 충분히 가까우면 인구통계학적 평등이 달성되었다고 볼 수 있습니다.**

바이너리 및 멀티카테고리 패싯 레이블의 경우 DPL 값의 범위는 (-1, 1) 간격입니다. 연속형 레이블의 경우 레이블을 이진수로 축소하도록 임계값을 설정합니다.
+ 양수인 DPL 값은 패싯 *a*가 패싯 *d*에 비해 긍정적인 결과의 비율이 상대적으로 높다는 것을 나타냅니다.
+ DPL 값이 0에 가까울수록 패싯 간에 긍정적인 결과의 비율이 비교적 균등함을 나타내고, 값이 0이면 인구통계학적 평등이 완벽함을 나타냅니다.
+ 음수인 DPL 값은 패싯 *d*가 패싯 *a*에 비해 긍정적인 결과의 비율이 상대적으로 높다는 것을 나타냅니다.

높은 정도의 DPL이 문제가 되는지 여부는 매번 상황에 따라 달라집니다. 문제가 되는 경우라면, 높은 정도의 DPL은 데이터에 근본적인 문제가 있다는 신호일 수 있습니다. 예를 들어, DPL이 높은 데이터세트는 연령 기반 인구 집단에 대한 과거의 편향이나 편견을 반영하고 있을 수 있으며, 이는 모델을 학습시키기에 바람직하지 않은 데이터입니다.