

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 조건부 거부의 차이(DCR)
<a name="clarify-post-training-bias-metric-dcr"></a>

이 지표는 관찰된 레이블을 모델이 수행한 예측의 레이블과 비교하면서 부정적인 결과(거부)에 있어 이 값이 여러 패싯에 걸쳐 동일한지 여부를 평가합니다. 이 지표는 특정 패싯에 대해 모델이 제공한 부정적 결과(예측된 레이블 y')가 훈련 데이터세트에서 레이블에 의해 제안된 것(관찰된 레이블 y)과 비교하여 얼마나 더 많은지 정량화한다는 면에서 인간의 편견을 어느 정도 모방한다고 할 수 있습니다. 예를 들어, 중년층의 대출 신청(패싯 *a*)에서 다른 연령대를 포함하는 패싯(패싯 *d*)과 비교 시 자격 취득에 기반한 모델의 예측치보다 더 많은 거부 건수(부정적 결과)가 관찰되고 있는 경우, 이는 대출 거부 방식에 있어 다른 그룹에 비해 중년층에 유리한 편향의 존재를 시사할 수 있습니다.

조건부 승인의 차이를 구하는 공식:

        DCR = rd - ra

위치:
+ rd = nd(0)/ n'd(0)은 패싯 *d*의 값 0(거부)에서 관찰된 부정적인 결과(거부)의 수와 패싯 *d*에 대해 예측된 부정적인 결과(거부)의 수가 가지는 비율입니다.
+ ra = na(0)/ n'a(0)은 패싯 *a*의 값 0(거부)에서 관찰된 부정적인 결과(거부)의 수와 패싯 *a*의 값 0에 대해 예측된 부정적인 결과(거부)의 수가 가지는 비율입니다.

DCR 지표는 자격 취득 기준으로 특혜 대우를 나타내는 긍정적 편향과 부정적 편향을 모두 포착할 수 있습니다. 대출 거부에 있어 연령에 따른 편향이 나타나는 다음과 같은 사례를 살펴보겠습니다.

**예제 1: 긍정 편향** 

대출을 신청한 중년 인구 100명(패싯 *a*)과 50명의 다른 연령대(패싯 *d*)로 구성된 데이터 세트가 있다고 가정해 보겠습니다.이 모델이 패싯 *a*에서 60명, 패싯 *d*에서는 30명에게 대출을 거부하도록 추천했다고 가정합니다. 예측된 비율은 DPPL 지표에 의해서는 편향되지 않았지만, 관찰된 레이블을 확인해보면 패싯 *a*에서는 50명, 패싯 *d*에서는 40명의 대출 신청이 거부되었다는 것을 알 수 있습니다. 다시 말해, 이 모델은 중년층 패싯에서는 훈련 데이터에서 관찰된 레이블이 제안한 것보다 17% 많은 대출을 거부했고(50/60 = 0.83), 다른 연령대에서는 관찰된 레이블이 제안한 것보다 33% 적은 대출을 거부했습니다(40/30 = 1.33). DCR 값은 각 패싯 간의 관찰된 거부율과 예측된 거부율의 비율에 존재하는 이 차이를 정량화합니다. 양수 값은 다른 그룹과 비교 시 관찰된 데이터(편향되지 않은 것으로 간주)가 가리키는 정도보다도 거부율이 낮게 나온 중년 그룹에 유리한 잠재적 편향이 존재함을 나타냅니다.

        DCR = 40/30 - 50/60 = 1/2

**예제 2: 부정 편향** 

대출을 신청한 중년 인구 100명(패싯 *a*)과 50명의 다른 연령대(패싯 *d*)로 구성된 데이터세트가 있다고 가정해 보겠습니다.이 모델이 패싯 *a*에서 60명, 패싯 *d*에서는 30명에게 대출을 거부하도록 추천했다고 가정합니다. 예측된 비율은 DPPL 지표에 의해서는 편향되지 않았지만, 관찰된 레이블을 확인해보면 패싯 *a*에서는 70명, 패싯 *d*에서는 20명의 대출 신청이 거부되었다는 것을 알 수 있습니다. 다시 말해, 이 모델은 중년층 패싯에서는 훈련 데이터에서 관찰된 레이블이 제안한 것보다 17% 적은 대출을 거부했고(70/60 = 1.17), 다른 연령대에서는 관찰된 레이블이 제안한 것보다 33% 많은 대출을 거부했습니다(20/30 = 0.67). 음수 값은 중년층 패싯 *a*와 비교 시 관찰된 데이터(편향되지 않은 것으로 간주)가 가리키는 정도보다도 거부율이 낮게 나온 패싯 *a*에 유리한 잠재적 편향이 존재함을 나타냅니다.

        DCR = 20/30 - 70/60 = -1/2

바이너리, 멀티카테고리 패싯 및 연속형 레이블에 대한 조건부 거부 건수 차이의 값 범위는 (-∞, \$1∞)입니다.
+ 양수 값은 패싯 *d*에 대해 예측된 거부 건수와 관찰된 거부 건수의 비율이 패싯 *a*에서의 해당 비율보다 클 때 얻어집니다. 이러한 값은 패싯 *a*에서 적격 신청자를 대상으로 한 편향이 존재할 수 있음을 나타냅니다. DCR 지표의 값이 클수록 명백한 편향은 더욱 심해집니다.
+ 0에 가까운 값은 패싯 *a*에 대해 예측된 승인 건수와 관찰된 거부 건수의 비율이 패싯 *d*에서의 비율과 비슷할 때 얻어집니다. 이 값은 예측된 거부율이 레이블이 지정된 데이터에서 관찰된 값과 일치하며 두 패싯 모두에서 적격 신청자의 대출이 유사한 방식으로 거부되고 있음을 나타냅니다.
+ 음수 값은 패싯 *d*에 대해 예측된 거부 건수와 관찰된 거부 건수의 비율이 패싯 *a*에서의 해당 비율보다 작을 때 얻어집니다. 이러한 값은 패싯 *d*에서 적격 신청자를 대상으로 한 편향이 존재할 수 있음을 나타냅니다. DCR 지표의 부정적인 정도가 커질수록 명백한 편향은 더욱 심해집니다.

 