

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 예측된 레이블의 양수 비율 차이(DPPL)
<a name="clarify-post-training-bias-metric-dppl"></a>

예측된 레이블의 양수 비율 차이(DPPL) 지표는 모델이 각 패싯마다 결과를 다르게 예측하고 있는지 여부를 결정합니다. 이는 패싯 *a*에 대한 긍정적인 예측의 비율(y' = 1)과 패싯 *d*에 대한 긍정적인 예측의 비율(y' = 1) 간의 차이로서 정의됩니다. 예를 들어, 만약 모델 예측이 중년층의 60%(패싯 *a*)와 다른 연령대의 50%(패싯 *d*)에게 대출을 제공하고 있다면, 이는 패싯 *d*에 대해 편향된 것일 수 있습니다. 이 예제에서는 이 10%의 차이가 편향 여부의 판단에 있어 중요한지 여부를 확인해야 합니다.

훈련 전 편향의 척도인 레이블 비율(DPL)의 차이와 훈련 후 편향의 척도인 DPPL을 비교하여 훈련 후 데이터세트에 처음 존재하는 양의 비율의 편향이 변경되는지를 평가합니다. DPPL이 DPL보다 크면 훈련 후 양의 비율로 편향이 증가한 것입니다. DPPL이 DPL보다 작은 경우 모델이 훈련 후 양의 비율로 편향을 증가시키지 않은 것입니다. DPL을 DPPL과 비교한다고 해서 모델이 모든 차원에서 편향을 줄인다는 보장은 없습니다. 예를 들어 [반사실적 플립테스트(FT)](clarify-post-training-bias-metric-ft.md) 또는 [정확도 차이(AD)](clarify-post-training-bias-metric-ad.md)와 같은 다른 지표를 고려할 때 모델이 여전히 편향될 수 있습니다. 편향 감지에 대한 자세한 내용은 블로그 게시물 [Learn how Amazon SageMaker Clarify helps detect bias](https://aws.amazon.com/blogs/machine-learning/learn-how-amazon-sagemaker-clarify-helps-detect-bias/)를 참조하세요. DPL에 대한 자세한 내용은 [레이블 비율의 차이(DPL)](clarify-data-bias-metric-true-label-imbalance.md) 섹션을 참조하세요.

DPPL의 공식은 다음과 같습니다.



        DPPL = q'a - q'd

위치:
+ q'a = n'a(1)/na은 값 1의 긍정적인 결과를 얻는 패싯 *a*의 예측된 비율입니다. 이 예제에서는 대출이 승인될 것으로 예측되는 중년층 패싯의 비율에 해당합니다. 여기서 n’a(1)은 패싯 *a*에서 값 1의 긍정적인 예측 결과를 얻은 멤버의 수를 나타내고 na은 패싯 *a*의 멤버 수를 나타냅니다.
+ q'd = n'd(1)/nd은 값 1의 긍정적인 결과를 얻는 패싯 *d*의 예측된 비율입니다. 이 예제에서는 대출을 받을 것으로 예측된 노년층과 청년층의 패싯에 해당합니다. 여기서 n’d(1)은 패싯 *d*에서 긍정적인 예측 결과를 얻은 멤버의 수를 나타내고 nd은 패싯 *d*의 멤버 수를 나타냅니다.

만약 DPPL이 0에 충분히 근접했다면, 이는 훈련 후 인구통계학적 평등이 달성되었음을 의미합니다.**

바이너리 및 멀티카테고리 패싯 레이블의 경우 정규화된 DPL 값의 범위는 [-1, 1] 간격입니다. 연속형 레이블의 경우, 값은 해당 간격(-∞, \$1∞)에 따라서 달라집니다.
+ 양수인 DPPL 값은 패싯 *a*가 패싯 *d*에 비해 긍정적인 예측 결과의 비율이 상대적으로 높다는 것을 나타냅니다.

  이를 긍정 편향이라고 합니다.**
+ DPPL 값이 0에 근접했다면 패싯 *a*와 패싯 *d* 간에 긍정적인 예측 결과의 비율이 비교적 균등함을 나타내고, 값이 0이면 인구통계학적 평등이 완벽함을 나타냅니다.
+ 음수인 DPPL 값은 패싯 *d*가 패싯 *a*에 비해 긍정적인 예측 결과의 비율이 상대적으로 높다는 것을 나타냅니다. 이를 부정 편향이라고 합니다.**