

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 특이도 차이(SD)
<a name="clarify-post-training-bias-metric-sd"></a>

특이도 차이(SD)는 유리한 패싯 *a*와 불리한 패싯 *d* 사이에 존재하는 특이도의 차이를 말합니다. 특이도는 모델이 부정적인 결과를 정확히 예측해내는 빈도(y'=0)를 측정합니다. 이러한 특이도에서의 차이는 편향의 잠재적 형태입니다.

어떤 패싯에 대해 y=0 사례를 모두 정확하게 예측했다면 해당 패싯에서의 특이도는 완벽합니다. 모델이 제1종 오류로 알려진 거짓 긍정을 최소화한다면 특이도는 더욱 올라가게 됩니다. 예를 들어, 패싯 *a*에 대한 대출에서의 낮은 특이도와 패싯 *d*에 대한 대출에서의 높은 특이도 간에 나타나는 차이는 패싯 *d*에 대한 편향의 측정값에 해당합니다.

다음은 패싯 *a*와 패싯 *d*에서의 특이도 차이를 구하는 공식입니다.

        SD = TNd/(TNd \+ FPd) - TNa/(TNa \+ FPa) = TNRd - TNRa

SD를 계산하는 데 사용되는 다음 변수는 다음과 같이 정의됩니다.
+ TNd은 패싯 *d*에 대해 예측된 참 부정입니다.
+ FPd는 패싯 *d*에 대해 예측된 거짓 긍정입니다.
+ TNd은 패싯 *a*에 대해 예측된 참 부정입니다.
+ FPd는 패싯 *a*에 대해 예측된 거짓 긍정입니다.
+ TNRa = TNa/(TNa \+ FPa)는 패싯 *a*에 대한 참 부정률 또는 특이도라고 합니다.
+ TNRd = TNd/(TNd \+ FPd)는 패싯 *d*에 대한 참 부정률 또는 특이도라고 합니다.

예를 들어, 패싯 *a* 및 패싯 *d*에 대한 다음과 같은 혼동 행렬을 살펴봅시다.

유리한 패싯 `a`에 대한 혼동 행렬


| 클래스 a 예측 | 실제 결과 0 | 실제 결과 1 | 합계  | 
| --- | --- | --- | --- | 
| 0 | 20 | 5 | 25 | 
| 1 | 10 | 65 | 75 | 
| 합계 | 30 | 70 | 100 | 

불리한 패싯 `d`에 대한 혼동 행렬


| 클래스 d 예측 | 실제 결과 0 | 실제 결과 1 | 합계  | 
| --- | --- | --- | --- | 
| 0 | 18 | 7 | 25 | 
| 1 | 5 | 20 | 25 | 
| 합계 | 23 | 27 | 50 | 

특이도 차이의 값은 `SD = 18/(18+5) - 20/(20+10) = 0.7826 - 0.6667 = 0.1159`이며, 이는 패싯 *d*에 대한 편향을 나타냅니다.

바이너리 분류와 멀티카테고리 분류에 대한 패싯 *a*와 패싯 *d* 간의 특이도 차이 값의 범위는 `[-1, +1]`입니다. 연속형 레이블인 경우에는 이 지표를 사용할 수 없습니다. 서로 다른 SD 값이 의미하는 바는 다음과 같습니다.
+ 양수 값은 패싯 *d*에서의 특이도가 패싯 *a*에서보다 높을 때 얻어집니다. 이는 해당 모델에서 패싯 *d*에 대한 거짓 긍정이 패싯 *a*에 대한 경우보다 적다는 것을 시사합니다. 양수 값은 패싯 *d*에 대한 편향을 나타냅니다.
+ 값이 0에 가까우면 비교 대상인 여러 패싯의 특이도가 비슷하다는 것을 나타냅니다. 이는 모델이 이러한 패싯 모두에서 비슷한 수의 거짓 긍정을 생성하고 있고 편향되지 않았음을 시사합니다.
+ 음수 값은 패싯 *a*에서의 특이도가 패싯 *d*에서보다 높을 때 얻어집니다. 이는 해당 모델에서 패싯 *a*에 대한 거짓 긍정이 패싯 *d*에 대한 경우보다 많다는 것을 시사합니다. 음수 값은 패싯 *a*에 대한 편향을 나타냅니다.