

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Lp-norm(LP)
<a name="clarify-data-bias-metric-lp-norm"></a>

Lp-norm(LP)은 훈련 데이터세트에서 관찰된 레이블의 패싯 분포 사이의 p-norm 거리를 측정합니다. 이 지표는 음수가 아니므로 역 편향을 감지할 수 없습니다.

Lp-norm의 공식은 다음과 같습니다.

        Lp(Pa, Pd) = ( ∑y\|\|Pa - Pd\|\|p)1/p

여기서 점 x와 점 y 사이의 p-norm 거리는 다음과 같이 정의됩니다.

        Lp(x, y) = (\|x1-y1\|p \+ \|x2-y2\|p \+ … \+\|xn-yn\|p)1/p 

2-norm은 유클리드 norm입니다. 대학 입시 멀티카테고리 시나리오에서 yi = {y0, y1, y2} = {accepted, waitlisted, rejected}와 같이 세 가지 범주로 구성된 결과 분포가 있다고 가정해 보겠습니다. 패싯 *a*와 패싯 *d*의 결과 개수 차이에 대한 제곱합을 구합니다. 결과값의 유클리드 거리는 다음과 같이 계산됩니다.

        L2(Pa, Pd) = [(na(0) - nd(0))2 \+ (na(1) - nd(1))2 \+ (na(2) - nd(2))2]1/2

위치: 
+ na(i)는 패싯 *a*의 i번째 범주형 결과의 수입니다.예를 들어 na(0)은 패싯 *a*의 승인 건수입니다.
+ nd(i)는 패싯 *d*의 i번째 범주형 결과의 수입니다.예를 들어 nd(2)는 패싯 *d*의 거부 건수입니다.

  바이너리, 멀티카테고리, 연속형 결과에 대한 LP 값의 범위는 [0, √2]입니다.이때,
  + 값이 0에 가까우면 여러 레이블의 분포가 서로 비슷함을 의미합니다.
  + 양수 값은 레이블 분포가 서로 발산된다는 것을 의미하며, 양수 값이 커질수록 발산의 정도도 커집니다.