기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 훈련 전 데이터 편향
<a name="clarify-detect-data-bias"></a>

알고리즘 편향, 차별, 공정성 및 관련 주제는 법률, 정책 및 컴퓨터 과학과 같은 여러 분야에서 연구되어 왔습니다. 컴퓨터 시스템이 특정 개인 또는 개인 집단에 차별적인 경우 이는 편향된 것으로 간주될 수 있습니다. 이러한 애플리케이션을 구동하는 기계 학습 모델은 데이터를 통해 학습하며, 이 데이터는 차이 또는 기타 내재된 편향을 반영할 수 있습니다. 예를 들어, 훈련 데이터가 다양한 인구 집단을 충분히 반영하지 못하거나 편향된 레이블을 포함하고 있을 수 있습니다. 이러한 편향을 나타내는 데이터세트로 훈련된 기계 학습 모델은 결국 이러한 편향을 학습한 다음 예측 시 같은 편향을 재현하거나 심지어 악화시킬 가능성도 있습니다. 기계 학습 분야는 ML 수명 주기의 각 단계에서 편향을 탐지하고 측정하여 이를 해결할 수 있는 기회를 제공합니다. Amazon SageMaker Clarify를 사용하면 모델 훈련에 사용되는 데이터가 편향을 인코딩하는지 여부를 확인할 수 있습니다.

훈련 전과 훈련 후에 편향을 측정하고, 추론을 위해 엔드포인트에 모델을 배포한 후 기준과 비교하면서 모니터링하는 것이 가능합니다. 훈련 전 편향 지표는 데이터를 모델 훈련 용도로 사용하기 전에 원시 데이터의 편향을 감지하고 측정하도록 설계되었습니다. 이 때 사용되는 지표는 모델 출력에 의존하지 않으므로 모델에 구애받지 않습니다. 그러나 공정성의 개념은 여러 가지가 있기 때문에 고유한 편향의 측정값이 필요합니다. Amazon SageMaker Clarify는 다양한 공정성 기준을 정량화할 수 있는 편향 지표를 제공합니다.

편향 지표에 대한 추가 정보는 [Learn How Amazon SageMaker Clarify Helps Detect Bias](https://aws.amazon.com/blogs/machine-learning/learn-how-amazon-sagemaker-clarify-helps-detect-bias) 및 [Fairness Measures for Machine Learning in Finance](https://pages.awscloud.com/rs/112-TZM-766/images/Fairness.Measures.for.Machine.Learning.in.Finance.pdf)를 참조하세요.

## 편향과 공정성과 관련한 Amazon SageMaker Clarify 용어
<a name="clarify-bias-and-fairness-terms"></a>

Amazon SageMaker Clarify는 편향과 공정성을 논의하기 위해 다음과 같은 용어를 사용합니다.

**기능**  
관찰 대상인 현상의 측정 가능한 개별 속성 또는 특성을 테이블 형식에 맞는 열에 포함시킨 데이터를 말합니다.

**레이블**  
기계 학습 모델의 훈련 대상이 되는 특징을 말합니다. 이를 관찰된 레이블 또는 관찰된 결과라고 합니다.****

**예측 레이블**  
모델에 의해 예측된 레이블을 말합니다. 예측된 결과라고도 합니다.**

**샘플**  
특징 값과 레이블 값으로 설명되는 관찰된 객체로서, 테이블 형식 데이터를 위한 행에 포함됩니다.

**데이터세트**  
여러 샘플이 모인 데이터를 말합니다.

**편향**  
연령이나 소득 계층과 같은 다양한 그룹에 걸쳐 발생하게 되는 훈련 데이터 또는 모델 예측 행동 상의 불균형을 말합니다. 편향은 모델 학습에 사용된 데이터 또는 알고리즘으로 인해 발생할 수 있습니다. 예를 들어 ML 모델이 주로 중년 개인의 데이터를 기반으로 훈련되는 경우, 청년층과 노년층을 대상으로 예측을 수행할 때는 정확도가 떨어질 수 있습니다.

**편향 지표**  
잠재적 편향의 수준을 나타내는 수치값을 반환하는 함수를 말합니다.

**편향 리포트**  
주어진 데이터세트 또는 데이터세트와 모델의 조합에 대한 편향 지표를 모은 자료를 말합니다.

**긍정적인 레이블 값**  
샘플에서 관찰 대상 인구 집단에 유리하게 나타난 레이블 값을 말합니다. 즉, 샘플에서 긍정적인 결과가 확인되었다고 지정하는 것입니다.**

**부정적인 레이블 값**  
샘플에서 관찰 대상 인구 집단에 불리하게 나타난 레이블 값을 말합니다. 즉, 샘플에서 부정적인 결과가 확인되었다고 지정하는 것입니다.**

**그룹 변수**  
조건부 인구통계학적 차이(CDD) 측정을 위한 부분군을 형성하는 데 사용되는 데이터세트의 범주형 열을 말합니다. 심슨의 역설과 관련하여 이 CDD 지표에만 필요합니다.

**패싯**  
편향이 측정되는 대상과 관련된 속성을 포함하고 있는 열 또는 특징을 말합니다.

**패싯 값**  
편향에 의한 유리함 또는 불리함이 발생할 수 있는 속성의 특징 값을 말합니다.

**예측 확률**  
모델이 수행한 예측에 따라 샘플이 긍정적이거나 부정적인 결과를 가질 확률을 말합니다.

## 샘플 노트북
<a name="clarify-data-bias-sample-notebooks"></a>

Amazon SageMaker Clarify는 편향 감지와 관련하여 다음과 같은 샘플 노트북을 제공합니다.
+ [Explainability and bias detection with Amazon SageMaker Clarify](https://sagemaker-examples.readthedocs.io/en/latest/sagemaker-clarify/fairness_and_explainability/fairness_and_explainability.html) – SageMaker Clarify를 사용하여 편향을 감지하고 특성 속성을 통해 모델 예측을 설명하기 위한 처리 작업을 생성합니다.

이 노트북은 Amazon SageMaker Studio에서만 실행이 검증되었습니다. Amazon SageMaker Studio에서 노트북을 여는 방법에 대한 지침이 필요한 경우, [Amazon SageMaker Studio Classic 노트북 만들기 또는 열기](notebooks-create-open.md)섹션을 참조하세요. 커널을 선택하라는 메시지가 표시되면, **Python 3(데이터 과학)**를 선택합니다.

**Topics**
+ [편향과 공정성과 관련한 Amazon SageMaker Clarify 용어](#clarify-bias-and-fairness-terms)
+ [샘플 노트북](#clarify-data-bias-sample-notebooks)
+ [훈련 전 편향 지표](clarify-measure-data-bias.md)
+ [SageMaker Studio에서 훈련 전 데이터의 편향에 대한 보고서 생성](clarify-data-bias-reports-ui.md)