기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 모델 성능 평가 및 비교
<a name="jumpstart-text-classification-evaluate"></a>

평가 프레임워크를 사용하여 배포된 텍스트 분류 모델을 평가합니다. 프레임워크는 노트북 기반 접근 방식을 통해 지도 평가 모드와 비지도 평가 모드를 모두 지원합니다.

## 기본 제공 데이터세트 사용
<a name="w2aac37c15c23b5"></a>

대부분의 사용자는 레이블이 지정된 평가 데이터가 없으므로 이 자습서에서는 **기본 제공 지도 평가 데이터세트를 사용하는 것이 좋습니다**. 기본 제공 데이터세트는 다양한 시나리오에서 포괄적인 성능 분석을 제공합니다.
+ **균형 잡힌 데이터세트**: 기준 성능에 대한 클래스 분포가 동일합니다.
+ **왜곡된 데이터세트**: 실제 테스트를 위한 불균형한 클래스입니다.
+ **까다로운 데이터세트**: 모델 견고성을 스트레스 테스트하기 위한 엣지 사례입니다.

평가는 정확도, 정밀도, 재현율, F1 점수, Matthews 상관관계 계수(MCC) 및 모델 비교를 위한 시각적 곡선이 있는 Area Under the Curve Receiver Operating Characteristic 점수를 포함한 주요 지표를 생성합니다.

## 사용자 지정 데이터 사용
<a name="w2aac37c15c23b7"></a>

레이블이 지정된 자체 데이터세트가 있는 경우 노트북에서 해당 데이터세트를 대체할 수 있습니다. 프레임워크는 데이터 형식에 자동으로 적응하고 동일한 포괄적인 지표를 생성합니다.

**지원되는 데이터 형식:**
+ **CSV 형식:** 두 개의 열: `text` 및 `label`
+ **레이블 형식:** "positive"/"negative", "LABEL\_0"/"LABEL\_1", "True"/"False", or "0"/"1"
+ **비지도:** 신뢰도 분석을 위한 단일 `text` 열

## 평가 환경 설정
<a name="w2aac37c15c23b9"></a>

SageMaker Amazon SageMaker Studio에서 JupyterLab 스페이스를 생성하여 평가 노트북을 실행합니다.

1. Studio의 홈 화면에서 **JupyterLab**을 선택합니다.

1. 스페이스가 없는 경우:

   1. **스페이스 생성**을 선택합니다.

   1. 설명적인 이름 이름을 입력합니다(예: **TextModelEvaluation)**.

   1. 기본 인스턴스 유형을 유지합니다.

   1. **스페이스 실행**을 선택합니다.

   1. 스페이스가 생성되면 **JupyterLab 열기**를 선택합니다.

### 평가 노트북에 액세스
<a name="w2aac37c15c23b9b7"></a>

[zip 파일](samples/sagemaker-text-classification-evaluation-2.zip)을 다운로드하여 로컬 머신에 추출합니다. 추출된 전체 폴더를 JupyterLab 스페이스에 업로드하여 모델 테스트를 시작합니다. 패키지에는 기본 평가 노트북, 샘플 데이터세트, 지원되는 Python 모듈 및 전체 평가 프레임워크에 대한 자세한 지침이 포함되어 있습니다.

**참고**  
패키지를 추출한 후 README 파일에서 자세한 설정 지침 및 프레임워크 개요를 검토합니다.

[결과 해석](jumpstart-text-classification-interpret.md)을 진행하여 평가 결과를 분석하고 데이터에 기반하여 모델을 선택하는 방법을 알아봅니다.