

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 사용자 지정 모델 작동 방식
<a name="canvas-build-model"></a>

Amazon SageMaker Canvas를 사용하여 가져온 데이터세트에 사용자 지정 모델을 구축할 수 있습니다. 구축한 모델을 사용하여 새 데이터를 예측하세요. SageMaker Canvas는 데이터세트의 정보를 사용하여 최대 250개의 모델을 구축하고 가장 성능이 좋은 모델을 선택합니다.

모델 구축을 시작하면 Canvas는 하나 이상의 *모델 유형*을 자동으로 추천합니다. 모델 유형은 다음 범주 중 하나에 속합니다.
+ **수치 예측** - 머신 러닝에서는 이를 *회귀*라고 합니다. 수치 데이터에 대한 예측을 수행하려는 경우 수치 예측 모델 유형을 사용하세요. 예를 들어, 주택의 면적과 같은 특징을 기반으로 주택 가격을 예측하고자 할 수 있습니다.
+ **범주형 예측** - 기계 학습에서는 이를 *분류*라고 합니다. 데이터를 그룹으로 분류하려면 범주형 예측 모델 유형을 사용하세요.
  + **2개 범주 예측** - 데이터에 대해 두 개의 범주를 예측하려는 경우 2개 범주 예측 모델 유형(기계 학습에서는 *바이너리 분류*라고도 함)을 사용합니다. 예를 들어, 고객의 이탈 가능성이 있는지 여부를 판단하고자 할 수 있습니다.
  + **3개 이상의 범주 예측** - 데이터에 대해 세 개 이상의 범주를 예측하려는 경우 3개 이상의 범주 예측 모델 유형(기계 학습에서는 *다중 클래스 분류*라고도 함)을 사용합니다. 예를 들어 이전 결제 등의 기능을 기반으로 고객의 대출 상태를 예측할 수 있습니다.
+ **시계열 예측** - 일정 기간 동안 예측하려는 경우 시계열 예측을 사용합니다. 예를 들어 다음 분기에 판매할 품목 수를 예측할 수 있습니다. 시계열 예측에 대한 자세한 내용은 [Amazon SageMaker Canvas의 시계열 예측](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-time-series.html)을 참조하세요.
+ **이미지 예측** - 이미지에 레이블을 할당하려는 경우 단일 레이블 이미지 예측 모델 유형(기계 학습에서는 *단일 레이블 이미지 분류*라고도 함)을 사용합니다. 예를 들어 제품 이미지의 여러 제조 결함 유형을 분류할 수 있습니다.
+ **텍스트 예측** - 텍스트 구절에 레이블을 지정하려면 다중 범주 텍스트 예측 모델 유형(기계 학습에서는 *다중 클래스 텍스트 분류*라고도 함)을 사용합니다. 예를 들어, 제품에 대한 고객 리뷰 데이터세트가 있고 고객이 해당 제품을 좋아했는지 싫어했는지 확인하려는 경우가 있습니다. 주어진 텍스트 구절이 `Positive`, `Negative`, 또는 `Neutral`인지 모델이 예측하도록 할 수 있습니다.

각 모델 유형에 지원되는 입력 데이터 유형의 테이블은 [사용자 지정 모델](canvas-custom-models.md)을 참조하세요.

빌드하는 각 테이블 형식 데이터 모델(수치, 범주형, 시계열 예측 및 텍스트 예측 모델 포함)에 대해 **대상 열**을 선택합니다. **대상 열**은 예측하려는 정보가 들어 있는 열입니다. 예를 들어 사용자의 구독 취소 여부를 예측하는 모델을 구축하는 경우 **대상 열**에는 사용자의 취소 상태에 대해 `yes`또는 `no`인 데이터 요소가 포함됩니다.

이미지 예측 모델의 경우 레이블이 지정된 이미지의 데이터세트를 사용하여 모델을 구축합니다. 레이블이 지정되지 않은 이미지를 제공하는 경우 모델이 레이블을 예측합니다. 예를 들어 이미지가 고양이인지 개인지 예측하는 모델을 구축하는 경우 모델을 구축할 때 고양이 또는 개 라벨이 붙은 이미지를 제공해야 합니다. 그러면 모델은 레이블이 지정되지 않은 이미지를 받아들이고 이를 고양이 또는 개로 예측할 수 있습니다.

**모델을 생성하면 발생하는 상황**

모델을 빌드하려면 **빠른 빌드** 또는 **표준 빌드**를 선택할 수 있습니다. **빠른 빌드**는 빌드 시간이 더 짧지만 **표준 빌드**는 일반적으로 정확도가 더 높습니다.

테이블 형식 및 시계열 예측 모델의 경우 Canvas는 *다운샘플링*을 사용하여 각각 5GB 또는 30GB보다 큰 데이터세트의 크기를 줄입니다. Canvas는 계층화된 샘플링 방법을 사용하여 다운샘플링합니다. 아래 표에는 다운샘플의 크기가 모델 유형별로 나열되어 있습니다. 샘플링 프로세스를 제어하려면 Canvas의 Data Wrangler를 사용하여 선호하는 샘플링 기법으로 샘플링할 수 있습니다. 시계열 데이터의 경우 데이터 포인트를 집계하기 위해 다시 샘플링할 수 있습니다. 샘플링에 대한 자세한 내용은 [샘플링](canvas-transform.md#canvas-transform-sampling) 섹션을 참조하세요. 시계열 데이터 재샘플링에 대한 자세한 내용은 [시계열 데이터 리샘플링](canvas-transform.md#canvas-resample-time-series) 섹션을 참조하세요.

5만 개 이상의 행이 있는 데이터세트에서 **빠른 빌드**를 수행하기로 한 경우 Canvas는 모델 훈련 시간을 줄이기 위해 데이터를 5만 개의 행까지 샘플링합니다.

다음 표에는 각 모델 및 빌드 유형의 평균 빌드 시간, 대규모 데이터세트로 모델을 빌드할 때 다운샘플 크기, 각 빌드 유형에 대해 보유해야 하는 최소 및 최대 데이터 포인트 수를 포함하여 모델 빌드 프로세스의 주요 특성이 요약되어 있습니다.


| Limit | 수치형 및 범주형 예측 | 시계열 예측 | 이미지 예측 | 텍스트 예측 | 
| --- | --- | --- | --- | --- | 
| **빠른 빌드** 시간 | 2\$120분 | 2\$120분 | 15\$130분 | 15\$130분 | 
| **표준 빌드** 시간 | 2\$14시간 | 2\$14시간 | 2\$15시간 | 2\$15시간 | 
| 다운샘플 크기(Canvas 다운샘플링 후 큰 데이터세트의 축소된 크기) | 5GB | 30GB | 해당 사항 없음 | 해당 사항 없음 | 
| **빠른 빌드**의 최소 항목 수(행) |  2 범주: 500행 3 이상 범주, 숫자, 시계열: 해당 사항 없음  | 해당 사항 없음 | 해당 사항 없음 | 해당 사항 없음 | 
| **표준 빌드**의 최소 항목 수(행, 이미지 또는 문서) | 250 | 50 | 50 | 해당 사항 없음 | 
| **빠른 빌드**를 위한 최대 항목 수(행, 이미지 또는 문서) | 해당 사항 없음 | 해당 사항 없음 | 5000 | 7500 | 
| **표준 빌드**의 최대 항목 수(행, 이미지 또는 문서) | 해당 사항 없음 | 150,000 | 180,000 | 해당 사항 없음 | 
| 최대 열 수 | 1,000 | 1,000 | 해당 사항 없음 | 해당 사항 없음 | 

Canvas는 모델 유형에 따라 나머지 데이터세트의 정보를 사용하여 값을 예측합니다.
+ 범주형 예측의 경우 Canvas는 각 행을 **대상 열**에 나열된 범주 중 하나에 배치합니다.
+ 수치 예측의 경우 Canvas는 데이터세트의 정보를 사용하여 **대상 열**의 숫자 값을 예측합니다.
+ 시계열 예측의 경우 Canvas는 과거 데이터를 사용하여 미래의 **대상 열** 값을 예측합니다.
+ 이미지 예측의 경우 Canvas는 레이블이 지정된 이미지를 사용하여 레이블이 지정되지 않은 이미지의 레이블을 예측합니다.
+ 텍스트 예측의 경우 Canvas는 레이블이 지정된 텍스트 데이터를 분석하여 레이블이 지정되지 않은 텍스트 구절의 레이블을 예측합니다.

**모델을 구축하는 데 도움이 되는 추가 기능**

모델을 빌드하기 전에 Canvas에서 Data Wrangler를 사용하여 300개 이상의 내장 변환 및 연산자를 사용하여 데이터를 준비할 수 있습니다. Data Wrangler는 테이블 형식 및 이미지 데이터세트 모두에 대한 변환을 지원합니다. 또한 Canvas 외부의 데이터 소스에 연결하고, 전체 데이터세트에 변환을 적용하는 작업을 만들고, Canvas 외부의 ML 워크플로에서 사용할 수 있도록 완전히 준비되고 정리된 데이터를 내보낼 수 있습니다. 자세한 내용은 [데이터 준비](canvas-data-prep.md) 섹션을 참조하세요.

데이터를 탐색하고 모델에 포함할 기능을 확인하기 위해 시각화 및 분석을 보려면 Data Wrangler의 내장 분석을 사용하면 됩니다. 데이터세트의 잠재적 문제를 강조하고 수정 방법에 대한 권장 사항을 제공하는 **데이터 품질 및 인사이트 보고서**에도 액세스할 수 있습니다. 자세한 내용은 [탐색 데이터 분석(EDA) 수행](canvas-analyses.md) 섹션을 참조하세요.

Canvas는 Data Wrangler를 통해 제공되는 고급 데이터 준비 및 탐색 기능 외에도 사용할 수 있는 몇 가지 기본 기능을 제공합니다.
+ 데이터를 필터링하고 기본 데이터 변환 세트에 액세스하려면 [모델 빌드를 위한 데이터 준비](canvas-prepare-data.md) 섹션을 참조하세요.
+ 기능 탐색을 위한 간단한 시각화 및 분석에 액세스하려면 [데이터 탐색 및 분석](canvas-explore-data.md) 섹션을 참조하세요.
+ 모델 미리 보기, 데이터세트 검증, 모델 구축에 사용되는 무작위 샘플 크기 변경과 같은 추가 기능에 대한 자세한 내용은 [모델 미리 보기](canvas-preview-model.md)을 참조하세요.

여러 열이 있는 테이블 형식 데이터세트(예: 범주형, 수치형 또는 시계열 예측 모델 유형을 구축하기 위한 데이터세트)의 경우 데이터 포인트가 누락된 행이 있을 수 있습니다. Canvas는 모델을 빌드하는 동안 누락된 값을 자동으로 추가합니다. Canvas는 데이터세트의 값을 사용하여 누락된 값에 대한 수학적 근사치를 계산합니다. 모델 정확도를 극대화하려면 누락된 데이터를 찾을 수 있는 경우 추가하는 것이 좋습니다. 텍스트 예측 또는 이미지 예측 모델에는 누락된 데이터 기능이 지원되지 않는다는 점에 유의하세요.

**시작**

사용자 지정 모델 구축을 시작하려면 구축하려는 모델 유형의 절차를 확인하고 [모델 빌드](canvas-build-model-how-to.md)을 따르세요.

# 모델 미리 보기
<a name="canvas-preview-model"></a>

**참고**  
다음 기능은 테이블 형식의 데이터세트로 빌드된 사용자 지정 모델에만 사용할 수 있습니다. 다중 카테고리 텍스트 예측 모델도 제외됩니다.

SageMaker Canvas는 빌드를 시작하기 전에 모델을 미리 볼 수 있는 도구를 제공합니다. 이 도구를 통해 추정 정확도 점수를 얻을 수 있으며 각 열이 모델에 미치는 영향에 대해서도 사전에 아이디어를 얻을 수 있습니다.

모델 점수를 미리 보려면 모델의 **빌드** 탭에서 **모델 미리 보기**를 선택합니다.

모델 미리 보기는 모델이 데이터를 얼마나 잘 분석할 수 있는지에 대한 **추산 정확도** 예측을 생성합니다. **빠른 빌드**나 **표준 빌드**의 정확도는 모델이 실제 데이터에서 얼마나 잘 작동할 수 있는지를 나타내며 일반적으로 **예상 정확도**보다 높습니다.

또한 모델 미리 보기는 모델 예측에 대한 각 열의 중요성을 나타낼 수 있는 열 **영향** 점수를 제공합니다.

다음 스크린샷은 Canvas 애플리케이션의 모델 미리 보기를 보여줍니다.

![\[Canvas의 모델에 대한 빌드 탭의 스크린샷입니다.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-build/canvas-build-preview-model.png)


Amazon SageMaker Canvas는 모델을 구축하는 동안 데이터세트에서 누락된 값을 자동으로 처리합니다. 이는 데이터세트에 있는 인접 값을 사용하여 누락된 값을 유추합니다.

모델 미리 보기에 만족하고 모델 빌드를 계속 진행하려면 [모델 빌드](canvas-build-model-how-to.md) 섹션을 참조하세요.

# 데이터 유효성 검사
<a name="canvas-dataset-validation"></a>

모델을 빌드하기 전에 SageMaker Canvas는 데이터세트에 빌드 실패를 유발할 수 있는 문제가 있는지 확인합니다. SageMaker Canvas에서 문제가 발견되면 모델을 빌드하기 전에 **빌드** 페이지에서 경고를 표시합니다.

**데이터 검증**을 선택하여 데이터세트의 문제 목록을 볼 수 있습니다. 그런 다음 빌드를 시작하기 전에 SageMaker Canvas [Data Wrangler 데이터 준비 기능](canvas-data-prep.md) 또는 자체 도구를 사용하여 데이터세트를 수정할 수 있습니다. 데이터세트 관련 문제를 해결하지 않으면 빌드가 실패합니다.

문제를 해결하기 위해 데이터세트를 변경하는 경우 빌드를 시도하기 전에 데이터세트를 다시 검증할 수 있습니다. 빌드하기 전에 데이터세트를 다시 검증하는 것이 좋습니다.

다음 표에는 SageMaker Canvas가 데이터세트에서 확인하는 문제와 이를 해결하는 방법이 나와 있습니다.


| 문제 | 해결 방법 | 
| --- | --- | 
|  데이터에 대한 잘못된 모델 유형  |  다른 모델 유형을 시도하거나 다른 데이터세트를 사용하세요.  | 
|  타겟 열에 값이 누락됨  |  누락된 값을 바꾸거나, 누락된 값이 있는 행을 삭제하거나, 다른 데이터세트를 사용하세요.  | 
|  대상 열에 고유 레이블이 너무 많음  |  대상 열에 올바른 열을 사용했는지 또는 다른 데이터세트를 사용하세요.  | 
|  대상 열에 숫자가 아닌 값이 너무 많음  |  다른 대상 열을 선택하거나, 다른 모델 유형을 선택하거나, 다른 데이터세트를 사용하세요.  | 
|  하나 이상의 열 이름에 이중 밑줄이 있음  |  이중 밑줄을 제거하도록 열 이름을 바꾸고 다시 시도하세요.  | 
|  데이터세트에 완전한 행이 없음  |  누락된 값을 바꾸거나 다른 데이터세트를 사용하세요.  | 
|  데이터의 행 수에 비해 고유 레이블이 너무 많음  |  올바른 대상 열을 사용하고 있는지 확인하거나, 데이터세트의 행 수를 늘리거나, 유사한 레이블을 통합하거나, 다른 데이터세트를 사용하세요.  | 

# 무작위 샘플
<a name="canvas-random-sample"></a>

SageMaker Canvas는 무작위 샘플링 방법을 사용하여 데이터세트를 샘플링합니다. 무작위 샘플 방법을 사용하면 각 행이 샘플로 선택될 확률이 동일하다는 것을 의미합니다. 미리 보기에서 열을 선택하여 평균, 최빈값 등 무작위 샘플에 대한 요약 통계를 얻을 수 있습니다.

기본적으로 SageMaker Canvas는 행이 20,000개가 넘는 데이터세트에 대해 데이터세트에서 무작위로 20,000개 의 샘플 크기를 사용합니다. 행 수가 20,000개보다 작은 데이터세트의 경우 기본 샘플 크기는 데이터세트의 행 수입니다. SageMaker Canvas 애플리케이션의 **빌드** 탭에서 **무작위 샘플**을 선택하여 샘플 크기를 늘리거나 줄일 수 있습니다. 슬라이더를 사용하여 원하는 샘플 크기를 선택한 다음 **업데이트**를 선택하여 샘플 크기를 변경할 수 있습니다. 데이터세트에 대해 선택할 수 있는 최대 샘플 크기는 40,000개 행이고, 최소 샘플 크기는 500개 행입니다. 큰 샘플 크기를 선택하면 데이터세트 미리 보기 및 요약 통계를 다시 로드하는 데 몇 분 정도 걸릴 수 있습니다.

**빌드** 페이지에는 데이터세트의 100개 행에 대한 미리 보기가 표시됩니다. 샘플 크기가 데이터세트와 같은 경우 미리 보기에는 데이터세트의 처음 100개 행이 사용됩니다. 그렇지 않으면 미리보기에는 무작위 샘플의 처음 100개 행이 사용됩니다.

# 모델 빌드
<a name="canvas-build-model-how-to"></a>

다음 섹션에서는 사용자 지정 모델의 주요 유형 각각에 대한 모델을 구축하는 방법을 보여줍니다.
+ 수치 예측, 2개 범주 예측 또는 3개 이상의 범주 예측 모델을 구축하려면 [사용자 지정 수치형 또는 범주형 예측 모델 구축](#canvas-build-model-numeric-categorical)을 참조하세요.
+ 단일 레이블 이미지 예측 모델을 구축하려면 [사용자 지정 이미지 예측 모델 구축](#canvas-build-model-image)을 참조하세요.
+ 다중 카테고리 텍스트 예측 모델을 구축하려면 [사용자 지정 텍스트 예측 모델 구축](#canvas-build-model-text)을 참조하세요.
+ 시계열 예측 모델을 빌드하려면 [시계열 예측 모델 빌드](#canvas-build-model-forecasting) 섹션을 참조하세요.

**참고**  
구축 후 분석 중에 `ml.m5.2xlarge`인스턴스 할당량을 늘리라는 오류가 발생하는 경우 [할당량 증가 요청](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-requesting-quota-increases.html)을 참조하세요.

## 사용자 지정 수치형 또는 범주형 예측 모델 구축
<a name="canvas-build-model-numeric-categorical"></a>

수치형 및 범주형 예측 모델은 **빠른 빌드**와 **표준 빌드**를 모두 지원합니다.

수치형 또는 범주형 예측 모델을 구축하려면 다음 절차를 사용하세요.

1. SageMaker Canvas 애플리케이션을 엽니다.

1. 왼쪽 탐색 창에서 **내 모델**을 선택합니다.

1. **새 모델**을 선택합니다.

1. **새 모델 생성** 대화 상자에서 다음 작업을 수행하세요.

   1. **모델 이름** 필드에 이름을 입력합니다.

   1. **예측 분석** 문제 유형을 선택합니다.

   1. **생성(Create)**을 선택합니다.

1. **데이터 세트 선택**의 경우 데이터 세트 목록에서 데이터 세트를 선택합니다. 데이터를 아직 가져오지 않은 경우 **가져오기**를 선택하면 데이터 가져오기 워크플로를 통해 안내를 받을 수 있습니다.

1. 모델 구축을 시작할 준비가 되면 **데이터 세트 선택**을 선택합니다.

1. **빌드** 탭의 **대상 열** 드롭다운 목록에서 예측하려는 모델의 대상을 선택합니다.

1. **모델 유형**의 경우 Canvas가 자동으로 문제 유형을 감지합니다. 유형을 변경하거나 고급 모델 설정을 구성하려면 **모델 구성**을 선택합니다.

   **모델 구성** 대화 상자가 열리면 다음을 수행합니다.

   1. **모델 유형**에서 빌드하려는 모델 유형을 선택합니다.

   1. 모델 유형을 선택하면 추가 **고급 설정**이 있습니다. 각 고급 설정에 대한 자세한 내용은 [고급 모델 빌드 구성](canvas-advanced-settings.md) 섹션을 참조하세요. 고급 설정을 구성하려면 다음을 수행합니다.

      1. (선택 사항) **목표 지표** 드롭다운 메뉴에서 모델을 구축하는 동안 Canvas에서 최적화하려는 지표를 선택합니다. 지표를 선택하지 않으면 Canvas는 기본적으로 하나를 선택합니다. 사용 가능한 지표에 대한 자세한 설명은 [지표 참조](canvas-metrics.md) 섹션을 참조하세요.

      1. **훈련 방법**에서 **자동**, **앙상블** 또는 **하이퍼파라미터 최적화(HPO) 모드**를 선택합니다.

      1. **알고리즘**에서 모델 후보를 빌드하는 데 포함할 알고리즘을 선택합니다.

      1. **데이터 분할**에서 **훈련 세트**와 **검증 세트** 간에 데이터를 분할하는 데 사용할 값을 백분율로 지정합니다. 훈련 세트는 모델을 빌드하는 데 사용되는 반면 검증 세트는 모델 후보의 정확도를 테스트하는 데 사용됩니다.

      1. **최대 후보 및 런타임**의 경우 다음을 수행합니다.

         1. **최대 후보** 값, 즉 Canvas가 생성할 수 있는 모델 후보의 최대 개수를 설정합니다. **최대 후보**는 HPO 모드에서만 사용할 수 있습니다.

         1. **최대 작업 런타임**, 즉 Canvas가 모델을 빌드하는 데 사용할 수 있는 기간을 나타내는 시간 및 분 값을 설정합니다. 최대 시간이 지나면 Canvas는 빌드를 중지하고 최상의 모델 후보를 선택합니다.

   1. 고급 설정을 구성한 후 **저장**을 선택합니다.

1. 데이터에서 열을 선택하거나 선택 취소하여 빌드에 포함하거나 삭제할 수 있습니다.
**참고**  
모델을 빌드한 후 모델을 사용하여 배치 예측을 수행하면 Canvas에서 누락된 열을 예측 결과에 추가합니다. 하지만 Canvas는 시계열 모델의 배치 예측에 삭제된 열을 추가하지 않습니다.

1. (선택 사항) Canvas에서 제공하는 시각화 및 분석 도구를 사용하여 데이터를 시각화하고 모델에 포함할 기능을 결정하세요. 자세한 내용은 [데이터 탐색 및 분석](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-explore-data.html)을 참조하세요.

1. (선택 사항) 데이터 변환을 사용하여 모델 구축을 위해 데이터를 정리, 변환 및 준비할 수 있습니다. 자세한 내용은 [고급 변환으로 데이터 준비](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-prepare-data.html)를 참조하세요. **모델 레시피**를 선택하고 **모델 레시피** 사이드 패널을 열어 변환을 보고 제거할 수 있습니다.

1. (선택사항) 모델의 정확도 미리 보기, 데이터 세트 검증, Canvas가 데이터 세트에서 가져오는 무작위 샘플의 크기 변경과 같은 추가 기능은 [모델 미리 보기](canvas-preview-model.md)을 참조하세요.

1. 데이터를 검토하고 데이터 세트를 변경한 후 **빠른 빌드** 또는 **표준 빌드**를 선택하여 모델 빌드를 시작하세요. 다음 스크린샷은 **빌드** 페이지와 **빠른 빌드** 및 **표준 빌드** 옵션을 보여줍니다.  
![\[빠른 빌드와 표준 빌드 옵션을 보여주는 2가지 카테고리 모델의 빌드 페이지입니다.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/build-page-tabular-quick-standard-options.png)

모델 빌드가 시작된 후에는 페이지에서 나가도 됩니다. 모델이 **내 모델** 페이지에 **준비**로 표시되면 분석 및 예측을 수행할 준비가 된 것입니다.

## 사용자 지정 이미지 예측 모델 구축
<a name="canvas-build-model-image"></a>

단일 레이블 이미지 예측 모델은 **빠른 빌드**와 **표준 빌드**를 모두 지원합니다.

단일 레이블 이미지 예측 모델을 빌드하려면 다음 절차를 사용하세요.

1. SageMaker Canvas 애플리케이션을 엽니다.

1. 왼쪽 탐색 창에서 **내 모델**을 선택합니다.

1. **새 모델**을 선택합니다.

1. **새 모델 생성** 대화 상자에서 다음 작업을 수행하세요.

   1. **모델 이름** 필드에 이름을 입력합니다.

   1. **이미지 분석** 문제 유형을 선택합니다.

   1. **생성(Create)**을 선택합니다.

1. **데이터 세트 선택**의 경우 데이터 세트 목록에서 데이터 세트를 선택합니다. 데이터를 아직 가져오지 않은 경우 **가져오기**를 선택하면 데이터 가져오기 워크플로를 통해 안내를 받을 수 있습니다.

1. 모델 구축을 시작할 준비가 되면 **데이터 세트 선택**을 선택합니다.

1. **빌드** 탭에서 데이터세트의 이미지에 대한 **레이블 분포**를 확인할 수 있습니다. **모델 유형**은 **단일 레이블 이미지 예측**으로 설정되어 있습니다.

1. 이 페이지에서 이미지를 미리 보고 데이터세트를 편집할 수 있습니다. 레이블이 지정되지 않은 이미지가 있는 경우 **데이터세트 편집** 및 [레이블이 지정되지 않은 이미지에 레이블 지정](canvas-edit-image.md#canvas-edit-image-assign)을 선택하세요. 또한 [이미지 데이터세트 편집](canvas-edit-image.md)할 때 레이블 이름을 바꾸고 데이터세트에 이미지를 추가하는 등의 다른 작업을 수행할 수도 있습니다.

1. 데이터를 검토하고 데이터 세트를 변경한 후 **빠른 빌드** 또는 **표준 빌드**를 선택하여 모델에 대한 빌드를 시작합니다. 다음 스크린샷은 빌드 준비가 완료된 이미지 예측 모델의 **빌드** 페이지를 보여줍니다.  
![\[단일 레이블 이미지 예측 모델의 빌드 페이지입니다.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/build-page-image-model.png)

모델 빌드가 시작된 후에는 페이지에서 나가도 됩니다. 모델이 **내 모델** 페이지에 **준비**로 표시되면 분석 및 예측을 수행할 준비가 된 것입니다.

## 사용자 지정 텍스트 예측 모델 구축
<a name="canvas-build-model-text"></a>

다중 카테고리 텍스트 예측 모델은 **빠른 빌드**와 **표준 빌드**를 모두 지원합니다.

텍스트 예측 모델을 빌드하려면 다음 절차를 사용하세요.

1. SageMaker Canvas 애플리케이션을 엽니다.

1. 왼쪽 탐색 창에서 **내 모델**을 선택합니다.

1. **새 모델**을 선택합니다.

1. **새 모델 생성** 대화 상자에서 다음 작업을 수행하세요.

   1. **모델 이름** 필드에 이름을 입력합니다.

   1. **텍스트 분석** 문제 유형을 선택합니다.

   1. **생성(Create)**을 선택합니다.

1. **데이터 세트 선택**의 경우 데이터 세트 목록에서 데이터 세트를 선택합니다. 데이터를 아직 가져오지 않은 경우 **가져오기**를 선택하면 데이터 가져오기 워크플로를 통해 안내를 받을 수 있습니다.

1. 모델 구축을 시작할 준비가 되면 **데이터 세트 선택**을 선택합니다.

1. **빌드** 탭의 **대상 열** 드롭다운 목록에서 예측하려는 모델의 대상을 선택합니다. 대상 열에는 바이너리 또는 범주형 데이터 유형이 있어야 하며 대상 열의 각 고유 레이블에 대해 최소 25개의 항목(또는 데이터 행)이 있어야 합니다.

1. **모델 유형**의 경우 모델 유형이 **다중 카테고리 텍스트 예측**으로 자동 설정되는지 확인하세요.

1. 훈련 열의 경우 텍스트 데이터의 소스 열을 선택합니다. 이는 분석할 텍스트가 포함된 열이어야 합니다.

1. **빠른 빌드** 또는 **표준 빌드**를 선택하여 모델 빌드를 시작합니다. 다음 스크린샷은 바로 빌드할 수 있는 텍스트 예측 모델의 **빌드** 페이지를 보여줍니다.  
![\[다중 카테고리 텍스트 예측 모델을 위한 빌드 페이지입니다.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/build-page-text-model.png)

모델 빌드가 시작된 후에는 페이지에서 나가도 됩니다. 모델이 **내 모델** 페이지에 **준비**로 표시되면 분석 및 예측을 수행할 준비가 된 것입니다.

## 시계열 예측 모델 빌드
<a name="canvas-build-model-forecasting"></a>

시계열 예측 모델은 **빠른 빌드**와 **표준 빌드**를 모두 지원합니다.

시계열 예측 모델을 빌드하려면 다음 절차를 따릅니다.

1. SageMaker Canvas 애플리케이션을 엽니다.

1. 왼쪽 탐색 창에서 **내 모델**을 선택합니다.

1. **새 모델**을 선택합니다.

1. **새 모델 생성** 대화 상자에서 다음 작업을 수행하세요.

   1. **모델 이름** 필드에 이름을 입력합니다.

   1. **시계열 예측** 문제 유형을 선택합니다.

   1. **생성(Create)**을 선택합니다.

1. **데이터 세트 선택**의 경우 데이터 세트 목록에서 데이터 세트를 선택합니다. 데이터를 아직 가져오지 않은 경우 **가져오기**를 선택하면 데이터 가져오기 워크플로를 통해 안내를 받을 수 있습니다.

1. 모델 구축을 시작할 준비가 되면 **데이터 세트 선택**을 선택합니다.

1. **빌드** 탭의 **대상 열** 드롭다운 목록에서 예측하려는 모델의 대상을 선택합니다.

1. **모델 유형** 섹션에서 **모델 구성**을 선택합니다.

1. **모델 구성** 상자가 열립니다. **시계열 구성** 섹션에서 다음 필드를 작성합니다.

   1. **항목 ID 열**에서 데이터세트에서 각 행을 고유하게 식별하는 열을 선택합니다. 열의 데이터 유형은 `Text`여야 합니다.

   1. (선택 사항) **그룹 열**에서 예측 값을 그룹화하는 데 사용할 범주형 열(데이터 유형 `Text`)을 하나 이상 선택합니다.

   1. **타임스탬프 열**에서 타임스탬프가 있는 열(날짜/시간 형식)을 선택합니다. 허용되는 날짜/시간 형식에 대한 자세한 내용은 [Amazon SageMaker Canvas의 시계열 예측](canvas-time-series.md) 섹션을 참조하세요.

   1. **예측 기간** 필드에 값을 예측할 기간을 입력합니다. Canvas는 데이터의 시간 단위를 자동으로 감지합니다.

   1. (선택 사항) **휴일 일정 사용** 토글을 켜서 다양한 국가에서 휴일 일정을 선택하고 휴일 데이터를 사용한 예측을 더 정확하게 만듭니다.

1. **모델 구성** 상자에는 **고급** 섹션에 추가 설정이 있습니다. 각 고급 설정에 대한 자세한 내용은 [고급 모델 빌드 구성](canvas-advanced-settings.md) 섹션을 참조하세요. **고급** 설정을 구성하려면 다음을 수행합니다.

   1. **목표 지표** 드롭다운 메뉴에서 모델을 빌드하는 동안 Canvas에서 최적화하려는 지표를 선택합니다. 지표를 선택하지 않으면 Canvas는 기본적으로 하나를 선택합니다. 사용 가능한 지표에 대한 자세한 설명은 [지표 참조](canvas-metrics.md) 섹션을 참조하세요.

   1. 표준 빌드를 실행하는 경우 **알고리즘** 섹션이 표시됩니다. 이 섹션에서는 모델 빌드에 사용할 시계열 예측 알고리즘을 선택합니다. 사용 가능한 알고리즘의 하위 집합을 선택하거나 어떤 알고리즘을 시도할지 확실하지 않은 경우 모든 알고리즘을 선택할 수 있습니다.

      표준 빌드를 실행할 때 Canvas는 예측 정확도를 최적화하기 위해 모든 알고리즘을 결합하는 앙상블 모델을 빌드합니다.
**참고**  
빠른 빌드를 실행하는 경우 Canvas는 단일 트리 기반 학습 알고리즘을 사용하여 모델을 훈련하므로 알고리즘을 선택할 필요가 없습니다.

   1. **예측 분위수**의 경우 최대 5개의 쉼표로 구분된 분위수 값을 입력하여 예측의 상한과 하한을 지정합니다.

   1. **고급** 설정을 구성한 후 **저장**을 선택합니다.

1. 데이터에서 열을 선택하거나 선택 취소하여 빌드에 포함하거나 삭제할 수 있습니다.
**참고**  
모델을 빌드한 후 모델을 사용하여 배치 예측을 수행하면 Canvas에서 누락된 열을 예측 결과에 추가합니다. 하지만 Canvas는 시계열 모델의 배치 예측에 삭제된 열을 추가하지 않습니다.

1. (선택 사항) Canvas에서 제공하는 시각화 및 분석 도구를 사용하여 데이터를 시각화하고 모델에 포함할 기능을 결정하세요. 자세한 내용은 [데이터 탐색 및 분석](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-explore-data.html)을 참조하세요.

1. (선택 사항) 데이터 변환을 사용하여 모델 구축을 위해 데이터를 정리, 변환 및 준비할 수 있습니다. 자세한 내용은 [고급 변환으로 데이터 준비](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-prepare-data.html)를 참조하세요. **모델 레시피**를 선택하고 **모델 레시피** 사이드 패널을 열어 변환을 보고 제거할 수 있습니다.

1. (선택사항) 모델의 정확도 미리 보기, 데이터 세트 검증, Canvas가 데이터 세트에서 가져오는 무작위 샘플의 크기 변경과 같은 추가 기능은 [모델 미리 보기](canvas-preview-model.md)을 참조하세요.

1. 데이터를 검토하고 데이터 세트를 변경한 후 **빠른 빌드** 또는 **표준 빌드**를 선택하여 모델 빌드를 시작하세요.

모델 빌드가 시작된 후에는 페이지에서 나가도 됩니다. 모델이 **내 모델** 페이지에 **준비**로 표시되면 분석 및 예측을 수행할 준비가 된 것입니다.

# 고급 모델 빌드 구성
<a name="canvas-advanced-settings"></a>

Amazon SageMaker Canvas는 모델을 빌드할 때 구성할 수 있는 다양한 고급 설정을 지원합니다. 다음 페이지에는 옵션 및 구성에 대한 추가 정보와 함께 모든 고급 설정이 나열되어 있습니다.

**참고**  
다음 고급 설정은 현재 숫자, 범주형 및 시계열 예측 모델 유형에만 지원됩니다.

## 숫자 및 범주형 예측 모델 고급 설정
<a name="canvas-advanced-settings-predictive"></a>

Canvas는 숫자 및 범주형 예측 모델 유형에 대해 다음과 같은 고급 설정을 지원합니다.

### 목표 지표
<a name="canvas-advanced-settings-predictive-obj-metric"></a>

목표 지표는 모델을 빌드하는 동안 Canvas에서 최적화하려는 지표입니다. 지표를 선택하지 않으면 Canvas는 기본적으로 하나를 선택합니다. 사용 가능한 지표에 대한 자세한 설명은 [지표 참조](canvas-metrics.md) 섹션을 참조하세요.

### 훈련 방법
<a name="canvas-advanced-settings-predictive-method"></a>

Canvas는 데이터세트 크기를 기반으로 훈련 방법을 자동으로 선택하거나 수동으로 선택할 수 있습니다. 다음 훈련 방법 중에서 선택할 수 있습니다.
+ **앙상블링** - SageMaker AI는 AutoGluon 라이브러리를 활용하여 여러 기본 모델을 훈련합니다. 데이터세트에 가장 적합한 조합을 찾기 위해 앙상블 모드에서는 다양한 모델 및 메타 파라미터 설정을 사용하여 5\$110회의 시험을 실행합니다. 이러한 모델은 적층 앙상블 방법으로 결합되어 최적의 예측 모델을 만듭니다. 테이블 형식 데이터에 대한 앙상블 모드에서 지원하는 알고리즘 목록은 다음 [알고리즘](#canvas-advanced-settings-predictive-algos) 섹션을 참조하세요.
+ **하이퍼파라미터 최적화(HPO)** - SageMaker AI는 데이터세트에서 훈련 작업을 실행하는 동안 베이지안 최적화 또는 다중 충실도 최적화를 사용하여 하이퍼파라미터를 조정하여 모델의 최적 버전을 찾습니다. HPO 모드는 데이터세트와 가장 관련이 있는 알고리즘을 선택하고 모델을 조정하는 데 가장 적합한 하이퍼파라미터 범위를 선택합니다. 모델을 조정하기 위해 HPO 모드에서는 최대 100회의 시도(기본값)를 실행하여 선택한 범위 내에서 최적의 하이퍼파라미터 설정을 찾습니다. 데이터세트 크기가 100MB 미만인 경우 SageMaker AI는 베이지안 최적화를 사용합니다. SageMaker AI는 데이터세트가 100MB를 초과하는 경우 다중 충실도 최적화를 선택합니다.

  테이블 형식 데이터에 대한 HPO 모드에서 지원하는 알고리즘 목록은 다음 [알고리즘](#canvas-advanced-settings-predictive-algos) 섹션을 참조하세요.
+ **자동** - SageMaker AI는 데이터세트 크기에 따라 앙상블링 모드 또는 HPO 모드를 자동으로 선택합니다. 데이터세트가 100MB를 초과하는 경우 SageMaker AI는 HPO 모드를 선택합니다. 그렇지 않으면 앙상블 모드를 선택합니다.

### 알고리즘
<a name="canvas-advanced-settings-predictive-algos"></a>

**앙상블링** 모드에서 Canvas는 다음과 같은 기계 학습 알고리즘을 지원합니다.
+ [LightGBM](https://docs.aws.amazon.com/sagemaker/latest/dg/lightgbm.html) - 그라디언트 부스팅과 함께 트리 기반 알고리즘을 사용하는 최적의 프레임워크입니다. 이 알고리즘은 깊이가 아닌 폭이 커지고 속도에 고도로 최적화된 트리를 사용합니다.
+ [CatBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/catboost.html) - 그라디언트 부스팅과 함께 트리 기반 알고리즘을 사용하는 프레임워크입니다. 범주형 변수를 처리하도록 최적화되었습니다.
+ [XGBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html) - 폭이 아닌 깊이가 증가하는 그라디언트 부스팅과 함께 트리 기반 알고리즘을 사용하는 프레임워크입니다.
+ [랜덤 포레스트](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html) - 대체물이 있는 데이터의 무작위 하위 샘플에 여러 가지 결정 트리를 사용하는 트리 기반 알고리즘입니다. 트리는 각 수준에서 최적의 노드로 분할됩니다. 각 트리의 결정을 함께 평균화하여 과적합을 방지하고 예측을 개선합니다.
+ [추가 트리](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.ExtraTreesClassifier.html#sklearn.ensemble.ExtraTreesClassifier) - 전체 데이터세트에서 여러 가지 결정 트리를 사용하는 트리 기반 알고리즘입니다. 트리는 각 수준에서 무작위로 분할됩니다. 각 트리의 결정을 평균화하여 과적합을 방지하고 예측을 개선합니다. 랜덤 포레스트 알고리즘에 비해 추가 트리는 어느 정도의 무작위성을 높입니다.
+ [선형 모델](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model) - 선형 방정식을 사용하여 관측 데이터의 두 변수 간 관계를 모델링하는 프레임워크입니다.
+ 신경망 torch - [Pytorch](https://pytorch.org/)를 사용하여 구현된 신경망 모델입니다.
+ 신경망 fast.ai - [fast.ai](https://www.fast.ai/)를 사용하여 구현된 신경망 모델입니다.

**HPO** 모드에서 Canvas는 다음과 같은 기계 학습 알고리즘을 지원합니다.
+ [XGBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html) – 그라디언트 부스팅은 더욱 단순하고 약한 모델 세트의 추정치의 앙상블을 결합하여 대상 변수를 정확하게 예측하려 시도하는 지도 학습 알고리즘입니다.
+ 딥 러닝 알고리즘 - 다중 계층 퍼셉트론(MLP) 및 피드포워드 인공 신경망입니다. 이 알고리즘은 선형적으로 분리할 수 없는 데이터를 처리할 수 있습니다.

### 데이터 분할
<a name="canvas-advanced-settings-predictive-split"></a>

훈련 세트(데이터세트에서 모델 빌드에 사용되는 부분)와 검증 세트(데이터세트에서 모델 정확도 확인에 사용되는 부분) 간에 데이터세트를 분할하는 방법을 지정하는 옵션이 있습니다. 예를 들어, 일반적인 분할 비율은 훈련 80%와 검증 20%로, 데이터의 80%는 모델을 빌드하는 데 사용되고 20%는 모델 성능 측정을 위해 저장됩니다. 사용자 지정 비율을 지정하지 않으면 Canvas는 데이터세트를 자동으로 분할합니다.

### 최대 후보
<a name="canvas-advanced-settings-predictive-candidates"></a>

**참고**  
이 기능은 HPO 훈련 모드에서만 사용할 수 있습니다.

Canvas가 모델을 빌드하는 동안 생성하는 모델 후보의 최대 개수를 지정할 수 있습니다. 가장 정확한 모델을 빌드하려면 기본 후보 개수인 100개를 사용하는 것이 좋습니다. 지정할 수 있는 개수는 최대 250개입니다. 모델 후보 개수를 줄이면 모델의 정확도에 영향을 미칠 수 있습니다.

### 최대 작업 런타임
<a name="canvas-advanced-settings-predictive-runtime"></a>

최대 작업 런타임, 즉 Canvas가 모델을 빌드하는 데 소요하는 최대 시간을 지정할 수 있습니다. 제한 시간이 지나면 Canvas는 빌드를 중지하고 최상의 모델 후보를 선택합니다.

지정 가능한 최대 시간은 720시간입니다. Canvas가 모델 후보를 생성하고 모델 빌드를 완료하는 데 충분한 시간을 가질 수 있도록 최대 작업 런타임을 30분 이상으로 유지하는 것이 좋습니다.

## 고급 시계열 예측 모델 설정
<a name="canvas-advanced-settings-time-series"></a>

시계열 예측 모델의 경우 Canvas는 이전 섹션에 나열된 목표 지표를 지원합니다.

시계열 예측 모델은 다음과 같은 고급 설정도 지원합니다.

### 알고리즘 선택
<a name="canvas-advanced-settings-time-series-algos"></a>

시계열 예측 모델을 빌드할 때 Canvas는 통계 및 기계 학습 알고리즘의 *앙상블*(즉, 조합)을 사용하여 매우 정확한 시계열 예측을 제공합니다. 기본적으로 Canvas는 데이터세트의 시계열을 기반으로 사용 가능한 모든 알고리즘의 최적의 조합을 선택합니다. 하지만 예측 모델에 사용할 알고리즘을 하나 이상 지정할 수 있습니다. 이 경우 Canvas는 선택한 알고리즘만 사용하여 최적의 혼합을 결정합니다. 모델 훈련을 위해 어떤 알고리즘을 선택해야 할지 확실하지 않은 경우 사용 가능한 모든 알고리즘을 선택하는 것이 좋습니다.

**참고**  
알고리즘 선택은 표준 빌드에서만 지원됩니다. 고급 설정에서 알고리즘을 선택하지 않으면 기본적으로 SageMaker AI는 빠른 구축을 실행하고 단일 트리 기반 학습 알고리즘을 사용하여 모델 후보를 훈련합니다. 빠른 빌드와 표준 빌드의 차이점에 대한 자세한 내용은 [사용자 지정 모델 작동 방식](canvas-build-model.md) 섹션을 참조하세요.

Canvas는 다음과 같은 시계열 예측 알고리즘을 지원합니다.
+ [Autoregressive Integrated Moving Average(ARIMA)](https://en.wikipedia.org/wiki/Autoregressive_integrated_moving_average) - 통계 분석을 사용하여 데이터를 해석하고 미래를 예측하는 간단한 확률 시계열 모델입니다. 이 알고리즘은 시계열이 100개 미만인 단순 데이터세트에 유용합니다.
+ [Convolutional Neural Network - Quantile Regression(CNN-QR)](https://docs.aws.amazon.com/forecast/latest/dg/aws-forecast-algo-cnnqr.html) - 대규모 시계열 컬렉션에서 하나의 글로벌 모델을 훈련하고 분위 디코더를 사용하여 예측하는 독점적인 지도 학습 알고리즘입니다. CNN–QR은 수백 개의 시계열을 포함하는 대규모 데이터세트에서 가장 잘 작동합니다.
+ [DeepAR\$1](https://docs.aws.amazon.com/forecast/latest/dg/aws-forecast-recipe-deeparplus.html) – 전체 시계열에서 단일 모델을 공동으로 훈련하기 위해 순환 신경망(RNN)을 사용하여 스칼라 시계열을 예측하기 위한 독점적인 지도 학습 알고리즘입니다. DeepAR\$1는 수백 개의 특성 시계열을 포함하는 대규모 데이터세트에서 가장 잘 작동합니다.
+ [Non-Parametric Time Series(NPTS)](https://docs.aws.amazon.com/forecast/latest/dg/aws-forecast-recipe-npts.html) - 과거 관찰에서 샘플링하여 특정 시계열의 미래 가치 분포를 예측하는 확장 가능하고 확률적인 기준 예측기입니다. NPTS는 희박하거나 간헐적인 시계열로 작업할 때 유용합니다(예: 시계열의 수가 0초 이하인 개별 항목에 대한 수요 예측).
+ [Exponential Smoothing(ETS)](https://en.wikipedia.org/wiki/Exponential_smoothing) - 이전 관찰의 가중치가 기하급수적으로 감소하는 과거 관찰의 가중 평균인 예측을 생성하는 예측 방법입니다. 이 알고리즘은 시계열이 100개 미만인 단순 데이터세트와 계절성 패턴이 있는 데이터세트에 유용합니다.
+ [Prophet](https://facebook.github.io/prophet/) - 강력한 계절성 효과와 여러 계절의 과거 데이터가 있는 시계열에 가장 적합한 추가 회귀 모델입니다. 이 알고리즘은 한도에 근접하는 비선형 성장 추세가 있는 데이터세트에 유용합니다.

### 예측 분위수
<a name="canvas-advanced-settings-time-series-quantiles"></a>

시계열 예측을 위해 SageMaker AI는 대상 시계열로 6개의 모델 후보를 훈련합니다. 그런 다음 SageMaker AI는 스태킹 앙상블 방법을 사용하여 이러한 모델을 결합하여 주어진 목표 지표에 최적의 예측 모델을 생성합니다. 각 예측 모델은 P1과 P99 사이의 분위수로 예측치를 생성하여 확률적 예측을 생성합니다. 이러한 분위수는 예측 불확실성을 설명하는 데 사용됩니다. 기본적으로 0.1(`p10`), 0.5(`p50`) 및 0.9(`p90`)에 대한 예측이 생성됩니다. 0.01(`p1`)부터 0.99(`p99`)까지 0.01 이상의 증분으로 최대 5개의 자체 분위수를 지정할 수 있습니다.

# 이미지 데이터세트 편집
<a name="canvas-edit-image"></a>

Amazon SageMaker Canvas에서는 모델을 구축하기 전에 이미지 데이터세트를 편집하고 레이블을 검토할 수 있습니다. 레이블이 지정되지 않은 이미지에 레이블을 할당하거나 데이터세트에 이미지를 더 추가하는 등의 작업을 수행하고 싶을 수 있습니다. 이러한 작업은 모두 Canvas 애플리케이션에서 수행할 수 있으므로 한 곳에서 데이터세트를 수정하고 모델을 구축할 수 있습니다.

**참고**  
모델을 빌드하기 전에 데이터세트의 모든 이미지에 레이블을 할당해야 합니다. 또한 라벨당 최소 25개의 이미지와 최소 2개의 라벨이 있어야 합니다. 레이블 지정에 대한 자세한 내용은 이 페이지의 **레이블이 지정되지 않은 이미지에 레이블 할당**이라는 섹션을 참조하세요. 이미지의 레이블을 결정할 수 없는 경우 데이터세트에서 삭제해야 합니다. 이미지 삭제에 대한 자세한 내용은 [데이터세트에서 이미지 추가 또는 삭제](#canvas-edit-image-add-delete)페이지의 섹션을 참조하세요.

이미지 데이터세트 편집을 시작하려면 **빌드** 탭에서 단일 레이블 이미지 예측 모델을 빌드해야 합니다.

데이터세트의 이미지와 해당 레이블을 표시하는 새 페이지가 열립니다. 이 페이지에서는 이미지 데이터세트를 **전체 이미지**, **레이블이 지정된 이미지**, **레이블이 지정되지 않은 이미지**로 분류합니다. 또한 **데이터세트 준비 가이드**에서 더 정확한 이미지 예측 모델 구축에 대한 모범 사례를 검토할 수 있습니다.

다음 스크린샷은 이미지 데이터세트를 수정하는 페이지를 보여줍니다.

![\[Canvas의 이미지 데이터세트 관리 페이지 스크린샷입니다.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/dataset-management-page.png)


이 페이지에서 다음 작업을 수행할 수 있습니다.

## 각 이미지의 속성(라벨, 크기, 차원) 보기
<a name="canvas-edit-image-view"></a>

개별 이미지를 보려면 검색 창에서 파일 이름으로 검색하면 됩니다. 그런 다음 이미지를 선택하여 전체 보기를 엽니다. 이미지 속성을 보고 이미지 레이블을 재할당할 수 있습니다. 이미지를 보는 동안**저장**을 선택합니다.

## 데이터세트에 레이블 추가, 이름 변경 또는 삭제
<a name="canvas-edit-image-labels"></a>

Canvas에는 왼쪽 탐색 창에 데이터세트의 레이블이 나열됩니다. **레이블 추가** 텍스트 필드에 레이블을 입력하여 데이터세트에 새 레이블을 추가할 수 있습니다.

데이터세트에서 레이블 이름을 바꾸거나 삭제하려면 레이블 옆에 있는 **추가 옵션** 아이콘(![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))을 선택하고 **이름 바꾸기** 또는 **삭제**를 선택합니다. 레이블 이름을 바꾸는 경우 새 레이블 이름을 입력하고 **확인**을 선택합니다. 레이블을 삭제하면 해당 레이블이 있는 데이터세트의 모든 이미지에서 레이블이 제거됩니다. 해당 레이블이 있는 이미지는 레이블이 지정되지 않은 상태로 유지됩니다.

## 레이블이 지정되지 않은 이미지에 레이블 지정
<a name="canvas-edit-image-assign"></a>

데이터세트에서 레이블이 지정되지 않은 이미지를 보려면 왼쪽 탐색 창에서 **레이블 지정되지 않음**을 선택합니다. 각 이미지에 대해 이미지를 선택하고 **레이블 지정되지 않음**이라는 제목의 레이블을 열고 드롭다운 목록에서 이미지에 할당할 레이블을 선택합니다. 이미지를 두 개 이상 선택하고 이 작업을 수행할 수도 있습니다.그러면 선택한 모든 이미지에 선택한 레이블이 지정됩니다.

## 이미지에 레이블 재할당
<a name="canvas-edit-image-reassign"></a>

이미지(또는 한 번에 여러 이미지)를 선택하고 현재 레이블로 제목이 지정된 드롭다운을 열어 이미지에 레이블을 재할당할 수 있습니다. 원하는 레이블을 선택하면 이미지가 새 레이블로 업데이트됩니다.

## 이미지를 레이블 별로 정렬
<a name="canvas-edit-image-sort"></a>

왼쪽 탐색 창에서 레이블을 선택하면 해당 레이블의 모든 이미지를 볼 수 있습니다.

## 데이터세트에서 이미지 추가 또는 삭제
<a name="canvas-edit-image-add-delete"></a>

상단 탐색 창에서 **이미지 추가**를 선택하여 데이터세트에 이미지를 더 추가할 수 있습니다. 워크플로를 따라 더 많은 이미지를 가져오게 됩니다. 가져온 이미지는 기존 데이터세트에 추가됩니다.

상단 탐색 창에서 이미지를 선택한 다음 **삭제**를 선택하여 데이터세트에서 이미지를 삭제할 수 있습니다.

**참고**  
데이터세트를 변경한 후에는 **데이터세트 저장**을 선택하여 변경 내용을 잃지 않도록 합니다.

# 데이터 탐색 및 분석
<a name="canvas-explore-data"></a>

**참고**  
SageMaker Canvas 시각화 및 분석은 테이블 형식 데이터세트를 기반으로 빌드된 모델에만 사용할 수 있습니다. 다중 카테고리 텍스트 예측 모델도 제외됩니다.

Amazon SageMaker Canvas에서는 시각화와 분석을 사용하여 데이터세트의 변수를 탐색하고 애플리케이션 내 시각화와 분석을 만들 수 있습니다. 모델을 구축하기 전에 이러한 탐색을 사용하여 변수 간의 관계를 파악할 수 있습니다.

Canvas의 시각화 기술에 대한 자세한 내용은 [시각화 기법을 사용하여 데이터 탐색](canvas-explore-data-visualization.md)을 참조하세요.

분석에 대한 자세한 내용은 [분석을 사용하여 데이터 탐색](canvas-explore-data-analytics.md)을 참조하세요.

# 시각화 기법을 사용하여 데이터 탐색
<a name="canvas-explore-data-visualization"></a>

**참고**  
SageMaker Canvas 시각화는 테이블 형식 데이터세트를 기반으로 빌드된 모델에만 사용할 수 있습니다. 다중 카테고리 텍스트 예측 모델도 제외됩니다.

Amazon SageMaker Canvas를 사용하면 ML 모델을 구축하기 전에 데이터를 탐색하고 시각화하여 데이터에 대한 고급 통찰력을 얻을 수 있습니다. 산점도, 막대 차트, 상자 그림을 사용하여 시각화할 수 있으며, 이는 데이터를 이해하고 모델 정확도에 영향을 줄 수 있는 기능 간의 관계를 찾는 데 도움이 됩니다.

SageMaker Canvas 애플리케이션의 **빌드** 탭에서 **데이터 시각화 도우미**를 선택하여 시각화 생성을 시작합니다.

시각화 샘플 크기를 변경하여 데이터세트에서 가져온 추출한 무작위 샘플의 크기를 조정할 수 있습니다. 샘플 크기가 너무 크면 데이터 시각화 성능에 영향을 미칠 수 있으므로 적절한 샘플 크기를 선택하는 것이 좋습니다. 샘플 크기를 변경하려면 다음 절차를 따르세요.

1. **시각화 샘플**을 선택합니다.

1. 슬라이더를 사용하여 원하는 샘플 크기를 선택합니다.

1. **업데이트**를 선택하여 샘플 크기 변경을 확인합니다.

**참고**  
특정 시각화 기법에는 특정 데이터 유형의 열이 필요합니다. 예를 들어 산점도의 x축과 y축에는 숫자 열만 사용할 수 있습니다.

## 산점도
<a name="canvas-explore-data-scatterplot"></a>

데이터세트로 산점도를 만들려면 **시각화** 패널에서 **산점도**를 선택합니다. **열** 섹션에서 x축과 y축에 표시하려는 기능을 선택합니다. 열을 축으로 끌어서 놓거나, 축을 놓은 후 지원되는 열 목록에서 열을 선택할 수 있습니다.

**색상 기준**을 사용하여 세 번째 기능으로 플롯의 데이터 포인트에 색상을 지정할 수 있습니다. **그룹화 기준**을 사용하여 네 번째 기능을 기반으로 데이터를 별도의 플롯으로 그룹화할 수도 있습니다.

다음 이미지는 **색상 기준** 및 **그룹화 기준**을 사용하는 산점도를 보여줍니다. 이 예제에서 각 데이터 포인트는 `MaritalStatus`특징 별로 색상이 지정되어 있으며.`Department`특징 별로 그룹화하면 각 부서의 데이터 포인트에 대한 산점도가 생성됩니다.

![\[Canvas 애플리케이션의 데이터 시각화 도우미 뷰에 있는 산점도 스크린샷입니다.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-eda-scatter-plot.png)


## 막대 차트
<a name="canvas-explore-data-barchart"></a>

데이터세트로 막대 차트를 만들려면 **시각화** 패널에서 **막대 차트**를 선택합니다. **열** 섹션에서 x축과 y축에 표시하려는 기능을 선택합니다. 열을 축으로 끌어서 놓거나, 축을 놓은 후 지원되는 열 목록에서 열을 선택할 수 있습니다.

**그룹화 기준**을 사용하여 막대 차트를 세 번째 기능으로 그룹화할 수 있습니다. **누적 기준**을 사용하여 네 번째 기능의 고유한 값을 기반으로 각 막대를 수직으로 음영 처리할 수 있습니다.

다음 이미지는 **그룹화** 기준과 **누적 기준**을 사용하는 막대 차트를 보여줍니다. 이 예제에서 막대 차트는 `MaritalStatus`기능 별로 그룹화되고 `JobLevel`기능 별로 누적됩니다. x축의 각 `JobRole`에는 `MaritalStatus`특성의 고유 범주에 대한 별도의 막대가 있으며, 모든 막대는 `JobLevel`특성에 의해 수직으로 누적됩니다.

![\[Canvas 애플리케이션의 데이터 시각화 도우미 보기에 있는 막대 차트의 스크린샷입니다.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-eda-bar-chart.png)


## 상자 그림
<a name="canvas-explore-data-boxplot"></a>

데이터세트로 상자 그림을 만들려면 **시각화** 패널에서 **상자 그림**을 선택합니다. **열** 섹션에서 x축과 y축에 표시하려는 기능을 선택합니다. 열을 축으로 끌어서 놓거나, 축을 놓은 후 지원되는 열 목록에서 열을 선택할 수 있습니다.

**그룹화 기준**을 사용하여 상자 그림을 세 번째 기능으로 그룹화할 수 있습니다.

다음 이미지는 **그룹화 기준**을 사용하는 상자 그림을 보여줍니다. 이 예제에서는 x축과 y축이 각각 `JobLevel`및 `JobSatisfaction`을 나타내며, 색상이 지정된 상자 그림은 `Department`기능별로 그룹화되어 있습니다.

![\[Canvas 애플리케이션의 데이터 시각화 도우미 보기에 있는 상자 그림의 스크린샷입니다.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-eda-box-plot.png)


# 분석을 사용하여 데이터 탐색
<a name="canvas-explore-data-analytics"></a>

**참고**  
SageMaker Canvas 분석은 테이블 형식 데이터세트를 기반으로 구축된 모델에만 사용할 수 있습니다. 다중 카테고리 텍스트 예측 모델도 제외됩니다.

Amazon SageMaker Canvas의 분석을 사용하면 모델을 구축하기 전에 데이터세트를 탐색하고 모든 변수에 대한 통찰력을 얻을 수 있습니다. 상관 행렬을 사용하여 데이터세트의 기능 간 관계를 확인할 수 있습니다. 이 기법을 사용하여 데이터세트를 두 개 이상의 값 간의 상관 관계를 보여주는 행렬로 요약할 수 있습니다. 이를 통해 특정 데이터세트의 패턴을 식별하고 시각화하여 고급 데이터 분석을 수행할 수 있습니다.

행렬은 각 기능 간의 상관 관계를 양수, 음수 또는 중립으로 보여줍니다. 모델을 구축할 때 서로 상관관계가 높은 기능을 포함하는 것이 좋습니다. 상관 관계가 거의 또는 전혀 없는 기능은 모델과 관련이 없을 수 있으므로 모델을 만들 때 이러한 기능을 삭제할 수 있습니다.

SageMaker Canvas에서 상관 행렬을 시작하려면 다음 섹션을 참조하세요.

## 상관 행렬 생성
<a name="canvas-explore-data-analytics-correlation-matrix"></a>

SageMaker Canvas 애플리케이션의 **빌드** 탭에서 모델을 빌드할 준비를 할 때 상관 행렬을 만들 수 있습니다.

모델 생성 시작 방법에 대한 지침은 [모델 빌드](canvas-build-model-how-to.md)을 참조하세요.

SageMaker Canvas 애플리케이션에서 모델 준비를 시작한 후 다음을 수행하세요.

1. **빌드** 탭에서 **데이터 시각화 도우미**를 선택합니다.

1. 그런 다음 **분석**을 선택합니다.

1. **상관 행렬**을 선택합니다.

상관 행렬로 구성된 최대 15개의 데이터세트 열을 보여주는 다음 스크린샷과 유사한 시각화가 표시됩니다.

![\[Canvas 애플리케이션의 상관 행렬 스크린샷입니다.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-correlation-matrix-2.png)


상관 행렬을 만든 후 다음을 수행하여 이를 사용자 지정할 수 있습니다.

### 1. 열 선택
<a name="canvas-explore-data-analytics-correlation-matrix-columns"></a>

**열**의 경우 행렬에 포함시키고자 하는 열을 선택할 수 있습니다. 데이터세트에서 최대 15개의 열을 비교할 수 있습니다.

**참고**  
상관 행렬에는 숫자형, 범주형 또는 바이너리 열 유형을 사용할 수 있습니다. 상관 행렬은 날짜/시간 또는 텍스트 데이터 열 유형을 지원하지 않습니다.

상관 행렬에서 열을 추가하거나 제거하려면 **열** 패널에서 열을 선택하고 선택 취소하세요. 패널의 열을 행렬로 직접 끌어서 놓을 수도 있습니다. 데이터세트에 열이 많은 경우 **열 검색** 표시줄에서 원하는 열을 검색할 수 있습니다.

데이터 유형별로 열을 필터링하려면 드롭다운 목록을 선택하고 **모두**, **숫자** 또는 **범주형**을 선택합니다. **모두**를 선택하면 데이터세트의 모든 열이 표시되는 반면, **숫자형** 및 **범주형** 필터는 데이터세트의 숫자형 또는 범주형 열만 표시됩니다. 바이너리 열 유형은 숫자 또는 범주형 필터에 포함됩니다.

최상의 데이터 통찰력을 얻으려면 상관 행렬에 대상 열을 포함시키세요. 상관 행렬에 대상 열을 포함하면 대상 기호와 함께 행렬의 마지막 기능으로 나타납니다.

### 2. 상관 유형 선택
<a name="canvas-explore-data-analytics-correlation-matrix-cor-type"></a>

SageMaker Canvas는 다양한 *상관 유형* 또는 열 간의 상관 관계를 계산하는 방법을 지원합니다.

상관 관계 유형을 변경하려면 이전 섹션에서 언급한 **열** 필터를 사용하여 원하는 열 유형 및 열을 필터링하세요. 사이드 패널에 **상관 관계 유형**이 표시되어야 합니다. 수치로 비교하려면 **Pearson** 또는 **Spearman**을 선택할 수 있습니다. 범주형 비교의 경우 상관 관계 유형은 **MI**로 설정됩니다. 범주형 비교와 혼합 비교의 경우 상관 관계 유형은 **Spearman 및 MI**로 설정됩니다.

숫자형 열만 비교하는 행렬의 경우 상관 관계 유형은 Pearson 또는 Spearman입니다. Pearson 측정값은 두 연속형 변수 사이의 선형 관계를 평가합니다. Spearman 측정값은 두 변수 간의 단조 관계를 평가합니다. Pearson과 Spearman의 상관 척도 범위는 -1에서 1 사이이며, 상관 척도의 양쪽 끝은 완전한 상관(직접적인 1:1 관계)을 나타내고 0은 상관이 없음을 나타냅니다. [산점도 시각화](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-explore-data.html#canvas-explore-data-scatterplot)를 통해 알 수 있듯이 데이터에 더 많은 선형 관계가 있는 경우 Pearson을 선택할 수 있습니다. 데이터가 선형이 아니거나 선형 관계와 단조 관계가 혼합되어 있는 경우에는 Spearman을 선택하는 것이 좋습니다.

범주형 열만 비교하는 행렬의 경우 상관관계 유형은 상호 정보 분류(MI)로 설정됩니다. MI 값은 두 무작위 변수 간의 상호 의존성을 측정한 값입니다. MI 측정값은 0에서 1까지의 척도로, 0은 상관관계가 없음을 나타내고 1은 완벽한 상관관계를 나타냅니다.

숫자 열과 범주형 열의 혼합을 비교하는 행렬의 경우 상관관계 유형인 **Spearman 및 MI**는 Spearman과 MI 상관관계 유형의 조합입니다. 두 숫자 열 간의 상관관계에 대한 행렬은 Spearman 값을 나타냅니다. 숫자 열과 범주형 열 또는 두 범주형 열 간의 상관관계에 대해 행렬에는 MI 값이 표시됩니다.

마지막으로, 상관관계가 반드시 인과관계를 나타내는 것은 아니라는 점을 기억하세요. 상관관계 값이 크다는 것은 두 변수 사이에 관계가 있다는 것을 의미할 뿐, 변수에는 인과 관계가 없을 수도 있습니다. 모델을 구축할 때 편향이 생기지 않도록 관심 있는 열을 주의 깊게 검토하세요.

### 3. 상관 관계 필터링
<a name="canvas-explore-data-analytics-correlation-matrix-filter"></a>

사이드 패널에서 **상관관계 필터** 기능을 사용하여 행렬에 포함하려는 상관관계 값의 범위를 필터링할 수 있습니다. 예를 들어 양의 상관관계 또는 중립 상관관계만 있는 기능을 필터링하려는 경우 **최소값**을 0으로, **최대값**을 1로 설정할 수 있습니다(유효한 값은 -1\$11).

Spearman과 Pearson 비교의 경우 **필터 상관관계** 범위를 -1에서 1 사이로 설정할 수 있습니다.여기서 0은 상관 관계가 없음을 의미합니다.-1과 1은 각각 변수에 강한 음의 상관관계 또는 양의 상관관계가 있음을 의미합니다.

MI 비교의 경우 상관관계 범위는 0에서 1까지만 적용되며, 0은 상관관계가 없음을 의미하고 1은 변수에 양수 또는 음의 강한 상관관계가 있음을 의미합니다.

각 기능은 자체적으로 완벽한 상관관계 (1) 를 갖습니다. 따라서 상관관계 행렬의 맨 위 행은 항상 1이라는 것을 알 수 있습니다. 이러한 값을 제외하려는 경우 필터를 사용하여 **최대값**을 1보다 작게 설정할 수 있습니다.

행렬에서 숫자 열과 범주형 열의 혼합을 비교하고 **Spearman 및 MI** 상관관계 유형을 사용하는 경우, *범주형 x 숫자형* 및 *범주형 x 범주형* 상관관계(MI 측정값 사용)는 0에서 1의 척도인 반면, *숫자형 x 숫자형* 상관관계(Spearman 측정값 사용)는 -1에서 1의 척도라는 점을 기억하세요. 관심 있는 상관관계를 주의 깊게 검토하여 각 값을 계산하는 데 사용되는 상관관계 유형을 알고 있는지 확인하세요.

### 4. 시각화 메서드 선택
<a name="canvas-explore-data-analytics-correlation-matrix-viz-method"></a>

사이드 패널에서 **시각화 기준**을 사용하여 행렬의 시각화 방법을 변경할 수 있습니다. 상관관계(Pearson, Spearman 또는 MI) 값을 표시하려면 **숫자** 시각화 방법을 선택하고, 서로 다른 크기와 색상의 점으로 상관관계를 시각화하려면 **크기** 시각화 방법을 선택합니다. **크기**를 선택할 경우 행렬의 특정 점을 마우스로 가리키면 실제 상관관계 값을 볼 수 있습니다.

### 5. 색상표 선택
<a name="canvas-explore-data-analytics-correlation-matrix-color"></a>

사이드 패널에서 **색상 선택**을 사용하여 행렬의 음의 상관관계를 양의 상관관계로로 스케일링하는 데 사용되는 색상표를 변경할 수 있습니다. 매트릭스에 사용되는 색상을 변경하려면 대체 색상표 중 하나를 선택하세요.

# 모델 빌드를 위한 데이터 준비
<a name="canvas-prepare-data"></a>

**참고**  
이제 Data Wrangler를 사용하여 SageMaker Canvas에서 고급 데이터 준비를 수행할 수 있습니다. 이 작업은 자연어 인터페이스와 300개 이상의 내장 변환을 제공합니다. 자세한 내용은 [데이터 준비](canvas-data-prep.md) 섹션을 참조하세요.

모델을 구축하기 전에 기계 학습 데이터세트에 데이터 준비가 필요할 수 있습니다. 누락된 값이나 이상값을 포함할 수 있는 다양한 문제로 인해 데이터를 정리하고 특성 추출을 수행하여 모델의 정확도를 향상시킬 수 있습니다. Amazon SageMaker Canvas는 모델 구축을 위해 데이터를 정리, 변환 및 준비할 수 있는 ML 데이터 변환을 제공합니다. 코드 없이 데이터세트에서 이러한 변환을 사용할 수 있습니다. SageMaker Canvas는 사용하는 변환을 **모델 레시피**에 추가합니다.모델 레시피는 모델을 빌드하기 전에 데이터에 대해 수행한 데이터 준비의 기록입니다. 사용하는 모든 데이터 변환은 모델 구축을 위한 입력 데이터만 수정하고 원본 데이터 소스는 수정하지 않습니다.

데이터세트 미리보기에는 데이터세트의 처음 100개 행이 표시됩니다. 데이터세트의 행이 20,000개를 초과하는 경우 Canvas는 20,000개 행의 무작위 표본을 추출하여 해당 샘플에서 처음 100개 행을 미리 봅니다. 미리보기 된 행에서만 값을 검색하고 지정할 수 있으며, 필터 기능은 미리보기 된 행만 필터링하고 전체 데이터세트는 필터링하지 않습니다.

SageMaker Canvas에서 다음과 같은 변환을 사용하여 빌드할 데이터를 준비할 수 있습니다.

**참고**  
테이블 형식 데이터세트를 기반으로 구축된 모델에는 고급 변환만 사용할 수 있습니다. 다중 카테고리 텍스트 예측 모델도 제외됩니다.

## 열 삭제
<a name="canvas-prepare-data-drop"></a>

SageMaker Canvas 애플리케이션의 **빌드** 탭에 열을 드롭하여 모델 빌드에서 열을 삭제할 수 있습니다. 삭제하려는 열을 선택 취소하면 모델을 빌드할 때 해당 열이 포함되지 않습니다.

**참고**  
열을 삭제한 다음 모델로 [배치 예측](canvas-make-predictions.md)을 수행하면 SageMaker Canvas는 삭제된 열을 다운로드할 수 있는 출력 데이터세트에 다시 추가합니다. 하지만 SageMaker Canvas는 시계열 모델의 경우 삭제된 열을 다시 추가하지 않습니다.

## 행 필터링
<a name="canvas-prepare-data-filter"></a>

필터 기능은 사용자가 지정한 조건에 따라 미리보기 된 행(데이터세트의 처음 100개 행)을 필터링합니다. 행을 필터링하면 데이터의 임시 미리보기가 생성되며 모델 구축에는 영향을 주지 않습니다. 누락된 값이 있거나, 이상값을 포함하거나, 선택한 열에서 사용자 지정 조건을 충족하는 행을 필터링하여 미리 볼 수 있습니다.

### 누락된 값을 기준으로 행 필터링
<a name="canvas-prepare-data-filter-missing"></a>

누락된 값은 기계 학습 데이터 세트에서 흔히 발생합니다. 특정 열에 값이 null 또는 빈 값이 있는 이 있는 경우 해당 행을 필터링하고 미리 볼 수 있습니다.

미리보기 된 데이터에서 누락된 값을 필터링하려면 다음을 수행합니다.

1. SageMaker Canvas 애플리케이션의 **빌드** 탭에서 **행별 필터링**(![\[Filter icon in the SageMaker Canvas application.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/filter-icon.png))을 선택합니다.

1. 누락된 값이 있는지 확인하려는 **열**을 선택합니다.

1. **작업**에서 **누락**을 선택합니다.

SageMaker Canvas는 선택한 **열**에 누락된 값이 포함된 행을 필터링하고 필터링된 행의 미리보기를 제공합니다.

![\[SageMaker Canvas 애플리케이션의 누락된 값에 의한 필터링 작업 스크린샷입니다.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-filter-missing.png)


### 이상값을 기준으로 행 필터링
<a name="canvas-prepare-data-filter-outliers"></a>

데이터 분포 및 범위의 이상값 또는 희귀한 값은 모델 정확도에 부정적인 영향을 미치고 구축 시간을 연장할 수 있습니다. SageMaker Canvas를 사용하면 숫자 열에 이상값이 포함된 행을 감지하고 필터링할 수 있습니다. 표준 편차 또는 사용자 지정 범위로 이상값을 정의하도록 선택할 수 있습니다.

데이터의 이상값을 필터링하려면 다음을 수행합니다.

1. SageMaker Canvas 애플리케이션의 **빌드** 탭에서 **행별 필터링**(![\[Filter icon in the SageMaker Canvas application.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/filter-icon.png))을 선택합니다.

1. 이상값을 확인하려는 **열**을 선택합니다.

1. **연산**에서 **이상값**을 선택합니다.

1. **이상값 범위**를 **표준 편차** 또는 **사용자 지정 범위**로 설정합니다.

1. **표준 편차**)를 선택하는 경우 **SD**(표준 편차) 값을 1\$13으로 지정하세요. **사용자 지정 범위**를 선택하는 경우 **백분위수** 또는 **숫자**를 선택한 다음 **최소값**과 **최대값**을 지정합니다.

**표준 편차** 옵션은 평균과 표준 편차를 사용하여 숫자 열의 이상값을 탐지하고 필터링합니다. 값이 이상값으로 간주되기 위해 평균과 달라야 하는 표준 편차 수를 지정합니다. 예를 들어 **SD**를 지정하는 `3`경우 값이 평균에서 3 표준 편차 이상 떨어져야 이상값으로 간주됩니다.

**사용자 지정 범위** 옵션은 최소값과 최대값을 사용하여 숫자 열의 이상값을 탐지하고 필터링합니다. 이상값을 구분하는 임곗값을 알고 있는 경우 이 방법을 사용하세요. 범위 **유형**을 **백분위수** 또는 **숫자**로 설정할 수 있습니다. **백분위수**를 선택하는 경우 **최소값**과 **최대값**은 허용하려는 백분위수 범위(0-100)의 최소값과 최대값이어야 합니다. **숫자**를 선택하는 경우 **최소값**과 **최대값**은 데이터에서 필터링하려는 최소 및 최대 숫자 값이어야 합니다.

![\[SageMaker Canvas 애플리케이션에서 이상값을 기준으로 필터링하는 작업의 스크린샷입니다.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-filter-outlier.png)


### 사용자 지정 값을 기준으로 행 필터링
<a name="canvas-prepare-data-filter-custom"></a>

사용자 지정 조건에 맞는 값이 있는 행을 필터링할 수 있습니다. 예를 들어 가격 값이 100보다 큰 행을 제거하기 전에 미리 볼 수 있습니다. 이 기능을 사용하면 설정한 임곗값을 초과하는 행을 필터링하고 필터링된 데이터를 미리 볼 수 있습니다.

사용자 지정 필터 기능을 사용하려면 다음을 수행합니다.

1. SageMaker Canvas 애플리케이션의 **빌드** 탭에서 **행별 필터링**(![\[Filter icon in the SageMaker Canvas application.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/filter-icon.png))을 선택합니다.

1. 확인하려는 **열**을 선택합니다.

1. 사용할 **작업** 유형을 선택한 다음 선택한 조건의 값을 지정합니다.

**작업**의 경우, 다음 옵션 중 하나를 선택할 수 있습니다. 사용 가능한 작업은 선택한 열의 데이터 유형에 따라 다릅니다. 예를 들어, 텍스트 값이 포함된 열에 대해서는 `is greater than`작업을 생성할 수는 없습니다.


| 연산 | 지원되는 데이터 유형 | 지원되는 기능 유형 | 함수 | 
| --- | --- | --- | --- | 
|  같음  |  숫자, 텍스트  | 바이너리, 범주형 |  **열**의 값이 지정한 값과 같은 행을 필터링합니다.  | 
|  같지 않음  |  숫자, 텍스트  | 바이너리, 범주형 |  **열**의 값이 지정한 값과 같지 않은 행을 필터링합니다.  | 
|  보다 작음  |  Numeric  | 해당 사항 없음 |  **열**의 값이 지정한 값보다 작은 행을 필터링합니다.  | 
|  보다 작거나 같음  |  Numeric  | 해당 사항 없음 |  **열**의 값이 지정된 값보다 작거나 같은 행을 필터링합니다.  | 
|  보다 큼  |  Numeric  | 해당 사항 없음 |  **열**의 값이 지정한 값보다 큰 행을 필터링합니다.  | 
|  보다 크거나 같음  |  Numeric  | 해당 사항 없음 |  **열**의 값이 지정된 값과 같거나 큰 행을 필터링합니다.  | 
|  사이에 있음  |  Numeric  | 해당 사항 없음 |  **열**의 값이 지정한 두 값 사이에 있거나 같은 행을 필터링합니다.  | 
|  포함  |  텍스트  | 범주형 |  **열**의 값에 지정한 값이 포함된 행을 필터링합니다.  | 
|  다음으로 시작  |  텍스트  | 범주형 |  **열**의 값이 지정한 값으로 시작하는 행을 필터링합니다.  | 
|  다음으로 종료  |  범주형  | 범주형 |  **열**의 값이 지정한 값으로 끝나는 행을 필터링합니다.  | 

필터 작업을 설정한 후 SageMaker Canvas는 데이터세트의 미리보기를 업데이트하여 필터링된 데이터를 표시합니다.

![\[SageMaker Canvas 애플리케이션의 사용자 지정 값별 필터링 작업 스크린샷입니다.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-filter-custom.png)


## 함수 및 연산자
<a name="canvas-prepare-data-custom-formula"></a>

수학 함수와 연산자를 사용하여 데이터를 탐색하고 배포할 수 있습니다. SageMaker Canvas에서 지원하는 함수를 사용하거나 기존 데이터로 자체 공식을 생성하고 공식 결과로 새 열을 생성할 수 있습니다. 예를 들어, 두 열의 해당 값을 추가하고 결과를 새 열에 저장할 수 있습니다.

문을 중첩하여 더 복잡한 함수를 만들 수 있습니다. 다음은 사용할 수 있는 중첩 함수의 몇 가지 예입니다.
+ `weight / (height ^ 2)` 함수를 사용하여 BMI를 계산할 수 있습니다.
+ `Case(age < 18, 'child', age < 65, 'adult', 'senior')` 함수를 사용하여 연령을 분류할 수 있습니다.

모델을 구축하기 전에 데이터 준비 단계에서 함수를 지정할 수 있습니다. 함수를 가져오려면 다음을 수행합니다.
+ SageMaker Canvas 애플리케이션의 **빌드** 탭에서 **모두 보기**를 선택한 다음 **사용자 지정 공식**을 선택하여 **사용자 지정 공식** 패널을 엽니다.
+ **사용자 지정 공식** 패널에서 **모델 레시피**에 추가할 **공식**을 선택할 수 있습니다. 각 공식은 지정한 열의 모든 값에 적용됩니다. 두 개 이상의 열을 인수로 허용하는 공식의 경우 데이터 유형이 일치하는 열을 사용하세요.그렇지 않으면 새 열에 오류 또는 `null` 값이 표시됩니다.
+ **공식**을 지정한 후 **새 열 이름** 필드에 열 이름을 추가합니다. SageMaker Canvas는 생성된 새 열에 이 이름을 사용합니다.
+ (선택 사항) **미리보기**를 선택하여 변환을 미리 볼 수 있습니다.
+ **모델 레시피**에 함수를 추가하려면 **추가**를 선택합니다.

SageMaker Canvas는 **새 열 이름**에서 지정한 이름을 사용하여 함수의 결과를 새 열에 저장합니다. **모델 레시피** 패널에서 함수를 보거나 제거할 수 있습니다.

SageMaker Canvas에서는 함수에 대해 다음 연산자들을 지원합니다. 텍스트 형식 또는 인라인 형식을 사용하여 함수를 지정할 수 있습니다.


| 연산자 | 설명 | 지원되는 데이터 유형 | 텍스트 형식 | 인라인 형식 | 
| --- | --- | --- | --- | --- | 
|  더하기  |  값의 합계를 반환합니다.  |  Numeric  | Add(sales1, sales2) | sales1 \$1 sales2 | 
|  Subtract  |  값 간의 차이를 반환합니다.  |  Numeric  | Subtract(sales1, sales2) | sales1 ‐ sales2 | 
|  곱하기  |  값의 곱을 반환합니다.  |  Numeric  | Multiply(sales1, sales2) | sales1 \$1 sales2 | 
|  나누기  |  값의 몫을 반환합니다.  |  Numeric  | Divide(sales1, sales2) | sales1 / sales2 | 
|  Mod  |  모듈로 연산자의 결과(두 값을 나눈 나머지)를 반환합니다.  |  Numeric  | Mod(sales1, sales2) | sales1 % sales2 | 
|  Abs  | 값의 절대값을 반환합니다. |  Numeric  | Abs(sales1) | 해당 사항 없음 | 
|  Negate  | 값의 음수를 반환합니다. |  Numeric  | Negate(c1) | ‐c1 | 
|  Exp  |  e(오일러수)를 해당 값의 거듭제곱으로 반환합니다.  |  Numeric  | Exp(sales1) | 해당 사항 없음 | 
|  Log  |  값의 로그(밑 10)를 반환합니다.  |  Numeric  | Log(sales1) | 해당 사항 없음 | 
|  Ln  |  값의 자연 로그(밑 e)를 반환합니다.  |  Numeric  | Ln(sales1) | 해당 사항 없음 | 
|  Pow  |  거듭제곱된 값을 반환합니다.  |  Numeric  | Pow(sales1, 2) | sales1 ^ 2 | 
|  If  |  지정한 조건에 따라 참 또는 거짓 레이블을 반환합니다.  |  부울, 숫자, 텍스트  | If(sales1>7000, 'truelabel, 'falselabel') | 해당 사항 없음 | 
|  Or  |  지정한 값 또는 조건 중 하나가 참인지, 지정한 조건에 따라 참인지 거짓인지 여부에 대한 부울 값을 반환합니다.  |  부울  | Or(fullprice, discount) | fullprice \$1\$1 discount | 
|  And  |  지정된 값 또는 조건 중 두 개가 참인지 아닌지에 대한 부울 값을 반환합니다.  |  부울  | And(sales1,sales2) | sales1 && sales2 | 
|  Not  |  지정된 값 또는 조건과 반대되는 부울 값을 반환합니다.  |  부울  | Not(sales1) | \$1sales1 | 
|  Case  |  조건문을 기반으로 부울 값을 반환합니다(cond1이 참이면 c1을 반환하고, cond2가 참이면 c2를 반환하고, 그렇지 않으면 c3을 반환합니다).  |  부울, 숫자, 텍스트  | Case(cond1, c1, cond2, c2, c3) | 해당 사항 없음 | 
|  같음  |  두 값이 같은지 여부에 대한 부울 값을 반환합니다.  |  부울, 숫자, 텍스트  | 해당 사항 없음 | c1 = c2c1 == c2 | 
|  같지 않음  |  두 값이 같지 않은지 여부에 대한 부울 값을 반환합니다.  |  부울, 숫자, 텍스트  | 해당 사항 없음 | c1 \$1= c2 | 
|  보다 작음  |  c1이 c2보다 작은지 여부를 나타내는 부울 값을 반환합니다.  |  부울, 숫자, 텍스트  | 해당 사항 없음 | c1 < c2 | 
|  보다 큼  |  c1이 c2보다 큰지 여부에 대한 부울 값을 반환합니다.  |  부울, 숫자, 텍스트  | 해당 사항 없음 | c1 > c2 | 
|  작거나 같음  |  c1이 c2보다 작거나 같은지 여부에 대한 부울 값을 반환합니다.  |  부울, 숫자, 텍스트  | 해당 사항 없음 | c1 <= c2 | 
|  크거나 같음  |  c1이 c2보다 크거나 같은지 여부에 대한 부울 값을 반환합니다.  |  부울, 숫자형, 텍스트  | 해당 사항 없음 | c1 >= c2 | 

SageMaker Canvas는 모든 값의 합계를 계산하거나 열의 최소값을 찾는 등의 작업을 수행할 수 있는 집계 연산자도 지원합니다. 함수에서 집계 연산자를 표준 연산자와 조합하여 사용할 수 있습니다. 예를 들어, 평균과 값의 차이를 계산하려면 `Abs(height – avg(height))`함수를 사용할 수 있습니다. SageMaker Canvas는 다음과 같은 집계 연산자를 지원합니다.


| 집계 연산자 | 설명 | 형식 | 예제 | 
| --- | --- | --- | --- | 
|  sum  |  열에 있는 모든 값의 합계를 반환합니다.  | sum | sum(c1) | 
|  minimum  |  열의 최소값을 반환합니다.  | min | min(c2) | 
|  maximum  |  열의 최대값을 반환합니다.  | 최대 | max(c3) | 
|  평균  |  열의 평균값을 반환합니다.  | avg | avg(c4) | 
|  std  | 열의 표본 표준편차를 반환합니다. | std | 표준 (c1) | 
|  stddev  | 열에 있는 값의 표준 편차를 반환합니다. | stddev | stddev (c1) | 
|  variance  | 열에 있는 값의 편향되지 않은 분산을 반환합니다. | variance | variance(c1) | 
|  approx\$1count\$1distinct  | 열에 있는 고유 항목의 대략적인 개수를 반환합니다. | approx\$1count\$1distinct | approx\$1count\$1distinct(c1) | 
|  count  | 한 열에 있는 항목 수를 반환합니다. | count | count(c1) | 
|  first  |  열의 첫 번째 값을 반환합니다.  | first | first(c1) | 
|  last  |  열의 마지막 값을 반환합니다.  | last | last(c1) | 
|  stddev\$1pop  | 열의 모집단 표준 편차를 반환합니다. | stddev\$1pop | stddev\$1pop (c1) | 
|  variance\$1pop  |  열에 있는 값의 모집단 분산을 반환합니다.  | variance\$1pop | variance\$1pop (c1) | 

## 행 관리
<a name="canvas-prepare-data-manage"></a>

행 관리 변환을 사용하면 데이터세트에서 데이터 행을 정렬, 무작위 섞기 및 제거할 수 있습니다.

### 행 정렬
<a name="canvas-prepare-data-manage-sort"></a>

특정 열을 기준으로 데이터세트의 행을 정렬하려면 다음을 수행합니다.

1. SageMaker Canvas 애플리케이션의 **빌드** 탭에서 **행 관리**를 선택한 다음 **행 정렬**을 선택합니다.

1. **열 정렬**의 경우 정렬 기준으로 사용할 열을 선택합니다.

1. **정렬 순서**에서 **오름차순** 또는 **내림차순**을 선택합니다.

1. **추가**를 선택하여 **모델 레시피**에 변환을 추가합니다.

### 행 섞기
<a name="canvas-prepare-data-manage-shuffle"></a>

데이터세트에서 행을 임의로 섞으려면 다음을 수행합니다.

1. SageMaker Canvas 애플리케이션의 **빌드** 탭에서 **행 관리**를 선택한 다음 **행 섞기**를 선택합니다.

1. **추가**를 선택하여 **모델 레시피**에 변환을 추가합니다.

### 중복 행 삭제
<a name="canvas-prepare-data-manage-drop-duplicate"></a>

데이터세트에서 중복된 행을 제거하려면 다음을 수행합니다.

1. SageMaker Canvas 애플리케이션의 **빌드** 탭에서 **행 관리**를 선택한 다음 **중복 행 삭제**를 선택합니다.

1. **추가**를 선택하여 **모델 레시피**에 변환을 추가합니다.

### 누락된 값이 있는 행 제거
<a name="canvas-prepare-data-remove-missing"></a>

누락된 값은 기계 학습 데이터 세트에서 흔히 발생하며 모델 정확도에 영향을 미칠 수 있습니다. 특정 열에 null 또는 비어 있는 값이 있는 행을 삭제하려면 이 변환을 사용하세요.

지정된 열에 누락된 값이 포함된 행을 제거하려면 다음을 수행합니다.

1. SageMaker Canvas 애플리케이션의 **빌드** 탭에서 **행 관리**를 선택합니다.

1. **누락된 값을 기준으로 행 삭제**를 선택합니다.

1. **추가**를 선택하여 **모델 레시피**에 변환을 추가합니다.

SageMaker Canvas는 선택한 **열**에 누락된 값이 포함된 행을 삭제합니다. 데이터 세트에서 행을 제거한 후 SageMaker Canvas는 **모델 레시피** 섹션에 변환을 추가합니다. **모델 레시피** 섹션에서 변환을 제거하면 행이 데이터 세트로 돌아갑니다.

![\[SageMaker Canvas 애플리케이션의 누락된 값을 통한 행 제거 작업의 스크린샷입니다.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-remove-missing.png)


### 이상값을 기준으로 행 제거
<a name="canvas-prepare-data-remove-outliers"></a>

데이터 분포 및 범위의 이상값 또는 희귀한 값은 모델 정확도에 부정적인 영향을 미치고 구축 시간을 연장할 수 있습니다. SageMaker Canvas를 사용하면 숫자 열에 이상값이 포함된 행을 감지하고 제거할 수 있습니다. 표준 편차 또는 사용자 지정 범위로 이상값을 정의하도록 선택할 수 있습니다.

데이터에서 이상값을 제거하려면 다음을 수행하세요.

1. SageMaker Canvas 애플리케이션의 **빌드** 탭에서 **행 관리**를 선택합니다.

1. **이상값을 기준으로 행 삭제**를 선택합니다.

1. 이상값을 확인하려는 **열**을 선택합니다.

1. **연산자**를 **표준 편차**, **사용자 지정 숫자 범위** 또는 **사용자 지정 분위수 범위**로 설정합니다.

1. **표준 편차**를 선택하는 경우 **표준 편차**(표준 편차) 값을 1-3 사이로 지정하세요. **사용자 지정 숫자 범위** 또는 **사용자 지정 분위수 범위**를 선택하는 경우 **최소값**과 **최대값**(숫자 범위의 경우 숫자, 분위수 범위의 경우 0\$1 100% 사이의 백분위수)을 지정합니다.

1. **추가**를 선택하여 **모델 레시피**에 변환을 추가합니다.

**표준 편차** 옵션은 평균과 표준 편차를 사용하여 숫자 열의 이상값을 탐지하고 제거합니다. 값이 이상값으로 간주되기 위해 평균과 달라야 하는 표준 편차 수를 지정합니다. 예를 들어, **표준 편차**를 지정하는 `3`경우 값이 평균에서 3 표준 편차 이상 떨어져야 이상값으로 간주됩니다.

**사용자 지정 숫자 범위** 및 **사용자 지정 분위수 범위** 옵션은 최소값과 최대값을 사용하여 숫자 열의 이상값을 탐지하고 제거합니다. 이상값을 구분하는 임계값을 알고 있는 경우 이 방법을 사용하세요. 숫자 범위를 선택하는 경우 **최소값**과 **최대값**은 데이터에 허용하려는 최소값과 최대값이어야 합니다. 분위수 범위를 선택하는 경우 **최소값**과 **최대값**은 허용하려는 백분위수 범위(0\$1100)의 최소값과 최대값이어야 합니다.

데이터 세트에서 행을 제거한 후 SageMaker Canvas는 **모델 레시피** 섹션에 변환을 추가합니다. **모델 레시피** 섹션에서 변환을 제거하면 행이 데이터 세트로 돌아갑니다.

![\[SageMaker Canvas 애플리케이션의 이상값 기준 행 제거 작업의 스크린샷입니다.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-remove-outlier.png)


### 사용자 지정 값으로 행 제거
<a name="canvas-prepare-data-remove-custom"></a>

사용자 지정 조건에 맞는 값이 있는 행을 제거할 수 있습니다. 예를 들어 모델을 만들 때 가격 값이 100보다 큰 행을 모두 제외할 수 있습니다. 이 변환을 사용하면 설정한 임곗값을 초과하는 모든 행을 제거하는 규칙을 만들 수 있습니다.

사용자 지정 제거 변환을 사용하려면 다음을 수행합니다.

1. SageMaker Canvas 애플리케이션의 **빌드** 탭에서 **행 관리**를 선택합니다.

1. **공식별로 행 삭제**를 선택합니다.

1. 확인하려는 **열**을 선택합니다.

1. 사용할 **작업** 유형을 선택한 다음 선택한 조건의 값을 지정합니다.

1. **추가**를 선택하여 **모델 레시피**에 변환을 추가합니다.

**작업**의 경우, 다음 옵션 중 하나를 선택할 수 있습니다. 사용 가능한 작업은 선택한 열의 데이터 유형에 따라 다릅니다. 예를 들어, 텍스트 값이 포함된 열에 대해서는 `is greater than`작업을 생성할 수는 없습니다.


| 연산 | 지원되는 데이터 유형 | 지원되는 기능 유형 | 함수 | 
| --- | --- | --- | --- | 
|  같음  |  숫자, 텍스트  |  바이너리, 범주형  |  **열**의 값이 지정한 값과 같은 행을 제거합니다.  | 
|  같지 않음  |  숫자, 텍스트  |  바이너리, 범주형  |  **열**의 값이 지정한 값과 같지 않은 행을 제거합니다.  | 
|  보다 작음  |  Numeric  | 해당 사항 없음 |  **열의** 값이 지정한 값보다 작은 행을 제거합니다.  | 
|  보다 작거나 같음  |  Numeric  | 해당 사항 없음 |  **열**의 값이 지정된 값보다 작거나 같은 행을 제거합니다.  | 
|  보다 큼  |  Numeric  | 해당 사항 없음 |  **열의** 값이 지정한 값보다 큰 행을 제거합니다.  | 
|  보다 크거나 같음  | Numeric | 해당 사항 없음 |  **열**의 값이 지정된 값과 같거나 큰 행을 제거합니다.  | 
|  사이에 있음  | Numeric | 해당 사항 없음 |  **열**의 값이 지정한 두 값 사이에 있거나 같은 행을 제거합니다.  | 
|  포함  |  텍스트  | 범주형 |  **열**의 값에 지정한 값이 포함된 행을 제거합니다.  | 
|  다음으로 시작  |  텍스트  | 범주형 |  **열**의 값이 지정한 값으로 시작하는 행을 제거합니다.  | 
|  다음으로 종료  |  텍스트  | 범주형 |  **열**의 값이 지정한 값으로 끝나는 행을 제거합니다.  | 

데이터 세트에서 행을 제거한 후 SageMaker Canvas는 **모델 레시피** 섹션에 변환을 추가합니다. **모델 레시피** 섹션에서 변환을 제거하면 행이 데이터 세트로 돌아갑니다.

![\[SageMaker Canvas 애플리케이션의 사용자 지정 값 기준 행 제거 작업의 스크린샷입니다.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-remove-custom.png)


## 열 이름 변경하기
<a name="canvas-prepare-data-rename"></a>

열 이름 변경하기 변환을 사용하여 데이터의 열 이름을 바꿀 수 있습니다. 열 이름을 바꾸면 SageMaker Canvas는 모델 입력에서 열 이름을 변경합니다.

SageMaker Canvas 애플리케이션의 **빌드** 탭에서 열 이름을 두 번 클릭하고 새 이름을 입력하여 데이터세트의 열 이름을 변경할 수 있습니다. **Enter** 키를 누르면 변경 내용이 제출되고 입력 외부의 아무 곳이나 클릭하면 변경이 취소됩니다. 목록 보기의 행 끝이나 표 보기의 머리글 셀 끝에 있는 **추가 옵션** 아이콘(![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))을 클릭하고 **이름 변경하기**를 선택하여 열 이름을 바꿀 수도 있습니다.

열 이름은 32자를 초과하거나 이중 밑줄(\$1\$1)을 사용할 수 없으며 열 이름을 다른 열과 같은 이름으로 바꿀 수 없습니다. 삭제한 열의 이름도 바꿀 수 없습니다.

다음 스크린샷은 열 이름을 두 번 클릭하여 열 이름을 바꾸는 방법을 보여줍니다.

![\[SageMaker Canvas 애플리케이션에서 더블 클릭 메서드로 열 이름을 변경하는 스크린샷입니다.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-rename-column.png)


열 이름을 변경하면 SageMaker Canvas가 **모델 레시피** 섹션에 변환을 추가합니다. **모델 레시피** 섹션에서 변환을 제거하면 열이 원래 이름으로 되돌아갑니다.

## 열 관리
<a name="canvas-prepare-data-manage-cols"></a>

다음 변환을 사용하여 열의 데이터 유형을 변경하고 특정 열의 누락된 값이나 이상값을 바꿀 수 있습니다. SageMaker Canvas는 모델을 빌드할 때 업데이트된 데이터 유형 또는 값을 사용하지만 원본 데이터세트는 변경하지 않습니다. [열 삭제](#canvas-prepare-data-drop) 변환을 사용하여 데이터세트에서 열을 삭제한 경우 해당 열의 값을 바꿀 수 없다는 점에 유의하세요.

### 누락된 값 바꾸기
<a name="canvas-prepare-data-replace-missing"></a>

누락된 값은 기계 학습 데이터 세트에서 흔히 발생하며 모델 정확도에 영향을 미칠 수 있습니다. 누락된 값이 있는 행을 삭제하도록 선택할 수 있지만, 대신 누락된 값을 바꾸면 모델의 정확도가 향상됩니다. 이 변환을 사용하면 숫자 열의 누락된 값을 열에 있는 데이터의 평균 또는 중앙값으로 바꾸거나 누락된 값을 대체할 사용자 지정 값을 지정할 수도 있습니다. 숫자가 아닌 열의 경우 누락된 값을 열의 모드(가장 일반적인 값) 또는 사용자 지정 값으로 바꿀 수 있습니다.

특정 열의 null 값이나 빈 값을 바꾸려면 이 변환을 사용하세요. 지정된 열에서 누락된 값을 바꾸려면 다음을 수행하세요.

1. SageMaker Canvas 애플리케이션의 **빌드** 탭에서 **열 관리**를 선택합니다.

1. **누락된 값 바꾸기**를 선택합니다.

1. 누락된 값을 대체하려는 **열**을 선택합니다.

1. 누락된 값을 지정한 값으로 바꾸려면 **모드**를 **수동**으로 설정합니다. **자동(기본값)** 설정을 사용하면 SageMaker Canvas는 누락된 값을 데이터에 가장 적합한 산입 값으로 바꿉니다. **수동** 모드를 지정하지 않는 한 이 산입 메서드는 각 모델 빌드마다 자동으로 수행됩니다.

1. **바꿀** 값을 설정합니다.
   + 열이 숫자인 경우 **평균**, **중앙값** 또는 **사용자 지정**을 선택합니다. **평균**은 누락된 값을 열의 평균으로 바꾸고, **중앙값**은 누락된 값을 열의 중앙값으로 바꿉니다. **사용자 지정**을 선택한 경우 누락값을 대체하는 데 사용할 사용자 지정 값을 지정해야 합니다.
   + 열이 숫자가 아닌 경우 **모드** 또는 **사용자 지정**을 선택합니다. **모드**는 누락된 값을 열의 모드 또는 가장 일반적인 값으로 대체합니다. **사용자 지정**의 경우 누락된 값을 대체하는 데 사용할 사용자 지정 값을 지정합니다.

1. **추가**를 선택하여 **모델 레시피**에 변환을 추가합니다.

데이터세트에서 누락된 값을 바꾼 후 SageMaker Canvas는 **모델 레시피** 섹션에 변환을 추가합니다. **모델 레시피** 섹션에서 변환을 제거하면 누락된 값이 데이터세트로 돌아갑니다.

![\[SageMaker Canvas 애플리케이션에서 누락된 값 바꾸기 작업의 스크린샷입니다.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-replace-missing.png)


### 이상값 바꾸기
<a name="canvas-prepare-data-replace-outliers"></a>

데이터 분포 및 범위의 이상값 또는 희귀한 값은 모델 정확도에 부정적인 영향을 미치고 구축 시간을 연장할 수 있습니다. SageMaker Canvas를 사용하면 숫자 열에서 이상값을 탐지하고 이상값을 데이터의 허용 범위 내에 있는 값으로 바꿀 수 있습니다. 이상값을 표준 편차 또는 사용자 지정 범위로 정의하도록 선택할 수 있으며, 이상값을 허용 범위의 최소값 및 최대값으로 바꿀 수 있습니다.

데이터의 이상값을 바꾸려면 다음을 수행하세요.

1. SageMaker Canvas 애플리케이션의 **빌드** 탭에서 **열 관리**를 선택합니다.

1. **이상값 바꾸기**를 선택합니다.

1. 이상값을 대체하려는 **열**을 선택합니다.

1. **이상값 정의**에서 **표준 편차**, **사용자 지정 숫자 범위** 또는 **사용자 지정 분위수 범위**를 선택합니다.

1. **표준 편차**를 선택하는 경우 **표준 편차**(표준 편차) 값을 1-3 사이로 지정하세요. **사용자 지정 숫자 범위** 또는 **사용자 지정 분위수 범위**를 선택하는 경우 **최소값**과 **최대값**(숫자 범위의 경우 숫자, 분위수 범위의 경우 0\$1 100% 사이의 백분위수)을 지정합니다.

1. **바꾸기**에 대해 **최소/최대 범위**를 선택합니다.

1. **추가**를 선택하여 **모델 레시피**에 변환을 추가합니다.

**표준 편차** 옵션은 평균과 표준 편차를 사용하여 숫자 열의 이상값을 탐지합니다. 값이 이상값으로 간주되기 위해 평균과 달라야 하는 표준 편차 수를 지정합니다. 예를 들어, **표준 편차**로 3을 지정하는 경우 값이 평균에서 3 표준 편차 이상 떨어져야 이상값으로 간주됩니다. SageMaker Canvas는 이상값을 허용 범위의 최소값 또는 최대값으로 바꿉니다. 예를 들어 200-300의 값만 포함하도록 표준 편차를 구성하는 경우 SageMaker Canvas는 198을 200(최소값)으로 변경합니다.

**사용자 지정 숫자 범위** 및 **사용자 지정 분위수 범위** 옵션은 최소값과 최대값을 사용하여 숫자 열의 이상값을 감지합니다. 이상값을 구분하는 임계값을 알고 있는 경우 이 방법을 사용하세요. 숫자 범위를 선택하는 경우 **최소값**과 **최대값**은 허용하려는 최소 및 최대 숫자 값이어야 합니다. SageMaker Canvas는 최소값 및 최대값을 벗어나는 모든 값을 최소값 및 최대값으로 대체합니다. 예를 들어 범위가 1\$1100 사이의 값만 허용하는 경우 SageMaker Canvas는 102의 값을 100(최대값)으로 변경합니다. 분위수 범위를 선택하는 경우 **최소값**과 **최대값**은 허용하려는 백분위수 범위(0\$1100)의 최소값 및 최대값이어야 합니다.

데이터세트의 값을 바꾼 후 SageMaker Canvas는 **모델 레시피** 섹션에 변환을 추가합니다. **모델 레시피** 섹션에서 변환을 제거하면 원래 값이 데이터세트로 돌아갑니다.

![\[SageMaker Canvas 애플리케이션의 이상값 바꾸기 작업 스크린샷입니다.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-replace-outlier.png)


### 데이터 유형 변경
<a name="canvas-prepare-data-change-type"></a>

SageMaker Canvas는 숫자, 텍스트, 날짜/시간 사이에서 열의 *데이터 유형*을 변경하는 동시에 해당 데이터 유형에 관련된 *기능 유형*을 표시할 수 있는 기능을 제공합니다. *데이터 유형*은 데이터 형식 및 저장 방식을 의미하고, *기능 유형*은 바이너리 또는 범주형과 같은 기계 학습 알고리즘에 사용되는 데이터의 기능을 나타냅니다. 이를 통해 기능에 따라 열의 데이터 유형을 수동으로 변경할 수 있는 유연성이 제공됩니다. 올바른 데이터 유형을 선택할 수 있는 기능은 모델을 구축하기 전에 데이터 무결성과 정확성을 보장합니다. 이러한 데이터 유형은 모델을 구축할 때 사용됩니다.

**참고**  
현재는 기능 유형을 변경(예: 바이너리에서 범주형으로)하는 것은 지원되지 않습니다.

다음 표에는 Canvas에서 지원되는 데이터 유형 매핑이 나와 있습니다.


| 데이터 유형 | 설명 | 예제 | 
| --- | --- | --- | 
| Numeric | 숫자 데이터는 숫자 값을 나타냅니다. | 1, 2, 31.1, 1.2. 1.3 | 
| 텍스트 | 텍스트 데이터는 이름이나 설명과 같은 일련의 문자를 나타냅니다. | A, B, C, D사과, 바나나, 오렌지1A\$1, 2A\$1, 3A\$1 | 
| 날짜시간 | 날짜/시간 데이터는 날짜와 시간을 타임스탬프 형식으로 나타냅니다. | 2019-07-01 01:00:00, 2019-07-01 02:00:00, 2019-07-01 03:00:00 | 

다음 표에는 Canvas에서 지원되는 모든 기능 유형이 나열되어 있습니다.


| 기능 유형 | 설명 | 예제 | 
| --- | --- | --- | 
| 바이너리 | 바이너리 특징은 두 가지 가능한 값을 나타냅니다. | 0, 1, 0, 1, 0 (2개의 고유 값)참, 거짓, 참 (개별 값 2개) | 
| 범주형 | 범주형 기능은 고유한 범주 또는 그룹을 나타냅니다. | 사과, 바나나, 오렌지, 사과 (3개의 고유한 값)A, B, C, D, E, A, D, C (5개의 고유한 값) | 

데이터세트에서 열의 데이터 유형을 수정하려면 다음을 수행하세요.

1. SageMaker Canvas 애플리케이션의 **빌드** 탭에서 **열 뷰** 또는 **그리드 뷰**로 이동하여 특정 열에 대한 **데이터 유형** 드롭다운을 선택합니다.

1. **데이터 유형** 드롭다운에서 변환할 데이터 유형을 선택합니다. 다음 스크린샷은 드롭다운 메뉴를 보여줍니다.  
![\[빌드 탭에 표시된 열의 데이터 유형 변환 드롭다운 메뉴\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-prepare-data-change.png)

1. **열**의 경우 데이터 유형을 변경하려는 열을 선택하거나 확인합니다.

1. **새 데이터 유형**에서 변환하려는 새 데이터 유형을 선택하거나 확인합니다.

1. **새 데이터 유형**이 `Datetime`또는 `Numeric`인 경우 **잘못된 값 처리**에서 다음 옵션 중 하나를 선택합니다.

   1. **빈 값으로 바꾸기** - 잘못된 값은 빈 값으로 대체됩니다.

   1. **행 삭제** - 잘못된 값이 있는 행이 데이터세트에서 제거됩니다.

   1. **사용자 지정 값으로 바꾸기** - 잘못된 값은 지정한 **사용자 지정 값**으로 대체됩니다.

1. **추가**를 선택하여 **모델 레시피**에 변환을 추가합니다.

이제 열의 데이터 유형이 업데이트되어야 합니다.

## 시계열 데이터 준비
<a name="canvas-prepare-data-timeseries"></a>

시계열 예측 모델을 구축하기 위해 시계열 데이터를 준비하려면 다음 기능을 사용하세요.

### 시계열 데이터 리샘플링
<a name="canvas-prepare-data-resample"></a>

시계열 데이터를 리샘플링하여 시계열 데이터세트의 관측치에 대해 일정한 간격을 설정할 수 있습니다. 이는 불규칙한 간격의 관측치를 포함하는 시계열 데이터로 작업할 때 특히 유용합니다. 예를 들어, 리샘플링을 사용하여 1시간, 2시간, 3시간 간격으로 기록된 관측값이 있는 데이터세트를 1시간 간격으로 일정한 관측치 간 간격으로 변환할 수 있습니다. 예측 알고리즘을 사용하려면 일정한 간격으로 관측치를 수집해야 합니다.

시계열 데이터를 리샘플링하려면 다음을 수행하세요.

1. SageMaker Canvas 애플리케이션의 **빌드** 탭에서 **시계열**을 선택합니다.

1. **리샘플링**을 선택합니다.

1. **타임스탬프 열**의 경우 변환을 적용할 열을 선택합니다. **날짜/시간** 유형의 열만 선택할 수 있습니다.

1. **빈도 설정** 섹션에서 **빈도** 및 **비율**을 선택합니다. **주파수**는 주파수 단위이고 **비율**은 열에 적용할 주파수 단위 간격입니다. 예를 들어 **빈도 값**으로 `Calendar Day`을 선택하고 **비율**로 `1`을 선택하면 간격이 달력일 기준 1일마다 증가하도록 설정됩니다(예: `2023-03-26 00:00:00`,`2023-03-27 00:00:00`,`2023-03-28 00:00:00`). **빈도 값**의 전체 목록은 이 절차 다음에 나오는 테이블을 참조하세요.

1. **추가**를 선택하여 **모델 레시피**에 변환을 추가합니다.

다음 테이블에는 시계열 데이터를 리샘플링할 때 선택할 수 있는 모든 **빈도** 유형이 나와 있습니다.


| 빈도 | 설명 | 예제 값 (비율이 1이라고 가정) | 
| --- | --- | --- | 
|  영업일  |  날짜/시간 열의 관측치를 영업일 기준 5일(월요일, 화요일, 수요일, 목요일, 금요일)로 리샘플링합니다.  |  2023-03-24 00:00:00 2023-03-27 00:00:00 2023-03-28 00:00:00 2023-03-29 00:00:00 2023-03-30 00:00:00 2023-03-31 00:00:00 2023-04-03 00:00:00  | 
|  역일  |  날짜/시간 열의 관측치를 전체 7일(월요일, 화요일, 수요일, 목요일, 금요일, 토요일, 일요일)로 리샘플링합니다.  |  2023-03-26 00:00:00 2023-03-27 00:00:00 2023-03-28 00:00:00 2023-03-29 00:00:00 2023-03-30 00:00:00 2023-03-31 00:00:00 2023-04-01 00:00:00  | 
|  주  |  날짜/시간 열의 관측치를 매주 첫째 날로 리샘플링합니다.  |  2023-03-13 00:00:00 2023-03-20 00:00:00 2023-03-27 00:00:00 2023-04-03 00:00:00  | 
|  월  |  날짜/시간 열의 관측치를 해당 월의 첫 번째 날로 리샘플링합니다.  |  2023-03-01 00:00:00 2023-04-01 00:00:00 2023-05-01 00:00:00 2023-06-01 00:00:00  | 
|  연간 분기  |  날짜/시간 열의 관측치를 각 분기의 마지막 날로 리샘플링합니다.  |  2023-03-31 00:00:00 2023-06-30 00:00:00 2023-09-30 00:00:00 2023-12-31 00:00:00  | 
|  연도  |  날짜/시간 열의 관측치를 매년 마지막 날로 리샘플링합니다.  |  2022-12-31 0:00:00 2023-12-31 00:00:00 2024-12-31 00:00:00  | 
|  시간  |  날짜/시간 열의 관측치를 매일 각 시간에 리샘플링합니다.  |  2023-03-24 00:00:00 2023-03-24 01:00:00 2023-03-24 02:00:00 2023-03-24 03:00:00  | 
|  분  |  날짜/시간 열의 관측치를 각 시간의 분 단위로 재샘플링합니다.  |  2023-03-24 00:00:00 2023-03-24 00:01:00 2023-03-24 00:02:00 2023-03-24 00:03:00  | 
|  초  |  날짜/시간 열의 관측치를 매 분의 초 단위로 재샘플링합니다.  |  2023-03-24 00:00:00 2023-03-24 00:00:01 2023-03-24 00:00:02 2023-03-24 00:00:03  | 

리샘플링 변환을 적용할 때 **고급** 옵션을 사용하여 데이터세트의 나머지 열(타임스탬프 열 제외)의 결과 값이 수정되는 방식을 지정할 수 있습니다. 이는 숫자 열과 숫자가 아닌 열 모두에 대해 다운샘플링 또는 업샘플링할 수 있는 리샘플링 방법을 지정하여 달성할 수 있습니다.

*다운샘플링*은 데이터세트의 관측 간격을 늘립니다. 예를 들어, 1시간 또는 2시간마다 실시되던 관측을 다운샘플링하면 데이터 세트의 각 관측치를 2시간마다 추출합니다. 시간별 관측치의 다른 열 값은 조합 방법을 사용하여 단일 값으로 집계됩니다. 다음 테이블에서는 평균을 조합 메서드로 사용하여 시계열 데이터를 다운샘플링하는 예제를 볼 수 있습니다. 데이터는 2시간 간격에서 1시간 간격으로 다운샘플링됩니다.

다음 테이블은 다운샘플링 전 하루 동안의 시간별 온도 판독값을 보여줍니다.


| 타임스탬프 | 온도 (섭씨) | 
| --- | --- | 
| 오후 12시 | 30 | 
| 오전 1시 | 32 | 
| 오전 2시 | 35 | 
| 오전 3시 | 32 | 
| 오전 4시 | 30 | 

다음 테이블은 2시간마다 다운샘플링한 후의 온도 판독값을 보여줍니다.


| 타임스탬프 | 온도 (섭씨) | 
| --- | --- | 
| 오후 12시 | 30 | 
| 오전 2시 | 33.5 | 
| 오전 2시 | 35 | 
| 오전 4시 | 32.5 | 

시계열 데이터를 다운샘플링하려면 다음을 수행합니다.

1. **리샘플링** 변환 아래의 **고급** 섹션을 확장하세요.

1. 숫자가 아닌 열의 조합 방법을 지정하려면 **숫자가 아닌 조합**을 선택합니다. 조합 방법의 전체 목록은 아래 테이블을 참조하세요.

1. 숫자 열의 조합 방법을 지정하려면 **숫자 조합**을 선택합니다. 조합 메서드의 전체 목록은 아래 테이블을 참조하세요.

조합 방법을 지정하지 않는 경우 기본값은 **숫자가 아닌 조합**의 경우 `Most Common`, **숫자 조합**의 경우 `Mean`입니다. 다음 표에는 숫자 및 숫자가 아닌 조합 메서드가 나열되어 있습니다.


| 다운샘플링 방법론 | 조합 메서드 | 설명 | 
| --- | --- | --- | 
| 숫자가 아닌 조합 | 가장 일반적 | 숫자가 아닌 열의 값을 가장 일반적으로 발생하는 값으로 집계합니다. | 
| 숫자가 아닌 조합 | 마지막 | 숫자가 아닌 열의 값을 열의 마지막 값으로 집계합니다. | 
| 숫자가 아닌 조합 | 첫 번째 | 숫자가 아닌 열의 값을 열의 첫 번째 값으로 집계합니다. | 
| 숫자 조합 | 평균 | 열에 있는 모든 값의 평균을 구하여 숫자 열의 값을 집계합니다. | 
| 숫자 조합 | 중간 | 열에 있는 모든 값의 중앙값을 취하여 숫자 열의 값을 집계합니다. | 
| 숫자 조합 | 최소 | 열에 있는 모든 값의 최소값을 취하여 숫자 열의 값을 집계합니다. | 
| 숫자 조합 | 최대 | 열에 있는 모든 값의 최대값을 취하여 숫자 열의 값을 집계합니다. | 
| 숫자 조합 | Sum | 열의 모든 값을 더하여 숫자 열의 값을 집계합니다. | 
| 숫자 조합 | 분위수 | 열에 있는 모든 값의 분위수를 취하여 숫자 열의 값을 집계합니다. | 

*업샘플링*은 데이터세트의 관측 간격이 줄입니다. 예를 들어, 2시간마다 수집되던 관측치를 시간별로 업샘플링하는 경우 시간당 관측치의 다른 열 값은 2시간마다 수집된 관측치에서 보간됩니다.

시계열 데이터를 업샘플링하려면 다음을 수행합니다.

1. **리샘플링** 변환 아래의 **고급** 섹션을 확장하세요.

1. 숫자가 아닌 열에 대한 추정 방법을 지정하려면 **숫자가 아닌 추정**을 선택합니다. 전체 방법 목록은 이 절차 다음에 나오는 테이블을 참조하세요.

1. 숫자 열에 대한 추정 방법을 지정하려면 **숫자 추정**을 선택합니다. 전체 메서드 목록은 아래 테이블을 참조하세요.

1. (선택 사항) **ID 열**을 선택하여 시계열의 관측치 ID가 있는 열을 지정합니다. 데이터세트에 두 개의 시계열이 있는 경우 이 옵션을 지정하세요. 하나의 시계열만 나타내는 열이 있는 경우 이 필드에 값을 지정하지 마세요. 예를 들어 `id`열과 `purchase`이 있는 데이터세트가 있을 수 있습니다. `id` 열의 값은 `[1, 2, 2, 1]`과 같습니다. `purchase` 열의 값은 `[$2, $3, $4, $1]`과 같습니다. 따라서 데이터세트에는 시계열이 두 개 있습니다.한 시계열은 `1: [$2, $1]`이고 다른 시계열은 `2: [$3, $4]`입니다.

추정 방법을 지정하지 않는 경우 기본값은 **숫자가 아닌 추정**은 `Forward Fill`, **숫자 추정**의 경우 `Linear`입니다. 다음 테이블에는 추정 방법이 나열되어 있습니다.


| 업샘플링 방법론 | 추정 방법 | 설명 | 
| --- | --- | --- | 
| 숫자가 아닌 추정 | 전방 채우기 | 숫자가 아닌 열의 모든 값 뒤에 연속된 값을 취하여 숫자가 아닌 열의 값을 보간합니다. | 
| 숫자가 아닌 추정 | 역방향 채우기 | 숫자가 아닌 열의 모든 값 앞에 연속된 값을 사용하여 값을 보간합니다. | 
| 숫자가 아닌 추정 | 계속 누락 | 숫자가 아닌 열의 값을 빈 값으로 표시하여 보간합니다. | 
| 숫자 추정 | 선형, 시간, 지수, 0, S-선형, 최근접, 2차, 3차, 무게 중심, 다항식, 크로그, 구간별 다항식, 스플라인, P-칩, 아키마, 3차 스플라인, 도함수로부터 | 지정된 보간기를 사용하여 숫자 열의 값을 보간합니다. 보간 방법에 대한 자세한 내용은 판다스 설명서의 [pandas.DataFrame.interpolate](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.interpolate.html)를 참조하세요. | 

다음 스크린샷은 다운샘플링 및 업샘플링 필드가 채워진 **고급 설정**을 보여줍니다.

![\[시계열 리샘플링 측면 패널에 고급 옵션이 표시된 Canvas 애플리케이션\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-prepare-data-resampling.png)


### 날짜/시간 추출 사용
<a name="canvas-prepare-data-datetime"></a>

날짜/시간 추출 변환을 사용하면 날짜/시간 열에서 별도의 열로 값을 추출할 수 있습니다. 예를 들어 구매 날짜가 포함된 열이 있는 경우 월 값을 별도의 열로 추출하여 모델을 생성할 때 새 열을 사용할 수 있습니다. 단일 변환으로 여러 값을 추출하여 별도의 열로 만들 수도 있습니다.

날짜/시간 열은 지원되는 타임스탬프 형식을 사용해야 합니다. SageMaker Canvas가 지원하는 형식 목록은 [Amazon SageMaker Canvas의 시계열 예측](canvas-time-series.md)을 참조하세요. 데이터세트가 지원되는 형식 중 하나를 사용하지 않는 경우, 지원되는 타임스탬프 형식을 사용하도록 데이터세트를 업데이트하고 모델을 구축하기 전에 Amazon SageMaker Canvas로 다시 가져옵니다.

날짜/시간 추출을 수행하려면 다음을 수행하세요.

1. SageMaker Canvas 애플리케이션의 **빌드** 탭에 있는 변환 막대에서 **모두 보기**를 선택합니다.

1. **추출 기능**을 선택합니다.

1. 값을 추출하려는 **타임스탬프 열**을 선택합니다.

1. **값**의 경우 열에서 추출할 값을 하나 이상 선택합니다. 타임스탬프 열에서 추출할 수 있는 값은 **년**, **월**, **일**, **시간**, **연중 주**, **연중 요일**, **분기**입니다.

1. (선택 사항) **미리 보기를** 선택하여 변환 결과를 미리 볼 수 있습니다.

1. **추가**를 선택하여 **모델 레시피**에 변환을 추가합니다.

SageMaker Canvas는 추출한 각 값에 대해 데이터세트에 새 열을 생성합니다. **연도** 값을 제외하고 SageMaker Canvas는 추출된 값에 0 기반 인코딩을 사용합니다. 예를 들어 **월** 값을 추출하면 1월은 0으로 추출되고 2월은 1로 추출됩니다.

![\[SageMaker Canvas 애플리케이션의 날짜/시간 추출 상자 스크린샷입니다.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-datetime-extract.png)


**모델 레시피** 섹션에 나열된 변환을 볼 수 있습니다. **모델 레시피** 섹션에서 변환을 제거하면 데이터세트에서 새 열이 제거됩니다.