

더 이상 Amazon Machine Learning 서비스를 업데이트하거나 새 사용자를 받지 않습니다. 이 설명서는 기존 사용자에 제공되지만 더 이상 업데이트되지 않습니다. 자세한 내용은 [머신 러닝이란?](https://docs.aws.amazon.com/machine-learning/latest/dg/what-is-amazon-machine-learning.html) 단원을 참조하세요.

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 1단계: 데이터 준비
<a name="step-1-download-edit-and-upload-data"></a>

기계 학습에서는 일반적으로 학습 프로세스를 시작하기 전에 데이터를 확보하고 형식이 올바른지 확인합니다. 본 자습서의 목적에 맞게 [UCI 기계 학습 리포지토리](http://archive.ics.uci.edu/ml/)에서 샘플 데이터 세트를 확보했고 ML 지침에 맞게 형식을 지정했고 다운로드할 수 있게 만들었습니다. 이 주제의 절차에 따라 Amazon Simple Storage Service(Amazon S3) 저장 위치에서 데이터 세트를 다운로드하고 자체 S3 버킷으로 업로드합니다.

 ML 형식 요구 사항은 [Amazon ML의 데이터 형식에 대한 이해](understanding-the-data-format-for-amazon-ml.md) 단원을 참조하세요.

**데이터 세트를 다운로드하려면**

1. [banking.zip](samples/banking.zip)을 클릭하여 은행 정기 예금과 유사한 상품을 구입한 고객의 과거 데이터가 포함된 파일을 다운로드합니다. 폴더의 압축을 풀고 banking.csv 파일을 컴퓨터에 저장합니다.

1. [banking-batch.zip](samples/banking-batch.zip)을 클릭하여 잠재 고객이 귀하의 제안에 응답하는지 여부를 예측하는 데 사용할 파일을 다운로드합니다. 폴더의 압축을 풀고 banking-batch.csv 파일을 컴퓨터에 저장합니다.

1.  `banking.csv`를 엽니다. 데이터의 행 및 열을 확인할 수 있습니다. *헤더 열*에는 각 열의 속성 이름이 들어 있습니다. *속성*은 각 고객의 특정한 특성을 설명하는 이름이 지정된 고유한 속성입니다. 예를 들어 nr\$1employed는 고객의 취업 상태를 나타냅니다. 각 행은 단일 고객에 대한 관측치 모음을 나타냅니다.  
![\[Spreadsheet preview showing header row with columns for euribor3m, nr_employed, and y.\]](http://docs.aws.amazon.com/ko_kr/machine-learning/latest/dg/images/image1.png)

   ML 모델에게서 “이 고객이 새 상품에 가입할 것입니까?”라는 질문의 대답을 얻고 싶습니다. `banking.csv` 데이터 세트에서 이 질문에 대한 대답은 1(yes인 경우) 또는 0(no인 경우)의 값을 포함하는 속성 **y**입니다. ML이 예측 방법을 학습하길 원하는 속성을 *대상 속성*이라고 합니다.
**참고**  
속성 **y**는 이진 속성입니다. 이 속성은 두 개의 값 중 하나만 포함할 수 있으며 이 경우 0 또는 1입니다. 원본 UCI 데이터 세트에서 **y** 속성은 Yes 또는 No입니다. 원본 데이터 세트를 편집해 드렸습니다. 이제 yes를 의미하는 속성 **y**의 모든 값은 1이며, no를 의미하는 모든 값은 0입니다. 자체 데이터를 사용하는 경우 이진 속성에 다른 값을 사용할 수 있습니다. 유효한 값에 대한 자세한 내용은 [AttributeType 필드 사용](creating-a-data-schema-for-amazon-ml.md#assigning-data-types) 단원을 참조하세요.

 다음 예제에서는 속성 **y**의 값을 이진 속성 0 및 1로 변경하기 전후의 데이터를 보여줍니다.

![\[Data table showing 'banking.csv' with columns for 'euribor3m', 'nr_employed', and binary 'y' values.\]](http://docs.aws.amazon.com/ko_kr/machine-learning/latest/dg/images/image2.png)


![\[Partial view of a CSV file showing banking data with columns for euribor3m, nr_employed, and y.\]](http://docs.aws.amazon.com/ko_kr/machine-learning/latest/dg/images/image3.png)


 `banking-batch.csv` 파일에는 **y** 속성이 없습니다. ML 모델을 생성한 후에는 이 모델을 사용하여 해당 파일의 각 레코드에 대해 **y**를 예측합니다.

 그 다음 `banking.csv ` 및 `banking-batch.csv` 파일을 S3에 업로드합니다.

**Amazon S3 위치에 파일을 업로드하려면**

1. 에 로그인AWS Management Console하고 [https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/) Amazon S3 콘솔을 엽니다.

1.  **모든 버킷** 목록에서 버킷을 생성하거나 파일을 업로드할 위치를 선택합니다.

1. 탐색 모음에서 **업로드**를 선택합니다.

1. **파일 추가**를 선택합니다.

1.  대화 상자에서 바탕 화면으로 이동하여 `banking.csv` 및 `banking-batch.csv`를 선택한 다음 **열기**를 선택합니다.

 이제 [학습 데이터 소스를 생성](step-2-create-a-datasource.md)할 준비가 되었습니다.