

# 콘텐츠 도메인 1: 데이터 엔지니어링
<a name="machine-learning-specialty-01-domain1"></a>

**Topics**
+ [작업 1.1: ML용 데이터 리포지토리 만들기](#machine-learning-specialty-01-domain1-task1)
+ [작업 1.2: 데이터 수집 솔루션 식별 및 구현](#machine-learning-specialty-01-domain1-task2)
+ [작업 1.3: 데이터 변환 솔루션 식별 및 구현](#machine-learning-specialty-01-domain1-task3)

## 작업 1.1: ML용 데이터 리포지토리 만들기
<a name="machine-learning-specialty-01-domain1-task1"></a>
+ 데이터 소스 식별(예: 콘텐츠 및 위치, 사용자 데이터와 같은 주요 소스)
+ 스토리지 매체 결정(예: 데이터베이스, Amazon S3, Amazon Elastic File System(Amazon EFS), Amazon Elastic Block Store(Amazon EBS))

## 작업 1.2: 데이터 수집 솔루션 식별 및 구현
<a name="machine-learning-specialty-01-domain1-task2"></a>
+ 데이터 작업 스타일 및 작업 유형 식별(예: 배치 로드, 스트리밍)
+ 데이터 수집 파이프라인 오케스트레이션(배치 기반 ML 워크로드 및 스트리밍 기반 ML 워크로드)
  + Amazon Kinesis
  + Amazon Data Firehose
  + Amazon EMR
  + AWS Glue
  + Amazon Managed Service for Apache Flink
+ 작업 예약

## 작업 1.3: 데이터 변환 솔루션 식별 및 구현
<a name="machine-learning-specialty-01-domain1-task3"></a>
+ 전송 중인 데이터 변환(ETL, AWS Glue, Amazon EMR, AWS Batch).
+ MapReduce를 사용하여 ML별로 데이터 처리(예: Apache Hadoop, Apache Spark, Apache Hive)