

# コンテンツ分野 1: データエンジニアリング
<a name="machine-learning-specialty-01-domain1"></a>

**Topics**
+ [タスク 1.1: ML 用のデータリポジトリを作成する。](#machine-learning-specialty-01-domain1-task1)
+ [タスク 1.2: データ取り込みソリューションを特定および実装する。](#machine-learning-specialty-01-domain1-task2)
+ [タスク 1.3: データ変換ソリューションを特定および実装する。](#machine-learning-specialty-01-domain1-task3)

## タスク 1.1: ML 用のデータリポジトリを作成する。
<a name="machine-learning-specialty-01-domain1-task1"></a>
+ データソース (コンテンツとロケーション、ユーザーデータなどのプライマリソースなど) を特定する。
+ ストレージメディア [データベース、Amazon S3、Amazon Elastic File System (Amazon EFS)、Amazon Elastic Block Store (Amazon EBS) など] を決定する。

## タスク 1.2: データ取り込みソリューションを特定および実装する。
<a name="machine-learning-specialty-01-domain1-task2"></a>
+ データジョブのスタイルとジョブの種類 (バッチロード、ストリーミングなど) を特定する。
+ データ取り込みのパイプライン (バッチベースの ML ワークロードとストリーミングベースの ML ワークロード) を調整する。
  + Amazon Kinesis
  + Amazon Data Firehose
  + Amazon EMR
  + AWS Glue
  + Amazon Managed Service for Apache Flink
+ ジョブをスケジュールする。

## タスク 1.3: データ変換ソリューションを特定および実装する。
<a name="machine-learning-specialty-01-domain1-task3"></a>
+ 転送中のデータを変換する (ETL、AWS Glue、Amazon EMR、AWS Batch)。
+ MapReduce を使用して ML 固有のデータ (Apache Hadoop、Apache Spark、Apache Hive など) を処理する。