# コンテンツ分野 1: データエンジニアリング **Topics** + [タスク 1.1: ML 用のデータリポジトリを作成する。](#machine-learning-specialty-01-domain1-task1) + [タスク 1.2: データ取り込みソリューションを特定および実装する。](#machine-learning-specialty-01-domain1-task2) + [タスク 1.3: データ変換ソリューションを特定および実装する。](#machine-learning-specialty-01-domain1-task3) ## タスク 1.1: ML 用のデータリポジトリを作成する。 + データソース (コンテンツとロケーション、ユーザーデータなどのプライマリソースなど) を特定する。 + ストレージメディア [データベース、Amazon S3、Amazon Elastic File System (Amazon EFS)、Amazon Elastic Block Store (Amazon EBS) など] を決定する。 ## タスク 1.2: データ取り込みソリューションを特定および実装する。 + データジョブのスタイルとジョブの種類 (バッチロード、ストリーミングなど) を特定する。 + データ取り込みのパイプライン (バッチベースの ML ワークロードとストリーミングベースの ML ワークロード) を調整する。 + Amazon Kinesis + Amazon Data Firehose + Amazon EMR + AWS Glue + Amazon Managed Service for Apache Flink + ジョブをスケジュールする。 ## タスク 1.3: データ変換ソリューションを特定および実装する。 + 転送中のデータを変換する (ETL、AWS Glue、Amazon EMR、AWS Batch)。 + MapReduce を使用して ML 固有のデータ (Apache Hadoop、Apache Spark、Apache Hive など) を処理する。