コンテンツ分野 1: データエンジニアリング
タスク 1.1: ML 用のデータリポジトリを作成する。
データソース (コンテンツとロケーション、ユーザーデータなどのプライマリソースなど) を特定する。
ストレージメディア [データベース、Amazon S3、Amazon Elastic File System (Amazon EFS)、Amazon Elastic Block Store (Amazon EBS) など] を決定する。
タスク 1.2: データ取り込みソリューションを特定および実装する。
データジョブのスタイルとジョブの種類 (バッチロード、ストリーミングなど) を特定する。
-
データ取り込みのパイプライン (バッチベースの ML ワークロードとストリーミングベースの ML ワークロード) を調整する。
Amazon Kinesis
Amazon Data Firehose
Amazon EMR
AWS Glue
Amazon Managed Service for Apache Flink
ジョブをスケジュールする。
タスク 1.3: データ変換ソリューションを特定および実装する。
転送中のデータを変換する (ETL、AWS Glue、Amazon EMR、AWS Batch)。
MapReduce を使用して ML 固有のデータ (Apache Hadoop、Apache Spark、Apache Hive など) を処理する。