View a markdown version of this page

コンテンツ分野 1: データエンジニアリング - AWS Certified Machine Learning - Specialty

コンテンツ分野 1: データエンジニアリング

タスク 1.1: ML 用のデータリポジトリを作成する。

  • データソース (コンテンツとロケーション、ユーザーデータなどのプライマリソースなど) を特定する。

  • ストレージメディア [データベース、Amazon S3、Amazon Elastic File System (Amazon EFS)、Amazon Elastic Block Store (Amazon EBS) など] を決定する。

タスク 1.2: データ取り込みソリューションを特定および実装する。

  • データジョブのスタイルとジョブの種類 (バッチロード、ストリーミングなど) を特定する。

  • データ取り込みのパイプライン (バッチベースの ML ワークロードとストリーミングベースの ML ワークロード) を調整する。

    • Amazon Kinesis

    • Amazon Data Firehose

    • Amazon EMR

    • AWS Glue

    • Amazon Managed Service for Apache Flink

  • ジョブをスケジュールする。

タスク 1.3: データ変換ソリューションを特定および実装する。

  • 転送中のデータを変換する (ETL、AWS Glue、Amazon EMR、AWS Batch)。

  • MapReduce を使用して ML 固有のデータ (Apache Hadoop、Apache Spark、Apache Hive など) を処理する。