

# 内容领域 1： 数据工程
<a name="machine-learning-specialty-01-domain1"></a>

**Topics**
+ [任务 1.1： 为 ML 创建数据存储库](#machine-learning-specialty-01-domain1-task1)
+ [任务 1.2： 确定并实施数据摄取解决方案](#machine-learning-specialty-01-domain1-task2)
+ [任务 1.3： 确定并实施数据转换解决方案](#machine-learning-specialty-01-domain1-task3)

## 任务 1.1： 为 ML 创建数据存储库
<a name="machine-learning-specialty-01-domain1-task1"></a>
+ 确定数据来源（例如：内容和位置，用户数据等主要来源）。
+ 确定存储介质（例如：数据库、Amazon S3、Amazon Elastic File System [Amazon EFS]、Amazon Elastic Block Store [Amazon EBS]）。

## 任务 1.2： 确定并实施数据摄取解决方案
<a name="machine-learning-specialty-01-domain1-task2"></a>
+ 确定数据任务方式和任务类型（例如：批量加载、流式处理）。
+ 编排数据摄取管道（基于批处理的 ML 工作负载和基于流式处理的 ML 工作负载）。
  + Amazon Kinesis
  + Amazon Data Firehose
  + Amazon EMR
  + AWS Glue
  + 适用于 Apache Flink 的亚马逊托管服务
+ 安排任务。

## 任务 1.3： 确定并实施数据转换解决方案
<a name="machine-learning-specialty-01-domain1-task3"></a>
+ 转换传输中的数据（ETL、AWS Glue、Amazon EMR、AWS Batch）。
+ 使用 MapReduce 处理特定于 ML 的数据（例如：Apache Hadoop、Apache Spark、Apache Hive）。