内容领域 1: 数据工程
任务 1.1: 为 ML 创建数据存储库
确定数据来源(例如,内容和位置,用户数据等主要来源)。
确定存储介质(例如,数据库、Amazon S3、Amazon Elastic File System [Amazon EFS]、Amazon Elastic Block Store [Amazon EBS])。
任务 1.2: 确定并实施数据摄取解决方案
确定数据任务方式和任务类型(例如,批量加载、流式处理)。
-
编排数据摄取管道(基于批处理的 ML 工作负载和基于流式处理的 ML 工作负载)。
Amazon Kinesis
Amazon Data Firehose
Amazon EMR
AWS Glue
适用于 Apache Flink 的亚马逊托管服务
安排任务。
任务 1.3: 确定并实施数据转换解决方案
转换传输中的数据(ETL、AWS Glue、Amazon EMR、AWS Batch)。
使用 MapReduce 处理特定于 ML 的数据(例如 Apache Hadoop、Apache Spark、Apache Hive)。