内容领域 1: 数据工程 - AWS Certified Machine Learning - Specialty

内容领域 1: 数据工程

任务 1.1: 为 ML 创建数据存储库

  • 确定数据来源(例如,内容和位置,用户数据等主要来源)。

  • 确定存储介质(例如,数据库、Amazon S3、Amazon Elastic File System [Amazon EFS]、Amazon Elastic Block Store [Amazon EBS])。

任务 1.2: 确定并实施数据摄取解决方案

  • 确定数据任务方式和任务类型(例如,批量加载、流式处理)。

  • 编排数据摄取管道(基于批处理的 ML 工作负载和基于流式处理的 ML 工作负载)。

    • Amazon Kinesis

    • Amazon Data Firehose

    • Amazon EMR

    • AWS Glue

    • 适用于 Apache Flink 的亚马逊托管服务

  • 安排任务。

任务 1.3: 确定并实施数据转换解决方案

  • 转换传输中的数据(ETL、AWS Glue、Amazon EMR、AWS Batch)。

  • 使用 MapReduce 处理特定于 ML 的数据(例如 Apache Hadoop、Apache Spark、Apache Hive)。