

# 内容领域 1： 机器学习 (ML) 的数据准备
<a name="machine-learning-engineer-associate-01-domain1"></a>

**Topics**
+ [任务 1.1： 摄取和存储数据](#machine-learning-engineer-associate-01-domain1-task1)
+ [任务 1.2： 转换数据并执行特征工程](#machine-learning-engineer-associate-01-domain1-task2)
+ [任务 1.3： 确保数据完整性，以及准备数据用于建模](#machine-learning-engineer-associate-01-domain1-task3)

## 任务 1.1： 摄取和存储数据
<a name="machine-learning-engineer-associate-01-domain1-task1"></a>

掌握以下知识：
+ 数据格式和摄取机制（例如：经验证和未经验证的格式、Apache Parquet、JSON、CSV、Apache ORC、Apache Avro、RecordIO）
+ 如何使用核心 AWS 数据源（例如：Amazon S3、Amazon EFS、Amazon FSx for NetApp ONTAP）
+ 如何使用 AWS 流式数据源摄取数据（例如：Amazon Kinesis、Apache Flink、Apache Kafka）
+ AWS 存储选项：用例与权衡

具备以下技能：
+ 使用相关的 AWS 服务选项（例如：Amazon S3 Transfer Acceleration、Amazon EBS Provisioned IOPS），从以下存储服务中提取数据（例如：Amazon S3、Amazon EBS、Amazon EFS、Amazon RDS、Amazon DynamoDB）。
+ 根据数据访问模式选择合适的数据格式（例如：Parquet、JSON、CSV、ORC）。
+ 将数据摄取到 Amazon SageMaker Data Wrangler 和 SageMaker 特征存放区
+ 合并多个来源中的数据（例如：使用编程技术、AWS Glue、Apache Spark）
+ 针对涉及容量和可扩展性的数据摄取和存储问题，进行故障排除和调试
+ 根据成本、性能和数据结构，选择初始的存储

## 任务 1.2： 转换数据并执行特征工程
<a name="machine-learning-engineer-associate-01-domain1-task2"></a>

掌握以下知识：
+ 数据清理和转换技术（例如：检测和处理异常值、填补缺失的数据、合并数据、重复数据删除）
+ 特征工程技术（例如：数据缩放和标准化、特征拆分、分箱、对数变换、标准化）
+ 编码技术（例如：独热编码、二进制编码、标签编码、令牌化）
+ 用于浏览、可视化或转换数据和特征的工具（例如：SageMaker Data Wrangler、AWS Glue、AWS Glue DataBrew）
+ 转换流式数据的服务（例如：AWS Lambda、Spark）
+ 数据标注和标记服务，用于创建高质量的标注数据集

具备以下技能：
+ 使用 AWS 工具（例如：AWS Glue、DataBrew、运行在 Amazon EMR 上的 Spark、SageMaker Data Wrangler）转换数据
+ 使用 AWS 工具（例如：SageMaker 特征存放区）创建和管理特征
+ 使用 AWS 服务（例如：SageMaker Ground Truth、Amazon Mechanical Turk）验证和标注数据

## 任务 1.3： 确保数据完整性，以及准备数据用于建模
<a name="machine-learning-engineer-associate-01-domain1-task3"></a>

掌握以下知识：
+ 数字、文本和图像数据的预训练偏差指标（例如：类不平衡 [CI]、标签比例差异 [DPL]）
+ 解决数字、文本和图像数据集中 CI 的策略（例如：合成数据生成、重新采样）
+ 加密数据的技术
+ 数据分类、匿名化和掩蔽
+ 合规性要求的影响（例如：个人身份信息 [PII]、受保护的健康信息 [PHI]、数据驻留）

具备以下技能：
+ 验证数据质量（例如：使用 DataBrew 和 AWS Glue 数据质量自动监测功能）
+ 使用 AWS 工具（例如：SageMaker Clarify）识别数据中的偏差来源（例如：选择偏差、测量偏差）并采取缓解措施
+ 准备数据以减少预测偏差（例如：使用数据集拆分、随机排列和扩充）
+ 配置数据以加载到模型训练资源（例如：Amazon EFS、Amazon FSx）中