内容领域 3: 数据操作和支持 - AWS Certified Data Engineer - Associate

内容领域 3: 数据操作和支持

任务 3.1: 使用 AWS 服务自动处理数据

  • 技能 3.1.1: 编排数据管道(例如,Amazon Managed Workflows for Apache Airflow [Amazon MWAA]、AWS Step Functions)。

  • 技能 3.1.2: Amazon 托管工作流故障排除。

  • 技能 3.1.3: 通过代码调用 SDK 来访问 Amazon 功能。

  • 技能 3.1.4: 使用 AWS 服务功能处理数据(例如,Amazon EMR、Amazon Redshift、AWS Glue)。

  • 技能 3.1.5: 使用和维护数据 API。

  • 技能 3.1.6: 准备数据用于转换(例如 AWS Glue DataBrew 和 Amazon SageMaker 融通式合作开发工作室)。

  • 技能 3.1.7: 查询数据(例如,Amazon Athena)。

  • 技能 3.1.8: 使用 AWS Lambda 自动处理数据。

  • 技能 3.1.9: 管理事件和调度器(例如,Amazon EventBridge)。

任务 3.2: 使用 AWS 服务分析数据

  • 技能 3.2.1: 使用 AWS 服务和工具(例如 DataBrew、Amazon QuickSight)对数据进行可视化。

  • 技能 3.2.2: 验证和清理数据(例如,Lambda、Athena、QuickSight、Jupyter Notebooks、Amazon SageMaker Data Wrangler)。

  • 技能 3.2.3: 在 Amazon Redshift 和 Athena 中使用 SQL 来查询数据或创建视图。

  • 技能 3.2.4: 使用通过 Apache Spark 查找数据的 Athena 笔记本。

  • 技能 3.2.5: 描述预置服务和无服务器服务的利弊权衡。

  • 技能 3.2.6: 定义数据聚合、滚动平均值、分组和透视。

任务 3.3: 维护和监控数据管道

  • 技能 3.3.1: 提取日志用于审计。

  • 技能 3.3.2: 部署日志记录和监控解决方案以便进行审计和追溯。

  • 技能 3.3.3: 在监控期间使用通知发送警报。

  • 技能 3.3.4: 解决性能问题。

  • 技能 3.3.5: 使用 AWS CloudTrail 跟踪 API 调用。

  • 技能 3.3.6: 对管道进行故障排除和维护(例如,AWS Glue、Amazon EMR)。

  • 技能 3.3.7: 使用 Amazon CloudWatch Logs 记录应用程序数据(侧重于配置和自动化)。

  • 技能 3.3.8: 使用 AWS 服务(例如,Athena、Amazon EMR、Amazon OpenSearch Service、CloudWatch Logs Insights、大数据应用程序日志)分析日志。

任务 3.4: 确保数据质量

  • 技能 3.4.1: 在处理数据时,运行数据质量检查(例如,检查空字段)。

  • 技能 3.4.2: 定义数据质量规则(例如,DataBrew)。

  • 技能 3.4.3: 调查数据一致性(例如,DataBrew)。

  • 技能 3.4.4: 描述数据采样技术。

  • 技能 3.4.5: 实施数据偏斜机制。