

# 内容领域 1： 数据摄取和转换
<a name="data-engineer-associate-01-domain1"></a>

**Topics**
+ [任务 1.1： 执行数据摄取](#data-engineer-associate-01-domain1-task1)
+ [任务 1.2： 转换和处理数据](#data-engineer-associate-01-domain1-task2)
+ [任务 1.3： 编排数据管道](#data-engineer-associate-01-domain1-task3)
+ [任务 1.4： 应用编程概念](#data-engineer-associate-01-domain1-task4)

## 任务 1.1： 执行数据摄取
<a name="data-engineer-associate-01-domain1-task1"></a>
+ 技能 1.1.1： 从流数据来源（例如：Amazon Kinesis、Amazon Managed Streaming for Apache Kafka [Amazon MSK]、Amazon DynamoDB Streams、AWS Database Migration Service [AWS DMS]、AWS Glue、Amazon Redshift）读取数据。
+ 技能 1.1.2： 从批量数据来源（例如：Amazon S3、AWS Glue、Amazon EMR、AWS DMS、Amazon Redshift、AWS Lambda、Amazon AppFlow）读取数据。
+ 技能 1.1.3： 为批量摄取实施相应的配置选项。
+ 技能 1.1.4： 使用数据 API。
+ 技能 1.1.5： 使用 Amazon EventBridge、Apache Airflow 或基于时间的任务和爬网程序计划，设置调度器。
+ 技能 1.1.6： 设置事件触发器（例如：Amazon S3 事件通知、EventBridge）。
+ 技能 1.1.7： 从 Kinesis 调用 Lambda 函数。
+ 技能 1.1.8： 为 IP 地址创建允许列表来允许连接到数据来源。
+ 技能 1.1.9： 实施节流和解决速率限制问题（例如：DynamoDB、Amazon RDS、Kinesis）。
+ 技能 1.1.10： 管理流数据分配的扇入和扇出。
+ 技能 1.1.11： 描述数据摄取管道的可重放性。
+ 技能 1.1.12： 定义有状态和无状态数据事务。

## 任务 1.2： 转换和处理数据
<a name="data-engineer-associate-01-domain1-task2"></a>
+ 技能 1.2.1： 根据性能需求优化容器使用情况（例如：Amazon Elastic Kubernetes Service [Amazon EKS]、Amazon Elastic Container Service [Amazon ECS]）。
+ 技能 1.2.2： 连接到不同的数据来源（例如：Java 数据库连接 [JDBC]、开放式数据库连接 [ODBC]）。
+ 技能 1.2.3： 整合来自多个来源的数据。
+ 技能 1.2.4： 在处理数据时优化成本。
+ 技能 1.2.5： 根据要求实施数据转换服务（例如：Amazon EMR、AWS Glue、Lambda、Amazon Redshift）。
+ 技能 1.2.6： 在不同格式之间转换数据（例如：从 .csv 转换到 Apache Parquet）。
+ 技能 1.2.7： 对常见的转换失败和性能问题进行故障排除和调试。
+ 技能 1.2.8： 创建数据 API，通过 AWS 服务向其他系统提供数据。
+ 技能 1.2.9： 定义数据数量、速度和种类（例如：结构化数据、非结构化数据）。
+ 技能 1.2.10： 集成大型语言模型 (LLM) 以进行数据处理。

## 任务 1.3： 编排数据管道
<a name="data-engineer-associate-01-domain1-task3"></a>
+ 技能 1.3.1： 使用编排服务为 ETL 数据管道构建工作流（例如：Lambda、EventBridge、Amazon Managed Workflows for Apache Airflow [Amazon MWAA]、AWS Step Functions、AWS Glue 工作流）。
+ 技能 1.3.2： 构建数据管道来提高性能、可用性、可扩展性、韧性和容错能力。
+ 技能 1.3.3： 实施和维护无服务器工作流。
+ 技能 1.3.4： 使用通知服务发送警报（例如：Amazon Simple Notification Service [Amazon SNS]、Amazon Simple Queue Service [Amazon SQS]）。

## 任务 1.4： 应用编程概念
<a name="data-engineer-associate-01-domain1-task4"></a>
+ 技能 1.4.1： 优化代码来减少数据摄取和转换的运行时间。
+ 技能 1.4.2： 配置 Lambda 函数来满足并发性和性能需求。
+ 技能 1.4.3： 使用编程语言和框架（例如：Python、SQL、Scala、R、Java、Bash、PowerShell）完成数据工程任务。
+ 技能 1.4.4： 使用软件工程最佳实践（例如：版本控制、测试、记录、监控）完成数据工程任务。
+ 技能 1.4.5： 使用基础设施即代码 (IaC) 部署数据工程解决方案。
+ 技能 1.4.6： 使用 AWS Serverless Application Model (AWS SAM) 打包和部署无服务器数据管道（例如：Lambda 函数、Step Functions、DynamoDB 表）。
+ 技能 1.4.7： 从 Lambda 函数中使用和挂载存储卷。
+ 技能 1.4.8： 使用基础设施即代码 (IaC) 进行可重复的资源部署（例如：AWS CloudFormation 和 AWS Cloud Development Kit [AWS CDK]）。
+ 技能 1.4.9： 描述持续集成和持续交付 (CI/CD)（实施、测试和部署数据管道）。
+ 技能 1.4.10： 定义分布式计算。
+ 技能 1.4.11： 描述数据结构和算法（例如：图形数据结构和树数据结构）。