内容领域 1: 数据摄取和转换
任务 1.1: 执行数据摄取
技能 1.1.1: 从流数据来源(例如,Amazon Kinesis、Amazon Managed Streaming for Apache Kafka [Amazon MSK]、Amazon DynamoDB Streams、AWS Database Migration Service [AWS DMS]、AWS Glue、Amazon Redshift)读取数据。
技能 1.1.2: 从批量数据来源(例如,Amazon S3、AWS Glue、Amazon EMR、AWS DMS、Amazon Redshift、AWS Lambda、Amazon AppFlow)读取数据。
技能 1.1.3: 为批量摄取实施相应的配置选项。
技能 1.1.4: 使用数据 API。
技能 1.1.5: 使用 Amazon EventBridge、Apache Airflow 或基于时间的任务和爬网程序计划,设置调度器。
技能 1.1.6: 设置事件触发器(例如,Amazon S3 事件通知、EventBridge)。
技能 1.1.7: 从 Kinesis 调用 Lambda 函数。
技能 1.1.8: 为 IP 地址创建允许列表来允许连接到数据来源。
技能 1.1.9: 实施节流和解决速率限制问题(例如,DynamoDB、Amazon RDS、Kinesis)。
技能 1.1.10: 管理流数据分配的扇入和扇出。
技能 1.1.11: 描述数据摄取管道的可重放性。
技能 1.1.12: 定义有状态和无状态数据事务。
任务 1.2: 转换和处理数据
技能 1.2.1: 根据性能需求优化容器使用情况(例如,Amazon Elastic Kubernetes Service [Amazon EKS]、Amazon Elastic Container Service [Amazon ECS])。
技能 1.2.2: 连接到不同的数据来源(例如,Java 数据库连接 [JDBC]、开放式数据库连接 [ODBC])。
技能 1.2.3: 整合来自多个来源的数据。
技能 1.2.4: 在处理数据时优化成本。
技能 1.2.5: 根据要求实施数据转换服务(例如,Amazon EMR、AWS Glue、Lambda、Amazon Redshift)。
技能 1.2.6: 在不同格式之间转换数据(例如,从 .csv 转换到 Apache Parquet)。
技能 1.2.7: 对常见的转换失败和性能问题进行故障排除和调试。
技能 1.2.8: 创建数据 API,通过 AWS 服务向其他系统提供数据。
技能 1.2.9: 定义数据数量、速度和种类(例如,结构化数据、非结构化数据)。
技能 1.2.10: 集成大型语言模型 (LLM) 以进行数据处理。
任务 1.3: 编排数据管道
技能 1.3.1: 使用编排服务为 ETL 数据管道构建工作流(例如,Lambda、EventBridge、Amazon Managed Workflows for Apache Airflow [Amazon MWAA]、AWS Step Functions、AWS Glue 工作流)。
技能 1.3.2: 构建数据管道来提高性能、可用性、可扩展性、韧性和容错能力。
技能 1.3.3: 实施和维护无服务器工作流。
技能 1.3.4: 使用通知服务发送警报(例如,Amazon Simple Notification Service [Amazon SNS]、Amazon Simple Queue Service [Amazon SQS])。
任务 1.4: 应用编程概念
技能 1.4.1: 优化代码来减少数据摄取和转换的运行时间。
技能 1.4.2: 配置 Lambda 函数来满足并发性和性能需求。
技能 1.4.3: 使用编程语言和框架(例如 Python、SQL、Scala、R、Java、Bash、PowerShell)完成数据工程任务。
技能 1.4.4: 使用软件工程最佳实践(例如,版本控制、测试、记录、监控)完成数据工程任务。
技能 1.4.5: 使用基础设施即代码 (IaC) 部署数据工程解决方案。
技能 1.4.6: 使用 AWS Serverless Application Model (AWS SAM) 打包和部署无服务器数据管道(例如,Lambda 函数、Step Functions、DynamoDB 表)。
技能 1.4.7: 从 Lambda 函数中使用和挂载存储卷。
技能 1.4.8: 使用基础设施即代码 (IaC) 进行可重复的资源部署(例如,AWS CloudFormation 和 AWS Cloud Development Kit [AWS CDK])。
技能 1.4.9: 描述持续集成和持续交付 (CI/CD)(实施、测试和部署数据管道)。
技能 1.4.10: 定义分布式计算。
技能 1.4.11: 描述数据结构和算法(例如,图形数据结构和树数据结构)。