View a markdown version of this page

内容领域 2: 数据存储管理 - AWS Certified Data Engineer - Associate

内容领域 2: 数据存储管理

任务 2.1: 选择数据存储

  • 技能 2.1.1: 根据特定成本和性能要求实施相应的存储服务(例如,Amazon Redshift、Amazon EMR、AWS Lake Formation、Amazon RDS、Amazon DynamoDB、Amazon Kinesis Data Streams、Amazon Managed Streaming for Apache Kafka [Amazon MSK])。

  • 技能 2.1.2: 根据特定访问模式和要求配置相应的存储服务(例如,Amazon Redshift、Amazon EMR、Lake Formation、Amazon RDS、DynamoDB)。

  • 技能 2.1.3: 根据相应的使用案例应用存储服务(例如,对 Amazon Aurora PostgreSQL 使用分层可导航小世界网络 [HNSW] 等索引算法,以及使用 Amazon MemoryDB 实现快速键/值对访问)。

  • 技能 2.1.4: 将迁移工具集成到数据处理系统(例如,AWS Transfer Family)。

  • 技能 2.1.5: 实施数据迁移或远程访问方法(例如,Amazon Redshift 联合查询、Amazon Redshift 实体化视图、Amazon Redshift Spectrum)。

  • 技能 2.1.6: 管理锁定来防止访问数据(例如,Amazon Redshift、Amazon RDS)。

  • 技能 2.1.7: 管理开源表格式(例如 Apache Iceberg)。

  • 技能 2.1.8: 描述向量索引类型(例如 HNSW、IVF)。

任务 2.2: 了解数据编目系统

  • 技能 2.2.1: 通过数据目录使用数据来源中的数据。

  • 技能 2.2.2: 构建和引用技术数据目录(例如,AWS Glue Data Catalog、Apache Hive 元存储)。

  • 技能 2.2.3: 查找架构并使用 AWS Glue 爬网程序填充数据目录。

  • 技能 2.2.4: 将分区与数据目录同步。

  • 技能 2.2.5: 创建新的源或目标连接进行编目(例如,AWS Glue)。

  • 技能 2.2.6: 创建和管理企业数据目录(例如,Amazon SageMaker Catalog)。

任务 2.3: 管理数据的生命周期

  • 技能 2.3.1: 执行加载和卸载操作,在 Amazon S3 和 Amazon Redshift 之间移动数据。

  • 技能 2.3.2: 管理 S3 生命周期策略来更改 S3 数据的存储层。

  • 技能 2.3.3: 使用 S3 生命周期策略,让数据在到达特定期限时过期。

  • 技能 2.3.4: 管理 S3 版本控制和 DynamoDB TTL。

  • 技能 2.3.5: 删除数据来满足业务和法律要求。

  • 技能 2.3.6: 使用相应的韧性和可用性功能保护数据。

任务 2.4: 设计数据模型和架构演变

  • 技能 2.4.1: 为 Amazon Redshift、DynamoDB 和 Lake Formation 设计架构。

  • 技能 2.4.2: 解决数据特性变化问题。

  • 技能 2.4.3: 执行架构转换(例如,使用 AWS Schema Conversion Tool [AWS SCT] 和 AWS Database Migration Service [AWS DMS] 架构转换)。

  • 技能 2.4.4: 使用 AWS 工具(例如,Amazon SageMaker ML Lineage Tracking 和 Amazon SageMaker Catalog)确定数据血统。

  • 技能 2.4.5: 描述索引编制、分区策略、压缩和其他数据优化技术的最佳实践。

  • 技能 2.4.6: 描述向量化概念(例如,Amazon Bedrock 知识库)。