View a markdown version of this page

AWS Glue DataBrew - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS Glue DataBrew

AWS Glue DataBrew 是完全托管式可视化数据准备服务,用于清理、标准化和转换数据。它与 AWS Glue ETL 的不同之处在于,无需编写代码即可使用。DataBrew 提供 250 多种内置转换,并带有用于创建和管理数据转换作业的可视化点击界面。

DataBrew 在 AWS Glue 的单独控制台视图中可用。它与多个 AWS 原生集成,并支持多种不同的文件格式。有关更多信息,请参阅产品和服务集成

DataBrew 基于以下六个核心概念:

  • 项目 – DataBrew 中的整个数据准备工作空间

  • 数据集 – 结构化或半结构化数据的集合

  • 配方 – 一组数据转换步骤;每个步骤可以包含许多操作

  • 作业 – 一组运行配方或数据配置文件作业的指令 

  • 数据血统 – 在可视界面中跟踪数据以识别其来源

  • 数据配置文件 – 数据形状的摘要视图

AWS Glue DataBrew 与 AWS Glue Studio 集成,因此您可以在 AWS Glue ETL 作业和工作流中编排 DataBrew 配方。DataBrew 配方还可以利用作业书签、自动重试、自动扩缩等 AWS Glue 功能。要开始使用 DataBrew,请使用 AWS Glue DataBrew 示例项目教程。