

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 为创建并运行 Amazon DataZone 数据源 AWS Glue Data Catalog
<a name="create-glue-data-source"></a>

在 Amazon 中 DataZone，您可以创建 AWS Glue Data Catalog 数据源，以便从中导入数据库表的技术元数据 AWS Glue。要为添加数据源 AWS Glue Data Catalog，源数据库必须已存在于 AWS Glue。

创建和运行 AWS Glue 数据源时，会将源 AWS Glue 数据库中的资产添加到您的 Amazon DataZone 项目的库存中。您可以按设定的时间表或按需运行 AWS Glue 数据源，以创建或更新资产的技术元数据。在数据源运行期间，您可以选择将您的资产发布到 Amazon DataZone 目录，从而让所有域用户都能发现这些资产。也可以在编辑项目库存资产的企业元数据后发布这些资产。域用户可以搜索和发现已发布的资产，并请求订阅这些资产。

**添加 AWS Glue 数据源**

1. 导航至 Amazon DataZone 数据门户 URL，然后使用单点登录 (SSO) 或凭证登录 AWS 。如果您是亚马逊 DataZone 管理员，则可以通过 [https://console.aws.amazon.com/datazon](https://console.aws.amazon.com/datazone) e 导航到亚马逊 DataZone 控制台，使用域名创建 AWS 账户 地登录，然后选择**打开**数据门户。

1. 从顶部导航窗格中选择**选择项目**，然后选择要将数据来源添加到的项目。

1. 导航到项目的**数据**选项卡。

1. 从左侧导航窗格中选择**数据来源**，然后选择**创建数据来源**。

1. 配置以下字段：
   + **名称** – 数据来源名称。
   + **描述** – 数据来源描述。

1. 在**数据来源类型**下，选择 **AWS Glue**。

1. 在 **“选择环境”** 下，指定要在其中发布 AWS Glue 表的环境。

1. 在**数据选择**下，提供一个 AWS Glue 数据库并输入您的表选择标准。例如，如果您选择**包括**并输入 `*corporate`，则数据库将包括所有以 `corporate` 一词结尾的源表。

   您可以从下拉列表中选择一个 AWS Glue 数据库，也可以键入数据库名称。下拉列表包括两个数据库：环境的发布数据库和订阅数据库。如果要从并非由环境创建的数据库引入资产，您必须键入数据库的名称，而不是从下拉列表中选择数据库。

   可以为单个数据库中的表添加多个包含和排除规则。也可以使用**添加另一个数据库**按钮来添加多个数据库。

   

1. 在**数据质量**下，可以选择**对此数据来源启用数据质量自动监测功能**。如果您这样做，亚马逊会将您现有的 AWS Glue 数据质量输出 DataZone导入您的亚马逊 DataZone目录中。默认情况下，亚马逊会从 AWS Glue DataZone 导入现有 100 份没有有效期的最新 100 份质量报告。

   Amazon 的数据质量指标 DataZone 可帮助您了解数据源的完整性和准确性。亚马逊从 AWS G DataZone lue 中提取这些数据质量指标，以便在某个时间点（例如在搜索业务数据目录期间）提供背景信息。数据用户可以查看其订阅的资产的数据质量指标随时间变化的情况。数据创建者可以按计划摄取 AWS Glue 数据质量分数。Amazon B DataZone usiness 数据目录还可以通过数据质量显示来自第三方系统的数据质量指标 APIs。有关更多信息，请参阅 [Amazon 的数据质量 DataZone](datazone-data-quality.md)。

1. 选择**下一步**。

1. 对于**发布设置**，选择是否可以在企业数据目录中立即发现资产。如果您仅将资产添加到库存中，则可以稍后选择订阅条款并将资产发布到企业数据目录。

1. 对于**自动生成企业名称**，请选择是否在从来源导入资产时自动为其生成元数据。

1. （可选）对于**元数据表**单，添加表单以定义在资产导入 Amazon 时收集和保存的元数据 DataZone。有关更多信息，请参阅 [在 Amazon 中创建元数据表单 DataZone](create-metadata-form.md)。

1. 在**运行偏好**中，选择何时运行数据来源。
   + **按时间表运行** – 指定数据来源的运行日期和时间。
   + **按需运行** – 可以手动启动数据来源运行。

1. 选择**下一步**。

1. 检查您的数据来源配置，然后选择**创建**。

**注意**  
创建 AWS Glue 数据源时，亚马逊 DataZone 会为环境的 IAM 角色创建 Lake Formation “只读” 权限，该角色用于创建数据源，以访问数据源中使用的 G AWS lue 数据库中的所有表。您可在环境的详细信息页面上，在数据来源下监控这些授权的状态。在向发布环境的 IAM 角色授予访问权限时，亚马逊会向 AWS Glue 数据库 DataZone 添加以下 AWS 标签：`DataZoneDiscoverable_${domainId}: true`  
对于在 Amazon 当前版本之前创建的环境 DataZone，项目成员将无法在 Amazon Athena 中查看已授权的表。