

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 数据库存和在 Amazon 上发布 DataZone
<a name="publishing-data"></a>

本节介绍您要执行的任务和程序，以便在亚马逊上创建数据清单， DataZone 并在亚马逊上发布数据 DataZone。

要使用亚马逊对您的数据 DataZone 进行分类，您必须先将您的数据（资产）作为项目库存带到亚马逊 DataZone。为特定项目创建库存，从而仅允许该项目的成员发现资产。 search/browse 除非明确发布，否则并非所有域用户都可以使用项目清单资产。创建项目库存后，数据所有者可以添加或更新业务名称（资产和架构）、描述（资产和架构）、自述文件、术语表术语（资产和架构）和元数据表单，从而使用所需的业务元数据来整理库存资产。

使用 Amazon DataZone 对您的数据进行分类的下一步是让域名用户可以发现您项目的库存资产。您可以通过将库存资产发布到 Amazon DataZone 目录来做到这一点。只能将最新版本的库存资产发布到目录，并且仅最新发布的版本在发现目录中处于活动状态。如果库存资产在发布到亚马逊 DataZone 目录后进行了更新，则必须再次明确发布该库存资产，以使最新版本出现在发现目录中。

有关更多信息，请参阅 [亚马逊 DataZone 术语和概念](datazone-concepts.md)。

**Topics**
+ [为亚马逊配置 Lake Formation 权限 DataZone](lake-formation-permissions-for-datazone.md)
+ [在 Amazon 中创建自定义资产类型 DataZone](create-asset-types.md)
+ [为创建并运行 Amazon DataZone 数据源 AWS Glue Data Catalog](create-glue-data-source.md)
+ [为亚马逊 Redshift 创建并运行亚马逊 DataZone 数据源](create-redshift-data-source.md)
+ [在 Amazon 中编辑数据源 DataZone](edit-data-source.md)
+ [在 Amazon 中删除数据源 DataZone](delete-data-source.md)
+ [将项目库存中的资产发布到 Amazon DataZone 目录](publishing-data-asset.md)
+ [在 Amazon 中管理库存和整理资产 DataZone](update-metadata.md)
+ [在 Amazon 中手动创建资产 DataZone](create-data-asset-manually.md)
+ [从 Amazon DataZone 目录中取消发布资产](archive-data-asset.md)
+ [删除亚马逊 DataZone 资产](delete-data-asset.md)
+ [手动启动在 Amazon 中运行的数据源 DataZone](manually-start-data-source-run.md)
+ [Amazon 中的资产修订 DataZone](asset-versioning.md)
+ [Amazon 的数据质量 DataZone](datazone-data-quality.md)
+ [在 Amazon 中使用机器学习和生成人工智能 DataZone](autodoc.md)
+ [Amazon 中的数据谱系 DataZone](datazone-data-lineage.md)
+ [针对发布的元数据强制规则](metadata-rules-publishing.md)

# 为亚马逊配置 Lake Formation 权限 DataZone
<a name="lake-formation-permissions-for-datazone"></a>

当您使用内置的数据湖蓝图 (**DefaultDataLake**) 创建环境时，将在该环境的创建过程中在 Amazon DataZone 中添加一个 AWS Glue 数据库。如果要从此 AWS Glue 数据库发布资产，则无需其他权限。

但是，如果您想发布资产并订阅存在于亚马逊 DataZone 环境之外的 AWS Glue 数据库中的资产，则必须明确向亚马逊 DataZone 提供访问此外部 AWS Glue 数据库中表的权限。为此，你必须在 AWS Lake Formation 中完成以下设置，并将必要的 Lake Formation 权限附加到[AmazonDataZoneGlueAccess-<region>-<domainId>](glue-manage-access-role.md)。
+ 使用 Lake Formation 权限模式或**混合访问模式**在 AWS Lake Formation 中为您的数据**湖**配置 Amazon S3 位置。有关更多信息，请参阅 [https://docs.aws.amazon.com/lake-formation/latest/dg/register-data-lake.html](https://docs.aws.amazon.com/lake-formation/latest/dg/register-data-lake.html)。
+ 从亚马逊 DataZone 处理`IAMAllowedPrincipals`权限的 Amazon Lake Formation 表中移除权限。有关更多信息，请参阅 [https://docs.aws.amazon.com/lake-formation/latest/dg/upgrade-glue-lake-formation-background .html。](https://docs.aws.amazon.com/lake-formation/latest/dg/upgrade-glue-lake-formation-background.html)
+ 将以下 AWS Lake Formation 权限附加到[AmazonDataZoneGlueAccess-<region>-<domainId>](glue-manage-access-role.md)：
  + 表所在的数据库的 `Describe` 和 `Describe grantable` 权限
  + `Describe`、`Select``Describe Grantable`、、以上数据库中您 DataZone 要代表您管理访问`Select Grantable`权限的所有表的权限。

**注意**  
亚马逊 DataZone 支持 AWS Lake Formation 混合模式。Lake For AWS mation 混合模式使您可以开始通过 Lake Formation 管理您的 Glue 数据库和表的权限，同时继续保留对这些表和数据库的任何现有 IAM 权限。有关更多信息，请参阅 [亚马逊与 AWS Lake Formation 混合模式 DataZone 集成](hybrid-mode.md)。

有关更多信息，请参阅 [对亚马逊的 AWS Lake Formation 权限进行故障排除 DataZone](troubleshooting-datazone.md#troubleshooting-lake-formation-permissions)。

# 亚马逊与 AWS Lake Formation 混合模式 DataZone 集成
<a name="hybrid-mode"></a>

亚马逊 DataZone 已与 La AWS ke Formation 混合模式集成。这种集成使您能够轻松地通过亚马逊发布和共享您的 AWS Glue 表， DataZone而无需先在 AWS Lake Formation 中注册它们。混合模式允许您开始通过 AWS Lake For AWS mation 管理您的 Glue 表的权限，同时继续保持对这些表的任何现有 IAM 权限。

首先，您可以在 Amazon DataZone 管理控制台中启用**DefaultDataLake**蓝图下的**数据位置注册**设置。

**启用与 AWS Lake Formation 混合模式的集成**

1. 前往位于 [https://console.aws.amazon.com/datazone](https://console.aws.amazon.com/datazone) 的亚马逊 DataZone 控制台，然后使用您的账户凭证登录。

1. 选择 “**查看域**”，然后选择要在其中启用与 AWS Lake Formation 混合模式集成的域。

1. 在域详细信息页面上，导航到**蓝图**选项卡。

1. 从**蓝图**列表中选择**DefaultDataLake**蓝图。

1. 确保 DefaultDataLake 蓝图已启用。如果未启用此蓝图，请按照[在拥有 Amazon DataZone 域 AWS 名的账户中启用内置蓝图](working-with-blueprints.md#enable-default-blueprint)中的步骤操作，在您的 AWS 账户中启用它。

1. 在 DefaultDataLake 详细信息页面上，打开**配置**选项卡，然后选择页面右上角的**编辑**按钮。

1. 选中**数据位置注册**下方的框以启用数据位置注册。

1. 对于数据位置管理角色，您可以创建新 IAM 角色或选择现有 IAM 角色。亚马逊 DataZone 使用此角色通过 Lake Formation 混合访问模式管理对为数据湖选择的 Amazon S3 存储桶的读/写权限。 AWS 有关更多信息，请参阅 [AmazonDataZone<region>S3Manage--<domainId>](AmazonDataZoneS3Manage.md)。

1. 或者，如果您不希望亚马逊在混合模式下自动注册某些 Amazon S3 地点 DataZone ，则可以选择将其排除在外。为此，请完成以下步骤：
   + 选择切换按钮以排除指定的 Amazon S3 位置。
   + 提供要排除的 Amazon S3 存储桶的 URI。
   + 要添加其他存储桶，请选择**添加 S3 位置**。
**注意**  
Amazon DataZone 仅允许排除 S3 根位置。系统将自动从注册中排除根 S3 位置路径内的任何 S3 位置。
   + 选择**保存更改**。

 在 AWS 账户中启用数据位置注册设置后，当数据使用者订阅通过 IAM 权限管理的 AWS Glue 表时，亚马逊 DataZone 将首先以混合模式注册该表的 Amazon S3 位置，然后通过 La AWS ke Formation 管理表的权限，向数据使用者授予访问权限。这样可以确保使用新授予的 La AWS ke Formation 权限继续存在表上的 IAM 权限，而不会中断任何现有工作流程。

## 在亚马逊启用 AWS Lake Formation 混合模式集成时如何处理加密的亚马逊 S3 位置 DataZone
<a name="hybrid-mode-encryption"></a>

如果您使用的是使用客户托 AWS 管或托管 KMS 密钥加密的 Amazon S3 位置，则 **AmazonDataZoneS3Manag** e 角色必须有权使用 KMS 密钥加密和解密数据，或者 KMS 密钥策略必须向该角色授予密钥使用权限。

如果您的 Amazon S3 位置使用 AWS 托管密钥加密，请向该**AmazonDataZoneDataLocationManagement**角色添加以下内联策略：

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "kms:Encrypt",
                "kms:Decrypt",
                "kms:ReEncrypt*",
                "kms:GenerateDataKey*",
                "kms:DescribeKey"
            ],
            "Resource": "arn:aws:kms:us-east-1:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"
        }
    ]
}
```

------

如果您的 Amazon S3 位置已使用客户自主管理型密钥进行加密，请执行以下操作：

1. 在 [https://console.aws.amazon.com/ AWS kms 上打开 KMS](https://console.aws.amazon.com/kms) 控制台，然后以 AWS 身份和访问管理 (IAM) 管理用户或可以修改用于加密位置的 KMS 密钥策略的用户身份登录。

1. 在导航窗格中，选择**客户自主管理型密钥**，然后选择所需的 KMS 密钥的名称。

1. 在 KMS 密钥详细信息页面上，选择**密钥策略**选项卡，然后执行以下任一操作将您的自定义角色或 Lake Formation 服务相关角色添加为 KMS 密钥用户：
   + 如果显示默认视图（包括 “密钥管理员”、“密钥删除”、“密钥用户” 和 “其他 AWS 账户” 部分），请在 “**密钥用户**” 部分下添加**AmazonDataZoneDataLocationManagement**角色。
   + 如果显示密钥策略 (JSON)，请编辑策略以向 “允许使用密钥” 对象添加**AmazonDataZoneDataLocationManagement**角色，如以下示例所示

     ```
     ...
             {
                 "Sid": "Allow use of the key",
                 "Effect": "Allow",
                 "Principal": {
                     "AWS": [
                         "arn:aws:iam::111122223333:role/service-role/AmazonDataZoneDataLocationManage-<region>-<domain-id>"
                     ]
                 },
                 "Action": [
                     "kms:Encrypt",
                     "kms:Decrypt",
                     "kms:ReEncrypt*",
                     "kms:GenerateDataKey*",
                     "kms:DescribeKey"
                 ],
                 "Resource": "*"
             },
             ...
     ```

**注意**  
如果 KMS 密钥或 Amazon S3 位置与数据目录不在同[一个 AWS 账户中，请按照跨 AWS 账户注册加密的 Amazon S3 位置](https://docs.aws.amazon.com/lake-formation/latest/dg/register-cross-encrypted.html)中的说明进行操作。

# 在 Amazon 中创建自定义资产类型 DataZone
<a name="create-asset-types"></a>

在 Amazon 中 DataZone，资产代表特定类型的数据资源，例如数据库表、控制面板或机器学习模型。为了在描述目录资产时保持一致性和标准化，Amazon DataZone 域必须有一组资产类型来定义资产在目录中的表示方式。资产类型定义特定类型的资产的架构。资产类型具有一组必填和可选的可命名元数据表单类型（例如 GovForm 或 GovernanceFormType）。Amazon 中的资产类型 DataZone 是版本化的。在创建资产时，将根据资产类型（通常是最新版本）定义的架构来验证资产，如果指定的结构无效，则将无法创建资产。

**系统资产类型**-Ama DataZone zon 预置服务拥有的系统资产类型（包括 GlueTableAssetType GlueViewAssetType RedshiftTableAssetType、 RedshiftViewAssetType、和 S3ObjectCollectionAssetType）和系统表单类型（包括 DataSourceReferenceFormType AssetCommonDetailsFormType、和 SubscriptionTermsFormType）。无法编辑系统资产类型。

**自定义资产类型** – 要创建自定义资产类型，首先创建要在表单类型中使用的所需的元数据表单类型和术语表。之后，您可以通过指定名称、描述和关联的元数据表单（必需或可选）来创建自定义资产类型。

对于具有结构化数据的资产类型，要表示数据门户中的列架构，您可以使用 `RelationalTableFormType` 向列添加技术元数据（包括列名、描述和数据类型），并使用 ` ColumnBusinessMetadataForm` 添加列的企业描述，包括企业名称、术语表术语和自定义键值对。

要通过数据门户创建自定义资产类型，请完成以下步骤：

1. 导航至 Amazon DataZone 数据门户 URL，然后使用单点登录 (SSO) 或凭证登录 AWS 。如果您是亚马逊 DataZone 管理员，则可以通过 [https://console.aws.amazon.com/datazon](https://console.aws.amazon.com/datazone) e 导航到亚马逊 DataZone 控制台，使用域名创建 AWS 账户 地登录，然后选择**打开**数据门户。

1. 从顶部导航窗格中选择**选择项目**，然后选择要在其中创建自定义资产类型的项目。

1. 导航到项目的**数据**选项卡。

1. 从左侧导航窗格中选择**资产类型**，然后选择**创建资产类型**。

1. 指定以下内容，然后选择**创建**。
   + **名称** – 自定义资产类型的名称 
   + **描述** – 自定义资产类型的描述。
   + **选择“添加元数据表单”**以将元数据表单添加到此自定义资产类型。

1. 创建自定义资产类型后，您可以使用它创建资产。

要通过创建自定义资产类型 APIs，请完成以下步骤：

1. 通过调用 `CreateFormType` API 操作来创建元数据表单类型。

   以下是 Amazon 的 SageMaker 示例：

   ```
   m_model = "
   
   structure SageMakerModelFormType {
      @required
      @amazon.datazone#searchable
      modelName: String
   
      @required
      modelArn: String
   
      @required
      creationTime: String
   }
   "
   
   CreateFormType(
       domainIdentifier="my-dz-domain",
       owningProjectIdentifier="d4bywm0cja1dbb",
       name="SageMakerModelFormType",
       model=m_model
       status="ENABLED"
       )
   ```

1. 接下来，您可以通过调用 `CreateAssetType` API 操作来创建资产类型。您只能 DataZone APIs 使用可用的系统表单类型（`SubscriptionTermsFormType`在以下示例中）或自定义表单类型通过 Amazon 创建资产类型。对于系统表单类型，类型名称必须以 `amazon.datazone` 开头。

   ```
   CreateAssetType(
       domainIdentifier="my-dz-domain",
       owningProjectIdentifier="d4bywm0cja1dbb",
       name="SageMakerModelAssetType",
       formsInput={
           "SageMakerModelForm": {
               "typeIdentifier": "SageMakerModelFormType",
               "typeRevision": 7,
               "required": True,
           },
           "SubscriptionTerms": {
               "typeIdentifier": "amazon.datazone.SubscriptionTermsFormType",
               "typeRevision": 1,
               "required": False,
           },
       },
   )
   ```

   以下是为结构化数据创建资产类型的示例：

   ```
   CreateAssetType(
       domainIdentifier="my-dz-domain",
       owningProjectIdentifier="d4bywm0cja1dbb",
       name="OnPremMySQLAssetType",
       formsInput={
           "OnpremMySQLForm": {
               "typeIdentifier": "OnpremMySQLFormType",
               "typeRevision": 5,
               "required": True,
           },
           "RelationalTableForm": {
               "typeIdentifier": "amazon.datazone.RelationalTableFormType",
               "typeRevision": 1,
               "required": True,
           },
           "ColumnBusinessMetadataForm": {
               "typeIdentifier": "amazon.datazone.ColumnBusinessMetadataFormType",
               "typeRevision": 1,
               "required": False,
           },
           "SubscriptionTerms": {
               "typeIdentifier": "amazon.datazone.SubscriptionTermsFormType",
               "typeRevision": 1,
               "required": False,
           },
       },
   )
   ```

1. 现在，您可以使用上述步骤中创建的自定义资产类型来创建资产。

   ```
   CreateAsset(
      domainIdentifier="my-dz-domain",
      owningProjectIdentifier="d4bywm0cja1dbb",
      typeIdentifier="SageMakerModelAssetType",
      name="MyModelAsset",
      glossaryTerms="xxx",
      formsInput=[{
           "formName": "SageMakerModelForm",
           "typeIdentifier": "SageMakerModelFormType",
           "content": "{\n \"ModelName\" : \"sample-ModelName\",\n \"ModelArn\" : \"999999911111\",\n \"CreationTime\" : \"2025-01-01 18:00:00.000\"}"
           }
           ]
   )
   ```

   在此示例中，您创建的是结构化数据资产：

   ```
   CreateAsset(
      domainIdentifier="my-dz-domain",
      owningProjectIdentifier="d4bywm0cja1dbb",
      typeIdentifier="OnPremMySQLAssetType",
      name="MyModelAsset",
      glossaryTerms="xxx",
      formsInput=[{
           "formName": "RelationalTableForm",
           "typeIdentifier": "amazon.datazone.RelationalTableFormType",
           "content": ".."
           },
           {
           "formName": "OnpremMySQLForm",
           "typeIdentifier": "OnpremMySQLFormType",
           "content": ".."
           },
           {
           "formName": "mySQLTableForm",
           "typeIdentifier": "MySQLTableFormType",
           "typeRevision": "1",
           "content": ".."
           },
           {
           "formName": "AssetCommonDetailsForm",
           "typeIdentifier": "amazon.datazone.AssetCommonDetailsFormType",
           "content": "..."
           }, 
           .....
           ]
   )
   ```

# 为创建并运行 Amazon DataZone 数据源 AWS Glue Data Catalog
<a name="create-glue-data-source"></a>

在 Amazon 中 DataZone，您可以创建 AWS Glue Data Catalog 数据源，以便从中导入数据库表的技术元数据 AWS Glue。要为添加数据源 AWS Glue Data Catalog，源数据库必须已存在于 AWS Glue。

创建和运行 AWS Glue 数据源时，会将源 AWS Glue 数据库中的资产添加到您的 Amazon DataZone 项目的库存中。您可以按设定的时间表或按需运行 AWS Glue 数据源，以创建或更新资产的技术元数据。在数据源运行期间，您可以选择将您的资产发布到 Amazon DataZone 目录，从而让所有域用户都能发现这些资产。也可以在编辑项目库存资产的企业元数据后发布这些资产。域用户可以搜索和发现已发布的资产，并请求订阅这些资产。

**添加 AWS Glue 数据源**

1. 导航至 Amazon DataZone 数据门户 URL，然后使用单点登录 (SSO) 或凭证登录 AWS 。如果您是亚马逊 DataZone 管理员，则可以通过 [https://console.aws.amazon.com/datazon](https://console.aws.amazon.com/datazone) e 导航到亚马逊 DataZone 控制台，使用域名创建 AWS 账户 地登录，然后选择**打开**数据门户。

1. 从顶部导航窗格中选择**选择项目**，然后选择要将数据来源添加到的项目。

1. 导航到项目的**数据**选项卡。

1. 从左侧导航窗格中选择**数据来源**，然后选择**创建数据来源**。

1. 配置以下字段：
   + **名称** – 数据来源名称。
   + **描述** – 数据来源描述。

1. 在**数据来源类型**下，选择 **AWS Glue**。

1. 在 **“选择环境”** 下，指定要在其中发布 AWS Glue 表的环境。

1. 在**数据选择**下，提供一个 AWS Glue 数据库并输入您的表选择标准。例如，如果您选择**包括**并输入 `*corporate`，则数据库将包括所有以 `corporate` 一词结尾的源表。

   您可以从下拉列表中选择一个 AWS Glue 数据库，也可以键入数据库名称。下拉列表包括两个数据库：环境的发布数据库和订阅数据库。如果要从并非由环境创建的数据库引入资产，您必须键入数据库的名称，而不是从下拉列表中选择数据库。

   可以为单个数据库中的表添加多个包含和排除规则。也可以使用**添加另一个数据库**按钮来添加多个数据库。

   

1. 在**数据质量**下，可以选择**对此数据来源启用数据质量自动监测功能**。如果您这样做，亚马逊会将您现有的 AWS Glue 数据质量输出 DataZone导入您的亚马逊 DataZone目录中。默认情况下，亚马逊会从 AWS Glue DataZone 导入现有 100 份没有有效期的最新 100 份质量报告。

   Amazon 的数据质量指标 DataZone 可帮助您了解数据源的完整性和准确性。亚马逊从 AWS G DataZone lue 中提取这些数据质量指标，以便在某个时间点（例如在搜索业务数据目录期间）提供背景信息。数据用户可以查看其订阅的资产的数据质量指标随时间变化的情况。数据创建者可以按计划摄取 AWS Glue 数据质量分数。Amazon B DataZone usiness 数据目录还可以通过数据质量显示来自第三方系统的数据质量指标 APIs。有关更多信息，请参阅 [Amazon 的数据质量 DataZone](datazone-data-quality.md)。

1. 选择**下一步**。

1. 对于**发布设置**，选择是否可以在企业数据目录中立即发现资产。如果您仅将资产添加到库存中，则可以稍后选择订阅条款并将资产发布到企业数据目录。

1. 对于**自动生成企业名称**，请选择是否在从来源导入资产时自动为其生成元数据。

1. （可选）对于**元数据表**单，添加表单以定义在资产导入 Amazon 时收集和保存的元数据 DataZone。有关更多信息，请参阅 [在 Amazon 中创建元数据表单 DataZone](create-metadata-form.md)。

1. 在**运行偏好**中，选择何时运行数据来源。
   + **按时间表运行** – 指定数据来源的运行日期和时间。
   + **按需运行** – 可以手动启动数据来源运行。

1. 选择**下一步**。

1. 检查您的数据来源配置，然后选择**创建**。

**注意**  
创建 AWS Glue 数据源时，亚马逊 DataZone 会为环境的 IAM 角色创建 Lake Formation “只读” 权限，该角色用于创建数据源，以访问数据源中使用的 G AWS lue 数据库中的所有表。您可在环境的详细信息页面上，在数据来源下监控这些授权的状态。在向发布环境的 IAM 角色授予访问权限时，亚马逊会向 AWS Glue 数据库 DataZone 添加以下 AWS 标签：`DataZoneDiscoverable_${domainId}: true`  
对于在 Amazon 当前版本之前创建的环境 DataZone，项目成员将无法在 Amazon Athena 中查看已授权的表。

# 为亚马逊 Redshift 创建并运行亚马逊 DataZone 数据源
<a name="create-redshift-data-source"></a>

在亚马逊中 DataZone，您可以创建亚马逊 Redshift 数据源，以便从亚马逊 Redshift 数据仓库中导入数据库表和视图的技术元数据。要为亚马逊 Redshift 添加亚马逊 DataZone 数据源，源数据仓库必须已经存在于亚马逊 Redshift 中。

创建和运行 Amazon Redshift 数据源时，您可以将源亚马逊 Redshift 数据仓库中的资产添加到您的 DataZone 亚马逊项目的库存中。您可以按设定的时间表或按需运行 Amazon Redshift 数据来源，以创建或更新资产的技术元数据。在数据源运行期间，您可以选择将项目库存资产发布到 Amazon DataZone 目录，从而使所有域用户都能发现这些资产。也可以在编辑库存资产的企业元数据后发布这些资产。域用户可以搜索和发现已发布的资产，并请求订阅这些资产。

**添加 Amazon Redshift 数据来源**

1. 导航至 Amazon DataZone 数据门户 URL，然后使用单点登录 (SSO) 或凭证登录 AWS 。如果您是亚马逊 DataZone 管理员，则可以通过 [https://console.aws.amazon.com/datazon](https://console.aws.amazon.com/datazone) e 导航到亚马逊 DataZone 控制台，使用域名创建 AWS 账户 地登录，然后选择**打开**数据门户。

1. 从顶部导航窗格中选择**选择项目**，然后选择要将数据来源添加到的项目。

1. 导航到项目的**数据**选项卡。

1. 从左侧导航窗格中选择**数据来源**，然后选择**创建数据来源**。

1. 配置以下字段：
   + **名称** – 数据来源名称。
   + **描述** – 数据来源描述。

1. 在**数据来源类型**下，选择 **Amazon Redshift**。

1. 在**选择环境**下，指定要在其中发布 Amazon Redshift 表的环境。

1. 根据您选择的环境，亚马逊 DataZone 将自动直接从环境中应用Amazon Redshift凭证和其他参数，或者允许您选择自己的凭证和其他参数。
   + 如果您选择的环境仅允许通过环境的默认 Amazon Redshift 架构进行发布，则亚马逊 DataZone 将自动应用亚马逊 Redshift 凭证和其他参数，包括亚马逊 Redshift 集群或工作组名称 AWS 、密钥、数据库名称和架构名称。您无法编辑这些自动填充的参数。
   + 如果您选择的环境不允许发布任何数据，则将无法继续创建数据来源。
   + 如果您选择的环境允许从任何架构发布数据，则可以选择使用该环境中的凭证和其他 Amazon Redshift 参数，也可以输入您自己的凭证/参数。

1. 如果您选择使用自己的凭证来创建数据来源，请提供以下详细信息：
   + 在**提供 Amazon Redshift 凭证**下，选择是使用预置的 Amazon Redshift 集群还是 Amazon Redshift Serverless 工作区作为数据来源。
   + 根据您在上述步骤中的选择，从下拉菜单中选择您的 Amazon Redshift 集群或工作空间，然后在 Secr AWS ets Manager 中选择用于身份验证的密钥。可以选择现有密钥或创建新密钥。
   + 为了使现有密钥显示在下拉列表中，请确保您在 Secrets Manager 中的 AWS 密钥包含以下标签（键/值）：
     + AmazonDataZoneProject: <projectID> 
     + AmazonDataZoneDomain: <domainID>

     如果您选择创建新密钥，系统会自动使用上面引用的标签来标记密钥，无需执行任何额外步骤。有关更多信息，请参阅[中存储数据库凭据 AWS Secrets Manager](https://docs.aws.amazon.com/redshift/latest/mgmt/data-api-access.html#data-api-secrets)。

     为创建数据源而提供的 AWS 密钥中的 Amazon Redshift 用户必须拥有要发布的表的`SELECT`权限。如果您希望 Amazon DataZone 同时代表您管理订阅（访问权限），则 AWS 密钥中的数据库用户还必须具有以下权限：
     + `CREATE DATASHARE`
     + `ALTER DATASHARE`
     + `DROP DATASHARE`

1. 在**数据选择**下，提供一个 Amazon Redshift 数据库、架构，并输入您的表或视图选择标准。例如，如果您选择**包括**并输入 `*corporate`，则资产将包括所有以 `corporate` 一词结尾的源表。

   可以为单个数据库中的表添加多个包含规则。也可以使用**添加另一个数据库**按钮来添加多个数据库。

1. 选择**下一步**。

1. 对于**发布设置**，选择是否可以在数据目录中立即发现资产。如果您仅将资产添加到库存中，则可以稍后选择订阅条款并将资产发布到企业数据目录。

1. 对于**自动生成企业名称**，请选择是否在从来源发布和更新资产时自动为其生成元数据。

1. （可选）对于**元数据表**单，添加表单以定义在资产导入 Amazon 时收集和保存的元数据 DataZone。有关更多信息，请参阅 [在 Amazon 中创建元数据表单 DataZone](create-metadata-form.md)。

1. 在**运行偏好**中，选择何时运行数据来源。
   + **按时间表运行** – 指定数据来源的运行日期和时间。
   + **按需运行** – 可以手动启动数据来源运行。

1. 选择**下一步**。

1. 检查您的数据来源配置，然后选择**创建**。

**注意**  
创建 Amazon Redshift 数据源时，亚马逊会 DataZone 授予对用于创建数据源的环境的 “只读” 访问权限，以访问数据源中使用的 Amazon Redshift 架构中的所有表。您可在环境的详细信息页面上，在数据来源下监控这些授权的状态。  
使用不同于创建环境的 Amazon Redshift 集群或无服务器工作组时，必须确保将以下 AWS 标签添加到集群或工作组。必须执行此操作才能使环境用户能够在 Amazon Redshift 查询编辑器 V2 中查看授权的数据库：`DataZoneDiscoverable_${domainId}: true`  
对于在 Amazon 当前版本之前创建的环境 DataZone，项目成员将无法在 Amazon Redshift 中查看已授权的表。

# 在 Amazon 中编辑数据源 DataZone
<a name="edit-data-source"></a>

创建 Amazon DataZone 数据源后，您可以随时对其进行修改以更改源详细信息或数据选择标准。如果您不再需要某个数据来源，可以将其删除。

要完成这些步骤，您必须附加**AmazonDataZoneFullAccess** AWS 托管策略。有关更多信息，请参阅 [AWS Amazon 的托管政策 DataZone](security-iam-awsmanpol.md)。

您可以编辑 Amazon DataZone 数据源以修改其数据选择设置，包括添加、删除或更改表选择标准。还可以添加和删除数据库。您无法更改数据来源类型或在其中发布数据来源的环境。

**编辑数据来源**

1. 导航至 Amazon DataZone 数据门户 URL，然后使用单点登录 (SSO) 或凭证登录 AWS 。如果您是亚马逊 DataZone 管理员，则可以通过 [https://console.aws.amazon.com/datazon](https://console.aws.amazon.com/datazone) e 导航到亚马逊 DataZone 控制台，使用域名创建 AWS 账户 地登录，然后选择**打开**数据门户。

1. 从顶部导航窗格中选择**选择项目**，然后选择数据来源所属的项目。

1. 导航到项目的**数据**选项卡。

1. 从左侧导航窗格中选择**数据来源**，然后选择要修改的数据来源。

1. 导航到**数据来源定义**选项卡，然后选择**编辑**。

1. 对数据来源定义进行更改。您可以更新数据来源详细信息并更改数据选择标准。

1. 完成更改后，选择**保存**。

# 在 Amazon 中删除数据源 DataZone
<a name="delete-data-source"></a>

创建 Amazon DataZone 数据源后，您可以随时对其进行修改以更改源详细信息或数据选择标准。

要完成这些步骤，您必须附加**AmazonDataZoneFullAccess** AWS 托管策略。有关更多信息，请参阅 [AWS Amazon 的托管政策 DataZone](security-iam-awsmanpol.md)。

当您不再需要 Amazon DataZone 数据源时，可以将其永久删除。删除数据来源后，仍可在目录中使用该数据来源中的所有资产，并且用户仍可以订阅它们。但是，资产将停止接收来自该来源的更新。建议您先将依赖资产移至其他数据来源，然后再删除该数据来源。

**注意**  
您必须先删除数据来源中的所有履行，之后才能将其删除。有关更多信息，请参阅 [Amazon DataZone 数据发现、订阅和使用](discover-subscribe-consume-data.md)。

**删除数据来源**

1. 在项目的**数据**选项卡上，从左侧导航窗格中选择**数据来源**。

1. 选择要删除的数据来源。

1. 依次选择**操作**和**删除数据来源**，然后确认删除。

# 将项目库存中的资产发布到 Amazon DataZone 目录
<a name="publishing-data-asset"></a>

您可以将项目清单中的亚马逊 DataZone 资产及其元数据发布到亚马逊 DataZone 目录中。只能将资产的最新版本发布到目录。

将资产发布到目录时，请注意以下几点：
+ 要将资产发布到目录，您必须是该项目的所有者或贡献者。
+ 对于亚马逊 Redshift 资产，请确保与发布商和订阅者集群关联的亚马逊 Redshift 集群满足亚马逊 Redshift 数据共享的所有要求，以便亚马逊 DataZone 能够管理 Redshift 表和视图的访问权限。请参阅 [Amazon Redshift 的数据共享概念](https://docs.aws.amazon.com/redshift/latest/dg/concepts.html)。
+ 亚马逊 DataZone 仅支持对从和亚马逊 Redshift 发布 AWS Glue Data Catalog 的资产进行访问管理。对于所有其他资产，例如 Amazon S3 对象，Amazon DataZone 不管理已批准订阅者的访问权限。如果您订阅了这些非托管资产，则会收到以下消息：

  `Subscription approval does not provide access to data. Subscription grants on this asset are not managed by Amazon DataZone. For more information or help, reach out to your administrator.`

## 在 Amazon 上发布资产 DataZone
<a name="publish-data-asset"></a>

如果您在创建数据来源时未选择使资产能够立即在数据目录中被发现，请执行以下步骤以便稍后发布资产。

**发布资产**

1. 导航至 Amazon DataZone 数据门户 URL，然后使用单点登录 (SSO) 或凭证登录 AWS 。如果您是亚马逊 DataZone管理员，则可以通过 [https://console.aws.amazon.com/datazon](https://console.aws.amazon.com/datazone) e 导航到亚马逊 DataZone 控制台，使用域名创建 AWS 账户 地登录，然后选择**打开**数据门户。

1. 从顶部导航窗格中选择**选择项目**，然后选择资产所属的项目。

1. 导航到项目的**数据**选项卡。

1. 从左侧导航窗格中选择**库存数据**，然后选择要发布的资产。
**注意**  
默认情况下，所有资产都需要订阅批准，这意味着数据所有者必须批准针对资产的所有订阅请求。如果您想在发布资产前更改此设置，请打开“资产详情”并选择**订阅批准**旁边的**编辑**。稍后可通过修改并重新发布资产来更改此设置。

1. 选择**发布资产**。这会将资产直接发布到目录。

   如果您对资产进行了更改（例如，修改其批准要求），则可以选择**重新发布**以将更新发布到目录。

# 在 Amazon 中管理库存和整理资产 DataZone
<a name="update-metadata"></a>

要使用亚马逊对您的数据 DataZone 进行分类，您必须先将您的数据（资产）作为项目库存带到亚马逊 DataZone。为特定项目创建库存，从而仅允许该项目的成员发现资产。

在项目库存中创建资产后，可以整理其元数据。例如，您可以编辑资产的名称、描述或自述文件。每次编辑资产时都会创建资源的新版本。可以使用资产详情页面上的“历史记录”选项卡来查看所有资产版本。

可以编辑**自述文件**部分，并为资产添加丰富描述。**自述文件**部分支持 markdown，这可让您根据需要设置描述的格式，并向使用者描述有关资产的关键信息。

可以通过填写可用表单在资产级别添加术语表术语。

要整理架构，您可以查看列，添加企业名称和描述，并在列级别添加术语表术语。

如果在创建数据来源时启用了自动元数据生成，则可以逐个或一次性接受/拒绝资产和列的企业名称。

也可以编辑订阅条款以指定资产是否需要获得批准。

借 DataZone 助 Amazon 中的元数据表单，您可以通过添加自定义属性（例如，销售区域、销售年度和销售季度）来扩展数据资产的元数据模型。附加到某个资产类型的元数据表单将应用于从该资产类型创建的所有资产。您还可以在数据来源运行过程中或创建数据来源后，向单个资产添加其他元数据表单。有关创建新表单的信息，请参阅[在 Amazon 中创建元数据表单 DataZone](create-metadata-form.md)。

要更新资产的元数据，您必须是该资产所属项目的所有者或贡献者。

**更新资产的元数据**

1. 导航至 Amazon DataZone 数据门户 URL，然后使用单点登录 (SSO) 或凭证登录 AWS 。如果您是亚马逊 DataZone 管理员，则可以通过 [https://console.aws.amazon.com/datazon](https://console.aws.amazon.com/datazone) e 导航到亚马逊 DataZone 控制台，使用域名创建 AWS 账户 地登录，然后选择**打开**数据门户。

1. 从顶部导航窗格中选择**选择项目**，然后选择包含要更新其元数据的资产的项目。

1. 导航到项目的**数据**选项卡。

1. 从左侧导航窗格中选择**库存数据**，然后选择要更新其元数据的资产的名称。

1. 在资产详情页面上的**元数据表单**下，选择**编辑**并根据需要编辑现有表单。您还可以为资产附加其他元数据表单。有关更多信息，请参阅 [将其他元数据表单附加到资产](#update-metadata-data-steward)。

1. 更新完后，选择**保存表单**。

   当您保存表单时，Amazon DataZone 会生成该资产的新库存版本。要将更新后的版本发布到目录，请选择**重新发布资产**。

## 将其他元数据表单附加到资产
<a name="update-metadata-data-steward"></a>

默认情况下，附加到某个域的元数据表单将附加到已发布到该域的所有资产。数据发布者可以将其他元数据表单与单个资产关联，从而提供更多上下文信息。

**将其他元数据表单附加到资产**

1. 导航至 Amazon DataZone 数据门户 URL，然后使用单点登录 (SSO) 或凭证登录 AWS 。如果您是亚马逊 DataZone管理员，则可以通过 [https://console.aws.amazon.com/datazon](https://console.aws.amazon.com/datazone) e 导航到亚马逊 DataZone 控制台，使用域名创建 AWS 账户 地登录，然后选择**打开**数据门户。

1. 从顶部导航窗格中选择**选择项目**，然后选择包含要将元数据添加到的资产的项目。

1. 导航到项目的**数据**选项卡。

1. 从左侧导航窗格中选择**库存数据**，然后选择要将元数据添加到的资产的名称。

1. 在资产详情页面上的**元数据表单**下，选择**添加表单**。

1. 选择要添加到资产的表单，然后选择**添加表单**。

1. 为每个元数据字段输入值，然后选择**保存表单**。

   当您保存表单时，Amazon DataZone 会生成该资产的新库存版本。要将更新后的版本发布到目录，请选择**重新发布资产**。

## 在 Amazon 中进行整理后，将资产发布到目录中 DataZone
<a name="publish-asset-after-curation"></a>

一旦对资产管理感到满意，数据所有者就可以将资产版本发布到 Amazon DataZone 目录中，从而使其可供所有域名用户发现。资产显示库存版本和已发布的版本。在发现目录中，仅显示最新的已发布版本。如果元数据在发布后进行了更新，则新的库存版本将用于发布到目录。

# 在 Amazon 中手动创建资产 DataZone
<a name="create-data-asset-manually"></a>

在 Amazon DataZone 中，资产是呈现单个物理数据对象（例如表、控制面板、文件）或虚拟数据对象（例如视图）的实体。有关更多信息，请参阅 [亚马逊 DataZone 术语和概念](datazone-concepts.md)。手动发布资产是一次性操作。您未指定资产的运行时间表，因此资产在其来源发生更改时不会自动更新。

要通过项目手动创建资产，您必须是项目的所有者或贡献者。

**手动创建资产**

1. 导航至 Amazon DataZone 数据门户 URL，然后使用单点登录 (SSO) 或凭证登录 AWS 。如果您是亚马逊 DataZone 管理员，则可以通过 [https://console.aws.amazon.com/datazon](https://console.aws.amazon.com/datazone) e 导航到亚马逊 DataZone 控制台，使用域名创建 AWS 账户 地登录，然后选择**打开**数据门户。

1. 从顶部导航窗格中选择**选择项目**，然后选择要为其创建资产的项目。

1. 导航到项目的**数据**选项卡。

1. 从左侧导航窗格中选择**数据来源**，然后选择**创建数据资产**。

1. 对于**资产详情**，请配置以下设置：
   + **资产类型** – 资产的类型。
   + **名称** – 资产的名称。
   + **描述** – 资产的描述。

1. 对于 **S3 位置**，输入源 S3 存储桶的 Amazon 资源名称（ARN）。

   （可选）输入 S3 接入点。有关更多信息，请参阅[使用 Amazon S3 接入点管理数据访问](https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-points.html)。

1. 对于**发布设置**，选择是否可以在目录中立即发现资产。如果您仅将资产添加到库存中，则可以稍后选择订阅条款以将资产发布到目录。

1. 选择**创建**。

   在创建资产后，将资产作为活跃资产直接发布到目录，或将资产存储在库存中直到您决定发布它为止。

# 从 Amazon DataZone 目录中取消发布资产
<a name="archive-data-asset"></a>

当您从目录中取消发布某项 Amazon DataZone 资产时，该资产将不再出现在全球搜索结果中。新用户将无法在目录中找到或订阅资产清单，而所有现有订阅将保持不变。

要取消发布某个资产，您必须是该资产所属项目的所有者或贡献者：

**取消发布资产**

1. 导航至 Amazon DataZone 数据门户 URL，然后使用单点登录 (SSO) 或凭证登录 AWS 。如果您是亚马逊 DataZone 管理员，则可以通过 [https://console.aws.amazon.com/datazon](https://console.aws.amazon.com/datazone) e 导航到亚马逊 DataZone 控制台，使用域名创建 AWS 账户 地登录，然后选择**打开**数据门户。

1. 从顶部导航窗格中选择**选择项目**，然后选择资产所属的项目。

1. 导航到项目的**数据**选项卡。

1. 从左侧导航窗格中选择**已发布的数据**。

1. 从已发布的资产列表中找到该资产，然后选择**取消发布**。

   这将从目录中删除资产。可以随时通过选择**发布**来重新发布资产。

# 删除亚马逊 DataZone 资产
<a name="delete-data-asset"></a>

如果您不再需要 Amazon 中的某项资产 DataZone，则可以将其永久删除。从目录中删除资产的过程与从目录中取消发布资产的过程不同。您可以从目录中删除某个资产及其相关清单，使其不在显示在任何搜索结果中。要删除资产清单，您必须先撤销其所有订阅。

要删除某个资产，您必须是该资产所属项目的所有者或贡献者：

**注意**  
要删除资产清单，您必须先撤销该资产的所有现有订阅。您无法删除具有现有订阅用户的资产清单。

**删除资产**

1. 导航至 Amazon DataZone 数据门户 URL，然后使用单点登录 (SSO) 或凭证登录 AWS 。如果您是亚马逊 DataZone 管理员，则可以通过 [https://console.aws.amazon.com/datazon](https://console.aws.amazon.com/datazone) e 导航到亚马逊 DataZone 控制台，使用域名创建 AWS 账户 地登录，然后选择**打开**数据门户。

1. 从顶部导航窗格中选择**选择项目**，然后选择包含要删除的资产的项目。

1. 导航到项目的**数据**选项卡。

1. 从左侧导航窗格中选择**已发布的数据**，然后找到并选择要删除的资产。这将打开资产详情页面。

1. 依次选择**操作**和**删除**，然后确认删除。

   在删除资产后，便无法再查看资产，并且用户无法订阅资产。

# 手动启动在 Amazon 中运行的数据源 DataZone
<a name="manually-start-data-source-run"></a>

当您运行数据源时，Amazon 会从源中 DataZone 提取所有新的或修改过的元数据，并更新库存中的关联资产。向 Amazon 添加数据源时 DataZone，您需要指定该源的运行首选项，该首选项定义了数据源是按计划运行还是按需运行。如果来源按需运行，则必须手动启动数据来源运行。

即使来源按时间表运行，也可以随时手动运行来源。向资产添加业务元数据后，您可以选择资产并将其发布到 Amazon DataZone 目录，以便所有域名用户都能发现这些资产。仅已发布的资产可供其他域用户搜索。

**手动运行数据来源**

1. 导航至 Amazon DataZone 数据门户 URL，然后使用单点登录 (SSO) 或凭证登录 AWS 。如果您是亚马逊 DataZone 管理员，则可以通过 [https://console.aws.amazon.com/datazon](https://console.aws.amazon.com/datazone) e 导航到亚马逊 DataZone 控制台，使用域名创建 AWS 账户 地登录，然后选择**打开**数据门户。

1. 从顶部导航窗格中选择**选择项目**，然后选择数据来源所属的项目。

1. 导航到项目的**数据**选项卡。

1. 从左侧导航窗格中选择**数据来源**，然后找到并选择要运行的数据来源。这将打开数据来源详细信息页面。

1. 选择**按需运行**。

   当 Amazon 使用源中的最新数据 DataZone 更新资产元数据时，数据源状态将更改`Running`为。可以在**数据来源运行**选项卡上监控运行的状态。

# Amazon 中的资产修订 DataZone
<a name="asset-versioning"></a>

当您编辑资产的业务或技术元数据时，Amazon 会 DataZone 增加该资产的修订量。这些编辑包括修改资产名称、描述、词汇表、列名、元数据表单和元数据表单字段值。可以通过手动编辑、数据来源作业运行或 API 操作执行这些更改。每当您对资产进行编辑时，Amazon 都会 DataZone 自动生成新的资产修订。

在更新资产并生成新修订后，您必须将新修订发布到目录以使其更新并可供订阅用户使用。有关更多信息，请参阅 [将项目库存中的资产发布到 Amazon DataZone 目录](publishing-data-asset.md)。只能将资产的最新版本发布到目录。

**查看资产的过去修订**

1. 导航至 Amazon DataZone 数据门户 URL，然后使用单点登录 (SSO) 或凭证登录 AWS 。如果您是亚马逊 DataZone 管理员，则可以通过 [https://console.aws.amazon.com/datazon](https://console.aws.amazon.com/datazone) e 导航到亚马逊 DataZone 控制台，使用域名创建 AWS 账户 地登录，然后选择**打开**数据门户。

1. 从顶部导航窗格中选择**选择项目**，然后选择包含资产的项目。

1. 导航到项目的**数据**选项卡，然后找到并选择资产。这将打开资产详情页面。

1. 导航到**历史记录**选项卡，该选项卡显示资产的过去修订的列表。

# Amazon 的数据质量 DataZone
<a name="datazone-data-quality"></a>

Amazon 中的数据质量指标 DataZone 可帮助您了解不同的质量指标，例如数据源的完整性、及时性和准确性。Amazon DataZone AWS 与 Glue 数据质量集成 APIs ，并提供集成来自第三方数据质量解决方案的数据质量指标。数据用户可以查看其订阅的资产的数据质量指标随时间变化的情况。要编写和运行数据质量规则，您可以使用自己选择的数据质量工具，例如 AWS Glue 数据质量。借助 Amazon 中的数据质量指标 DataZone，数据使用者可以可视化资产和列的数据质量分数，从而帮助建立对他们用于决策的数据的信任。

**先决条件和 IAM 角色更改**

如果您使用的是Amazon DataZone 的 AWS 托管策略，则无需执行其他配置步骤，并且这些托管策略会自动更新以支持数据质量。如果您对角色使用自己的策略来授予 Amazon DataZone 与支持的服务互操作所需的权限，则必须更新附加到这些角色的策略，以支持读取中的 AWS Glue 数据质量信息，[AWS 托管策略：AmazonDataZoneGlueManageAccessRolePolicy](security-iam-awsmanpol-AmazonDataZoneGlueManageAccessRolePolicy.md)并启用对[AWS 托管策略：AmazonDataZoneDomainExecutionRolePolicy](security-iam-awsmanpol-AmazonDataZoneDomainExecutionRolePolicy.md)和 APIs 中的时间序列的支持。[AWS 托管策略： AmazonDataZoneFullUserAccess](security-iam-awsmanpol-AmazonDataZoneFullUserAccess.md)

## 为 AWS Glue 资产启用数据质量
<a name="datazone-data-quality-glue"></a>

亚马逊从 AWS G DataZone lue 中提取数据质量指标是为了提供某一时间点的背景信息，例如在搜索业务数据目录期间。数据用户可以查看其订阅的资产的数据质量指标随时间变化的情况。数据生成者可以按计划获 AWS 取 Glue 数据质量分数。Amazon B DataZone usiness 数据目录还可以通过数据质量显示来自第三方系统的数据质量指标 APIs。有关更多信息，请参阅 [AWS Glue 数据质量](https://docs.aws.amazon.com/glue/latest/dg/glue-data-quality.html)和数据[目录的 AWS Glue 数据质量入门](https://docs.aws.amazon.com/glue/latest/dg/data-quality-getting-started.html)。

您可以通过以下方式为您的 Amazon DataZone 资产启用数据质量指标：
+ 在创建新的 AWS Glue DataZone APIs 数据源或编辑现有 Glue 数据源时，使用数据门户或 Amazon 通过亚马逊 DataZone 数据门户启用 AWS Glue 数据源的数据质量。

  有关通过门户为数据来源启用数据质量的更多信息，请参阅[为创建并运行 Amazon DataZone 数据源 AWS Glue Data Catalog](create-glue-data-source.md)。
**注意**  
可以使用数据门户仅为 AWS Glue 库存资产启用数据质量。在此版本的 Amazon 中，不支持通过数据门户为 Amazon Redshift 或自定义类型资产 DataZone 启用数据质量。

  您也可以使用 APIs 为新数据源或现有数据源启用数据质量。为此，您可以调用[CreateDataSource](https://docs.aws.amazon.com/datazone/datazone/latest/APIReference/API_CreateDataSource.htmlAPI)或[UpdateDataSource](https://docs.aws.amazon.com/datazone/datazone/latest/APIReference/API_UpdateDataSource.htmlAPI)并将`autoImportDataQualityResult`参数设置为 “True”。

  启用数据质量后，您可以按需或按时间表运行数据来源。每次运行最多可以为每个资产引入 100 个指标。在将数据来源用于数据质量时，无需手动创建表单或添加指标。在发布资产后，对数据质量表单所做的更新（每条历史记录规则最多 30 个数据点）将反映在面向使用者的清单中。随后，向资产添加的每一个新指标都会自动添加到清单中。无需重新发布资产即可向使用者提供最新的分数。

## 为自定义资产类型启用数据质量
<a name="datazone-data-quality-third-party"></a>

您可以使用 Amazon DataZone APIs 为您的任何自定义类型资产启用数据质量。有关更多信息，请参阅下列内容：
+ [PostTimeSeriesDataPoints](https://docs.aws.amazon.com/datazone/latest/APIReference/API_PostTimeSeriesDataPoints.html)
+ [ListTimeSeriesDataPoints](https://docs.aws.amazon.com/datazone/latest/APIReference/API_ListTimeSeriesDataPoints.html)
+ [GetTimeSeriesDataPoint](https://docs.aws.amazon.com/datazone/latest/APIReference/API_GetTimeSeriesDataPoint.html)
+ [DeleteTimeSeriesDataPoints](https://docs.aws.amazon.com/datazone/latest/APIReference/API_DeleteTimeSeriesDataPoints.html)

以下步骤提供了使用 APIs 或 CLI 导入亚马逊资产的第三方指标的示例 DataZone：

1. 按如下方式调用 `PostTimeSeriesDataPoints` API：

   ```
   aws datazone post-time-series-data-points  \
   --cli-input-json file://createTimeSeriesPayload.json \
   ```

   具有以下有效载荷：

   ```
   "domainId": "dzd_5oo7xzoqltu8mf",
       "entityId": "4wyh64k2n8czaf",
       "entityType": "ASSET",
       "form": {
           "content": "{\n  \"evaluations\" : [ {\n    \"types\" : [ \"MaximumLength\" ],\n    \"description\" : \"ColumnLength \\\"ShippingCountry\\\" <= 6\",\n    \"details\" : { },\n    \"applicableFields\" : [ \"ShippingCountry\" ],\n    \"status\" : \"PASS\"\n  }, {\n    \"types\" : [ \"MaximumLength\" ],\n    \"description\" : \"ColumnLength \\\"ShippingState\\\" <= 2\",\n    \"details\" : { },\n    \"applicableFields\" : [ \"ShippingState\" ],\n    \"status\" : \"PASS\"\n  }, {\n    \"types\" : [ \"MaximumLength\" ],\n    \"description\" : \"ColumnLength \\\"ShippingCity\\\" <= 8\",\n    \"details\" : { },\n    \"applicableFields\" : [ \"ShippingCity\" ],\n    \"status\" : \"PASS\"\n  }, {\n    \"types\" : [ \"Completeness\" ],\n    \"description\" : \"Completeness \\\"ShippingStreet\\\" >= 0.59\",\n    \"details\" : { },\n    \"applicableFields\" : [ \"ShippingStreet\" ],\n    \"status\" : \"PASS\"\n  }, {\n    \"types\" : [ \"MaximumLength\" ],\n    \"description\" : \"ColumnLength \\\"ShippingStreet\\\" <= 101\",\n    \"details\" : { },\n    \"applicableFields\" : [ \"ShippingStreet\" ],\n    \"status\" : \"PASS\"\n  }, {\n    \"types\" : [ \"MaximumLength\" ],\n    \"description\" : \"ColumnLength \\\"BillingCountry\\\" <= 6\",\n    \"details\" : { },\n    \"applicableFields\" : [ \"BillingCountry\" ],\n    \"status\" : \"PASS\"\n  }, {\n    \"types\" : [ \"Completeness\" ],\n    \"description\" : \"Completeness \\\"biLlingcountry\\\" >= 0.5\",\n    \"details\" : {\n      \"EVALUATION_MESSAGE\" : \"Value: 0.26666666666666666 does not meet the constraint requirement!\"\n    },\n    \"applicableFields\" : [ \"biLlingcountry\" ],\n    \"status\" : \"FAIL\"\n  }, {\n    \"types\" : [ \"Completeness\" ],\n    \"description\" : \"Completeness \\\"Billingstreet\\\" >= 0.5\",\n    \"details\" : { },\n    \"applicableFields\" : [ \"Billingstreet\" ],\n    \"status\" : \"PASS\"\n  } ],\n  \"passingPercentage\" : 88.0,\n  \"evaluationsCount\" : 8\n}",
           "formName": "shortschemaruleset",
           "id": "athp9dyw75gzhj",
           "timestamp": 1.71700477757E9,
           "typeIdentifier": "amazon.datazone.DataQualityResultFormType",
           "typeRevision": "8"
       },
       "formName": "shortschemaruleset"
   }
   ```

   您可以通过调用以下 `GetFormType` 操作来获取此有效载荷：

   ```
   aws datazone get-form-type --domain-identifier <your_domain_id> --form-type-identifier amazon.datazone.DataQualityResultFormType --region <domain_region> --output text --query 'model.smithy'
   ```

1. 按如下方式调用 `DeleteTimeSeriesDataPoints` API：

   ```
   aws datazone delete-time-series-data-points\
   --domain-identifier dzd_bqqlk3nz21zp2f \
   --entity-identifier dzd_bqqlk3nz21zp2f \
   --entity-type ASSET \
   --form-name rulesET1 \
   ```

# 在 Amazon 中使用机器学习和生成人工智能 DataZone
<a name="autodoc"></a>

**注意**  
由 Amazon Bedrock 提供支持： AWS 实现自动滥用检测。由于亚马逊中关于描述功能的人工智能建议 DataZone 是建立在 Amazon Bedrock 之上的，因此用户继承了 Amazon Bedrock 中实施的控制措施，以强制执行安全、安保和负责任地使用人工智能。

在当前版本的 Amazon 中 DataZone，您可以使用 AI 的名称和描述推荐功能来自动发现和编目数据。Amazon 对生成式 AI 的支持可为资产和列 DataZone 创建企业名称和描述。可以使用这些名称和描述为数据添加业务上下文并推荐数据集的分析，这有助于优化数据发现结果。

在 Amazon Bedrock 的大型语言模型的支持下，Amazon 中针对数据资产名称和描述的人工智能建议可 DataZone 帮助您确保您的数据易于理解且易于发现。人工智能建议还提供针对数据集的最相关的分析应用程序。通过减少手动文档任务并建议适当的数据用法，自动生成的名称和描述可以帮助您提高数据的可信度，最大限度地减少对有用数据的忽视情况，从而加快做出明智的决策。

## 支持的区域：
<a name="regions-supported"></a>

在当前的 Amazon DataZone 版本中，以下区域支持 AI 姓名和描述推荐功能：
+ 美国东部（弗吉尼亚州北部）
+ 美国西部（俄勒冈）
+ 亚太地区（东京）
+ 欧洲地区（法兰克福）
+ 亚太地区（悉尼）
+ 加拿大（中部）
+ 欧洲地区（伦敦）
+ 南美洲（圣保罗）
+ 欧洲地区（爱尔兰）
+ 亚太地区（新加坡）
+ 美国东部（俄亥俄州）
+ 亚太地区（首尔）

Amazon DataZone 支持在以下地区生成企业描述。
+ 亚太地区（孟买）
+ 欧洲地区（巴黎）

Amazon DataZone 支持在以下地区生成企业名称。
+ 欧洲地区（斯德哥尔摩）

**Bedrock 跨区域推理**  
亚马逊 DataZone 利用 Amazon Bedrock 的跨区域推理终端节点为美国东部（俄亥俄州）地区提供建议。所有其他地区都使用区域内端点。

## 使用 GenAI 的步骤
<a name="steps-to-use-genai"></a>

以下过程介绍如何在 Amazon 中为姓名和描述生成 AI 推荐 DataZone：
+ 导航至 Amazon DataZone 数据门户 URL，然后使用单点登录 (SSO) 或您的 AWS 凭证登录。如果您是亚马逊 DataZone管理员，请导航至亚马逊 DataZone 控制台 [https://console.aws.amazon.com/datazon](https://console.aws.amazon.com/datazone) e，使用域名创建 AWS 账户 地登录，然后选择**打开**数据门户。
+ 在顶部导航窗格中，选择**选择项目**，然后选择包含要为其生成人工智能描述建议的资产的项目。

### 生成业务描述和摘要
<a name="generating-business-descriptions"></a>
+ 导航到项目的**数据**选项卡。
+ 在左侧导航窗格中，选择**库存数据**，然后选择要为其生成人工智能描述建议的资产的名称。
+ 在资产详细信息页面上的**业务元数据**选项卡中，选择**生成描述**。

### 生成业务名称
<a name="generating-business-names"></a>
+ 导航到项目的**数据**选项卡。
+ 在左侧导航窗格中，选择**数据来源**，然后选择要为其启用业务名称生成操作的数据来源。
+ 转到**详细信息**选项卡并启用**自动生成业务名称**配置。
+ BusinessNames [也可以在创建资产时通过启用 API 负载中的 PredictionConfiguration 下的 businessNameGeneration 标志，以编程方式生成。CreateAsset ](https://docs.aws.amazon.com/datazone/latest/APIReference/API_CreateAsset.html)

### 接受/拒绝预测
<a name="accepting-rejecting-predictions"></a>
+ 在生成描述后，您可以编辑、接受或拒绝该描述。
+ 每个自动生成的数据资产元数据描述的旁边都会显示绿色图标。在**业务元数据**选项卡中，您可以选择自动生成的**摘要**旁边的绿色图标，然后选择**编辑**、**接受**或**拒绝**来处理生成的描述。
+ 也可以选择**全部接受**或**全部拒绝**选项（在选择**业务元数据**选项卡时，这两个选项会显示在页面顶部），从而对所有自动生成的描述执行选定操作。
+ 或者，您可以选择**架构**选项卡，然后通过以下方式逐个处理自动生成的描述：一次选择一个列描述的绿色图标，并选择**接受**或**拒绝**。
+ 在**架构**选项卡中，也可以选择**全部接受**或**全部拒绝**，从而对所有自动生成的描述执行选定操作。

要将资产与生成的描述一起发布到目录，请选择**发布资产**，然后在**发布资产**弹出窗口中再次选择**发布资产**来确认此操作。

**注意**  
如果您未接受或拒绝为某个资产生成的描述，并随后发布该资产，则此未经审核的自动生成的元数据将不会包含在发布的数据资产中。

## 对自定义关系资产类型的支持
<a name="custom-relational-asset-types"></a>

亚马逊 DataZone 支持自定义资产类型的 GenAI 功能。以前，只有托管的 AWS Glue 和 AMazon Redshift 资产类型支持此功能。

要启用此功能，请创建自己的资产类型定义，并将 `RelationalTableFormType` 作为其中一个表单附加到定义中。Amazon DataZone 会自动检测此类表单的存在，并为这些资产启用 GenAI 功能。生成公司名称（通过 CreateAsset API 中的 PredictionConfiguration）和 BusinessDescription（通过生成描述按钮，点击资产详情页面）的总体体验保持不变。

有关创建自定义资产类型的更多信息，请参阅[在 Amazon 中创建自定义资产类型 DataZone](create-asset-types.md)。

## 配额
<a name="quotas"></a>

Amazon DataZone 支持不同的企业名称生成和企业描述生成配额。您可以联系 AWS 支持团队以增加这些配额。
+ BusinessDescriptionGeneration: 每月 1 万次调用
+ BusinessNameGeneration: 每月 5 万次调用

# Amazon 中的数据谱系 DataZone
<a name="datazone-data-lineage"></a>

Amazon 中的数据沿袭 DataZone 是一项 OpenLineage兼容功能，可帮助您捕获和可视化世系事件，包括 OpenLineage支持系统的系统或直至追踪数据来源 APIs、跟踪转换和查看跨组织的数据消耗情况。它为您提供了数据资产的总体视图，以便查看资产的来源及其连接链。世系数据包括有关亚马逊 DataZone业务数据目录内活动的信息，包括有关编目资产、这些资产的订阅者以及使用以编程方式捕获的业务数据目录之外发生的活动的信息。 APIs

**Topics**
+ [Amazon 中的血统节点类型 DataZone](#datazone-data-lineage-node-types)
+ [世系节点中的关键属性](#datazone-data-lineage-key-attributes)
+ [可视化数据世系](#datazone-data-lineage-history)
+ [Amazon 中的数据沿袭授权 DataZone](#datazone-data-lineage-authorization)
+ [Amazon 中的数据沿袭示例体验 DataZone](#datazone-data-lineage-sample-experience)
+ [在管理控制台中启用数据血统](#enable-data-lineage)
+ [以编程方式使用 Amazon DataZone 数据谱系](#datazone-data-lineage-apis)
+ [自动创建 AWS Glue 目录的血统](#datazone-data-lineage-automate)
+ [从 Amazon Redshift 实现血统自动化](#datazone-data-lineage-automate-redshift)

可以将血统设置为在添加到亚马逊后自动从 AWS Glue 和 Amazon Redshift 数据库中捕获。 DataZone此外，可以将在 AWS Glue（v5.0 及更高版本）控制台中运行的 Spark ETL 作业配置为向亚马逊域发送血统事件。 DataZone

在 Amazon 中 DataZone，域管理员可以在设置数据湖和数据仓库内置蓝图的同时配置世系，从而确保使用这些资源创建的所有数据源运行都启用自动世系捕获。

使用与亚马逊 OpenLineage兼容 DataZone的功能 APIs，域管理员和数据制作者可以捕获和存储超出亚马逊可用范围的世系事件 DataZone，包括Amazon S3、G AWS lue和其他服务中的转换。这为数据使用者提供了全面视图，帮助他们自信地了解资产来源，同时数据创建者可以通过了解资产的使用情况来评估资产更改产生的影响。此外，Amazon DataZone 版本与每个事件保持一致，使用户能够在任何时间点可视化血统或比较资产或任务历史的转换。此历史世系可让用户更深入地了解数据的演变过程，这对于故障排除、审计和确保数据资产的完整性至关重要。

通过数据沿袭，您可以在 Amazon DataZone 中完成以下任务：
+ 了解数据的来源：了解数据源自何处可让您清楚地了解数据的源、依赖关系和转换，从而增强对数据的信任。此透明度有助于自信地做出数据驱动型决策。
+ 了解数据管道更改产生的影响：在对数据管道进行更改时，可以使用世系功能来标识所有将受影响的下游使用者。这有助于确保在不中断关键数据流的情况下进行更改。
+ 确定数据质量问题的根本原因：如果在下游报告中检测到数据质量问题，则可以使用世系（尤其是列级世系）来追溯数据（在列级别），以将问题追溯到其源。这可帮助数据工程师识别和修复问题。
+ 改善数据治理和合规性：可使用列级世系来演示对数据治理和隐私法规的遵从性。例如，可使用列级世系来显示敏感数据（例如 PII）的存储位置以及下游活动中处理敏感数据的方式。

## Amazon 中的血统节点类型 DataZone
<a name="datazone-data-lineage-node-types"></a>

在 Amazon 中 DataZone，数据谱系信息显示在代表表和视图的节点中。根据项目（例如，在数据门户左上角选择的项目）的上下文，创建者可以同时查看库存资产和已发布的资产，而使用者只能查看已发布的资产。首次在资产详细信息页面中打开世系选项卡时，已编目的数据集节点是通过世系图的世系节点向上游或下游导航的起点。

以下是 Amazon DataZone 支持的数据血统节点类型：
+ **数据集节点** – 此节点类型包括有关特定数据资产的数据世系信息。
  + 包含亚马逊 DataZone 目录中发布的 AWS Glue 或 Amazon Redshift 资产相关信息的数据集节点是自动生成的，节点中包含相应的 G AWS lue 或 Amazon Redshift 图标。
  + 包含未在 Amazon DataZone 目录中发布的资产信息的数据集节点由域管理员（制作者）手动创建，并由节点内的默认自定义资产图标表示。
+ **作业（运行）节点** – 此节点类型显示作业的详细信息，包括特定作业的最新运行和运行详细信息。此节点还捕获作业的多次运行，并且可在节点详细信息的**历史记录**选项卡中查看。您可以通过选择节点图标来查看节点详细信息。

## 世系节点中的关键属性
<a name="datazone-data-lineage-key-attributes"></a>

世系节点中的 `sourceIdentifier` 属性表示数据集上发生的事件。世系节点的 `sourceIdentifier` 是数据集的标识符（表/视图等）。它用于在世系节点上强制实施唯一性。例如，不能有两个具有同一 `sourceIdentifier` 的世系节点。以下是不同类型的节点的 `sourceIdentifier` 值的示例：
+ 对于具有相应数据集类型的数据集节点：
  + 资产：amazon.datazone.asset/<assetId>
  + 清单（已发布的资产）：amazon.datazone.listing/<listingId>
  + AWS <region><account-id><database>Glue table：arn: aws: glue:: table//<table-name> 
  + Amazon Redshift 表/视图：arn:aws:<redshift/redshift-serverless>:<region>:<account-id>:<table-type(table/view etc)>/<clusterIdentifier/workgroupName>/<database>/<schema>/<table-name> 
  + 对于使用 open-lineage 运行事件导入的任何其他类型的数据集节点，将输入/输出数据集的 <namespace>/<name> 用作节点的 `sourceIdentifier`。
+ 对于作业：
  + 对于使用 open-lineage 运行事件导入的作业节点，将 <jobs\$1namespace>.<job\$1name> 用作 sourceIdentifier。
+ 对于作业运行：
  + 对于使用 open-lineage 运行事件导入的作业运行节点，将 <jobs\$1namespace>.<job\$1name>/<run\$1id> 用作 sourceIdentifier。

对于使用 `createAsset` API 创建的资产，必须使用 `createAssetRevision` API 更新 `sourceIdentifier` 以便能够将资产映射到上游资源。

## 可视化数据世系
<a name="datazone-data-lineage-history"></a>

Amazon DataZone 的资产详情页面以图形方式呈现数据谱系，便于直观呈现上游或下游的数据关系。资产详细信息页面提供以下功能来浏览图表：
+ 列级世系：如果列级世系在数据集节点中可用，则扩展列级世系。如果源列信息可用，这将自动显示与上游或下游数据集节点的关系。
+ 列搜索：当列数的默认显示为 10 时。如果超过 10 个列，则将激活分页以导航到其余列。要快速查看特定列，可以在仅列出已搜索列的数据集节点上进行搜索。
+ 仅查看数据集节点：如果要切换为仅查看数据集世系节点并筛选出作业节点，您可以选择图表查看器左上角的“打开视图控件”图标，然后切换**仅显示数据集节点**选项。这将从图表中删除所有作业节点，并让您仅浏览数据集节点。请注意，在启用“仅查看数据集节点”时，图表无法向上游或下游展开。
+ 详细信息窗格：每个世系节点都具有捕获到的详细信息，并且会在选中时显示。
  + 数据集节点具有一个详细信息窗格，其中显示针对给定时间戳为该节点捕获的所有详细信息。每个数据集节点具有 3 个选项卡，即：“世系信息”、“架构”和“历史记录”选项卡。“历史记录”选项卡列出为该节点捕获的世系事件的不同版本。从 API 捕获的所有详细信息都使用元数据表单或 JSON 查看器显示。
  + 作业节点具有一个详细信息窗格，其中显示作业详细信息与“作业信息”和“历史记录”选项卡。详细信息窗格还捕获在作业运行过程中捕获到的查询或表达式。“历史记录”选项卡列出为该节点捕获的作业运行的不同版本。从 API 捕获的所有详细信息都使用元数据表单或 JSON 查看器显示。
+ 版本选项卡：Amazon DataZone 数据谱系中的所有世系节点都有版本控制。对于每个数据集节点或作业节点，版本都将作为历史记录捕获，这使您能够在各个版本之间导航以确定随时间推移发生的变化。每个版本都会在世系页面中打开一个新的选项卡以帮助进行比较。

## Amazon 中的数据沿袭授权 DataZone
<a name="datazone-data-lineage-authorization"></a>

**写入权限**-要将世系数据发布到 Amazon DataZone，您必须拥有一个 IAM 角色，其权限策略包括对 `PostLineageEvent` API 的`ALLOW`操作。此 IAM 授权在 API Gateway 层进行。

**读取权限**-有两个操作：`GetLineageNode`和`ListLineageNodeHistory`包含在`AmazonDataZoneDomainExecutionRolePolicy`托管策略中，因此 Amazon DataZone 域中的每个用户都可以调用这些操作来遍历数据谱系图。

## Amazon 中的数据沿袭示例体验 DataZone
<a name="datazone-data-lineage-sample-experience"></a>

您可以使用数据沿袭示例体验来浏览和了解 Amazon 中的数据谱系 DataZone，包括在数据谱系图中遍历上游或下游、探索版本和列级谱系。

完成以下步骤，在 Amazon 中试用示例数据谱系体验： DataZone

1. 导航至 Amazon DataZone 数据门户 URL，然后使用单点登录 (SSO) 或凭证登录 AWS 。如果您是亚马逊 DataZone管理员，则可以通过 [https://console.aws.amazon.com/datazon](https://console.aws.amazon.com/datazone) e 导航到亚马逊 DataZone 控制台，使用域名创建 AWS 账户 地登录，然后选择**打开**数据门户。

1. 选择任何可用的数据资产以打开资产的详细信息页面。

1. 在资产的详细信息页面上，选择**血统**选项卡，将鼠标悬停在信息图标上，然后选择**尝试示例血统**。

1. 在数据世系弹出窗口中，选择**开始引导式数据世系旅程**。

   此时，将显示一个全屏选项卡，其中提供了世系信息的所有空间。示例数据世系图表最初在上游和下游两端显示一个深度为 1 的基本节点。您可以将图表扩展到上游或下游。您也可以选择列信息，并查看世系如何流经节点。

## 在管理控制台中启用数据血统
<a name="enable-data-lineage"></a>

您可以在配置默认数据湖和默认数据仓库蓝图的过程中启用数据血统。

完成以下过程为默认数据湖蓝图启用数据血统。

1. 前往位于 [https://console.aws.amazon.com/datazone](https://console.aws.amazon.com/datazone) 的亚马逊 DataZone 控制台，然后使用您的账户凭证登录。

1. 选择 “**查看域**”，然后选择要为 DefaultDataLake 蓝图启用数据沿袭的域。

1. 在域详细信息页面上，导航到**蓝图**选项卡。

1. 在 DefaultDataLake 蓝图的详细信息页面上，选择**区域**选项卡。

1. 在为 DefaultDataLake 蓝图添加区域的过程中，您可以启用数据沿袭。因此，如果已经添加了一个区域，但其中的数据血统功能未启用（**导入数据血统**列中显示了**否**），则必须先删除该区域。要启用数据血统，请选择**添加区域**，然后选择要添加的区域，并确保在**添加区域**弹出窗口中选中**启用导入数据血统**复选框。

要为 DefaultDataWarehouse 蓝图启用数据沿袭，请完成以下步骤。

1. 前往位于 [https://console.aws.amazon.com/datazone](https://console.aws.amazon.com/datazone) 的亚马逊 DataZone 控制台，然后使用您的账户凭证登录。

1. 选择 “**查看域**”，然后选择要为 DefaultDataWarehouse 蓝图启用数据沿袭的域。

1. 在域详细信息页面上，导航到**蓝图**选项卡。

1. 在 DefaultDataWarehouse 蓝图的详细信息页面上，选择**参数集**选项卡。

1. 在为 DefaultDataWarehouse 蓝图添加参数集的过程中，您可以启用数据沿袭。为此，请选择**创建参数集**。

1. 在**创建参数集**页面上，指定以下内容，然后选择**创建参数集**。
   + 参数集的名称。
   + 参数集的描述。
   + AWS 您要在其中创建环境的区域。
   + 指定亚马逊 DataZone 是使用这些参数来建立与您的 Amazon Redshift 集群还是无服务器工作组的连接。
   + 指定密 AWS 钥。
   + 指定要在创建环境时使用的集群或无服务器工作组。
   + 指定要在创建环境时使用的数据库（在指定的集群或工作组中）的名称。
   + 在**导入数据血统**下，选中**启用导入数据血统**。

## 以编程方式使用 Amazon DataZone 数据谱系
<a name="datazone-data-lineage-apis"></a>

要在 Amazon 中使用数据血统功能 DataZone，您可以调用以下命令： APIs
+ [GetLineageNode](https://docs.aws.amazon.com/datazone/latest/APIReference/API_GetLineageNode.html)
+ [ListLineageNodeHistory](https://docs.aws.amazon.com/datazone/latest/APIReference/API_ListLineageNodeHistory.html)
+ [PostLineageEvent](https://docs.aws.amazon.com/datazone/latest/APIReference/API_PostLineageEvent.html)

## 自动创建 AWS Glue 目录的血统
<a name="datazone-data-lineage-automate"></a>

当 AWS Glue 数据库和表被添加到 Amazon DataZone 目录时，将使用数据源运行自动提取这些表的世系。对于此来源，有几种方法可以实现血统自动化：
+ 蓝图配置 – 设置蓝图的管理员可以将蓝图配置为自动捕获血统。通过此配置，管理员能够定义血统捕获的关键数据来源，而不需要依赖数据生成者对数据进行编目。有关更多信息，请参阅 [在管理控制台中启用数据血统](#enable-data-lineage)。
+ 数据源配置-数据生成者在为 AWS Glue 数据库配置数据源运行时，会看到一个视图以及数据质量，用于告知该数据源的自动数据沿袭。
  + 血统设置可以在**数据来源定义**选项卡中查看。数据生成者无法编辑此值。
  + Data Source 运行中的世系集合从表元数据中获取信息以建立世系。 AWS Glue crawler 支持不同类型的来源，在数据源运行中捕获血统的来源包括 Amazon S3、DynamoDB、Catalog、Delta Lake、Iceberg 表和存储在 Amazon S3 中的 Hudi 表。目前不支持 JDBC 和 DocumentDB 或 MongoDB 作为来源。
  + 限制 – 如果表的数量大于 100 个，血统运行将在 100 个表之后失败。确保 Gl AWS ue 爬网程序未配置为在一次运行中引入超过 100 张表。
+ AWS Glue (v5.0) 配置——在 AWS Glue Studio 中运行 AWS Glue 作业时，可以为任务配置数据沿袭，将世系事件直接发送到亚马逊网域。 DataZone 

  1. 导航到 https://console.aws.amazon.com /g AWS luestudio 上的 Glue 控制台，然后使用你的账户凭据登录。

  1. 选择 **ETL 作业**，然后创建新作业或单击任何现有作业。

  1. 转到**作业详细信息**（包括 ETL 流程作业）选项卡，然后向下滚动到“生成血统事件”部分。

  1. 选中该复选框可启用发送世系事件，该复选框会展开显示输入字段以输入 Amazon DataZone 域名 ID。
+ AWS Glue (V5.0) 笔记本配置——在笔记本中，你可以通过添加 %%configure 魔法来自动收集 Spark 执行任务。此配置会将事件发送到 Amazon DataZone 域。

  ```
  %%configure --name project.spark -f
  {
      "--conf":"spark.extraListeners=io.openlineage.spark.agent.OpenLineageSparkListener --conf spark.openlineage.transport.type=amazon_datazone_api --conf spark.openlineage.transport.domainId={DOMAIN_ID}  --conf spark.glue.accountId={ACCOUNT_ID} --conf spark.openlineage.facets.custom_environment_variables=[AWS_DEFAULT_REGION;GLUE_VERSION;GLUE_COMMAND_CRITERIA;GLUE_PYTHON_VERSION; --conf spark.glue.JOB_NAME={JOB_NAME}"
  }
  ```

  下面是参数详细信息：
  + `spark.extraListeners=io.openlineage.spark.agent.OpenLineageSparkListener`- OpenLineageSparkListener 将在 Spark 的监听器总线中创建并注册
  + `spark.openlineage.transport.type=amazon_datazone_api`-这是一项 OpenLineage 规范，用于告诉 OpenLineage插件使用 DataZone API 传输向的 API 发送世系事件。 DataZone PostLineageEvent 欲了解更多信息，请参阅 [https://openlineage。 io/docs/integrations/spark/configuration/spark\$1conf](https://openlineage.io/docs/integrations/spark/configuration/spark_conf)
  + `spark.openlineage.transport.domainId={DOMAIN_ID}` – 此参数用于建立一个域，API 传输将向该域提交血统事件。
  + `spark.openlineage.facets.custom_environment_variables [AWS_DEFAULT_REGION;GLUE_VERSION;GLUE_COMMAND_CRITERIA;GLUE_PYTHON_VERSION;]`-Glue 交互式会话填充的以下环境变量（AWS\$1DEFAULT\$1REGION GLUE\$1VERSION、GLUE\$1COMMAND\$1CRITERIA 和 GLUE\$1PYTHON\$1VERSION）将被添加到 LineageEvent
  + `spark.glue.accountId=<ACCOUNT_ID>` – 元数据所在的 Glue Data Catalog 的账户 ID。此账户 ID 用于在血统事件中构建 Glue ARN。
  + `spark.glue.JOB_NAME` – 血统事件的作业名称。Notebook 中的作业名称可以设置为 `spark.glue.JOB_NAME: ${projectId}.${pathToNotebook}`。
+ 设置参数以配置 DataZone 从 AWS Glue 与亚马逊的通信

  参数键：--conf

  参数值：

  ```
  spark.extraListeners=io.openlineage.spark.agent.OpenLineageSparkListener 
  --conf spark.openlineage.transport.type=amazon_datazone_api 
  --conf spark.openlineage.transport.domainId=<DOMAIN_ID>
  --conf spark.openlineage.facets.custom_environment_variables=[AWS_DEFAULT_REGION;GLUE_VERSION;GLUE_COMMAND_CRITERIA;GLUE_PYTHON_VERSION;] 
  --conf spark.glue.accountId=<ACCOUNT_ID> (replace <DOMAIN_ID> and <ACCOUNT_ID> with the right values)
  ```

  对于 Notebook，请添加以下附加参数：

  ```
  --conf spark.glue.JobName=<SessionId> --conf spark.glue.JobRunId=<SessionId or NONE?>
  replace <SessionId> and <SessionId> with the right values
  ```

## 从 Amazon Redshift 实现血统自动化
<a name="datazone-data-lineage-automate-redshift"></a>

通过管理员设置的数据仓库蓝图配置，从 Amazon Redshift 服务中捕获世系，亚马逊会自动捕获世系。 DataZone世系运行会捕获为给定数据库执行的查询，并生成要存储在 Amazon 中的世系事件， DataZone 以便数据生成者或使用者在访问特定资产时进行可视化。

可以使用以下配置实现血统自动化：
+ 蓝图配置 – 设置蓝图的管理员可以将蓝图配置为自动捕获血统。通过此配置，管理员能够定义血统捕获的关键数据来源，而不需要依赖数据生成者对数据进行编目。要进行设置，请转到[在管理控制台中启用数据血统](#enable-data-lineage)。
+ 数据来源配置：数据生成者在为 Amazon Redshift 数据库配置数据来源运行时会看到该数据来源的自动数据血统设置。

  血统设置可以在**数据来源定义**选项卡中查看。数据生成者无法编辑此值。

# 针对发布的元数据强制规则
<a name="metadata-rules-publishing"></a>

在 Amazon DataZone 上发布的元数据执行规则使域单位所有者能够为数据制作者制定明确的元数据要求，简化访问请求并增强数据治理，从而加强数据治理。

目前有 Amazon 的所有 AWS 商业区域都支持 DataZone 该功能。

域单位所有者可以完成以下程序，在 Amazon 中配置元数据强制执行 DataZone：

1. 使用 DataZone 数据门户 URL 导航至 Amazon 数据门户，然后使用您的 SSO 或 AWS 凭证登录。如果您是亚马逊 DataZone 管理员，则可以通过访问创建亚马逊 DataZone 域名的 AWS 账户中的 https://console.aws.amazon.com /datazone 上的亚马逊 DataZone 控制台来获取数据门户 URL。

1. 选择**域**，导航到**域单元**选项卡，然后选择要使用的域单元。

1. 选择**规则**选项卡，然后选择**添加**。

1. 在**创建必需的元数据表单规则**页面上，执行以下操作，然后选择**添加规则**：
   + 为规则指定名称。
   + 在**操作**下，选择**数据资产和产品发布**。
   + 在**必填表单**下，选择**添加元数据表单**，在域/域单元内选择要添加到此规则的元数据表单，然后选择**添加**。最多可为每个规则添加 5 个元数据。
   + 在**范围**下，指定要与这些表单关联的数据实体。您可以选择数据产品 and/or 数据资产。
   + 在**数据资产类型**下，指定该规则是适用于所有资产类型还是选定的资产类型。
   + 在 “**项目**” 下，指定所需的表单是与所有项目发布的数据产品 and/or 资产相关联，还是仅与该域单元中的选定项目相关联。此外，如果您希望子域单元继承此要求，请选中**将规则级联到子域单元**。