기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon DataZone의 데이터 인벤토리 및 게시
<a name="publishing-data"></a>

이 섹션에서는 Amazon DataZone에서 데이터 인벤토리를 생성하고 Amazon DataZone에 데이터를 게시하기 위해 수행하려는 작업 및 절차에 대해 설명합니다.

Amazon DataZone을 사용하여 데이터를 카탈로그화하려면 먼저 Amazon DataZone에서 프로젝트 인벤토리로 데이터(자산)를 가져와야 합니다. 특정 프로젝트의 인벤토리를 생성하면 해당 프로젝트의 구성원만 자산을 검색할 수 있습니다. 프로젝트 인벤토리 자산은 명시적으로 게시되지 않는 한 검색/찾아보기에서 모든 도메인 사용자가 사용할 수 있는 것은 아닙니다. 프로젝트 인벤토리를 생성한 후 데이터 소유자는 비즈니스 이름(자산 및 스키마), 설명(자산 및 스키마), README, 용어집 용어(자산 및 스키마) 및 메타데이터 양식을 추가하거나 업데이트하여 필요한 비즈니스 메타데이터로 인벤토리 자산을 큐레이션할 수 있습니다.

Amazon DataZone을 사용하여 데이터를 카탈로그화하는 다음 단계는 도메인 사용자가 프로젝트의 인벤토리 자산을 검색할 수 있도록 하는 것입니다. Amazon DataZone 카탈로그에 인벤토리 자산을 게시하여 이 작업을 수행할 수 있습니다. 최신 버전의 인벤토리 자산만 카탈로그에 게시할 수 있으며 최신 게시 버전만 검색 카탈로그에서 활성화됩니다. 인벤토리 자산이 Amazon DataZone 카탈로그에 게시된 후 업데이트되는 경우 최신 버전이 검색 카탈로그에 포함되도록 다시 명시적으로 게시해야 합니다.

자세한 내용은 [Amazon DataZone 용어 및 개념](datazone-concepts.md) 섹션을 참조하세요.

**Topics**
+ [

# Amazon DataZone에 대한 Lake Formation 권한 구성
](lake-formation-permissions-for-datazone.md)
+ [

# Amazon DataZone에서 사용자 지정 자산 유형 생성
](create-asset-types.md)
+ [

# 에 대한 Amazon DataZone 데이터 소스 생성 및 실행 AWS Glue Data Catalog
](create-glue-data-source.md)
+ [

# Amazon Redshift용 Amazon DataZone 데이터 소스 생성 및 실행
](create-redshift-data-source.md)
+ [

# Amazon DataZone에서 데이터 소스 편집
](edit-data-source.md)
+ [

# Amazon DataZone에서 데이터 소스 삭제
](delete-data-source.md)
+ [

# 프로젝트 인벤토리에서 Amazon DataZone 카탈로그에 자산 게시
](publishing-data-asset.md)
+ [

# Amazon DataZone에서 인벤토리 관리 및 자산 큐레이팅
](update-metadata.md)
+ [

# Amazon DataZone에서 수동으로 자산 생성
](create-data-asset-manually.md)
+ [

# Amazon DataZone 카탈로그에서 자산 게시 취소
](archive-data-asset.md)
+ [

# Amazon DataZone 자산 삭제
](delete-data-asset.md)
+ [

# Amazon DataZone에서 수동으로 데이터 소스 실행 시작
](manually-start-data-source-run.md)
+ [

# Amazon DataZone의 자산 개정
](asset-versioning.md)
+ [

# Amazon DataZone의 데이터 품질
](datazone-data-quality.md)
+ [

# Amazon DataZone에서 기계 학습 및 생성형 AI 사용
](autodoc.md)
+ [

# Amazon DataZone의 데이터 계보
](datazone-data-lineage.md)
+ [

# 게시를 위한 메타데이터 적용 규칙
](metadata-rules-publishing.md)

# Amazon DataZone에 대한 Lake Formation 권한 구성
<a name="lake-formation-permissions-for-datazone"></a>

기본 제공 데이터 레이크 블루프린트(**DefaultDataLake**)를 사용하여 환경을 생성하면이 환경 생성 프로세스의 일부로 Amazon DataZone에 AWS Glue 데이터베이스가 추가됩니다. 이 AWS Glue 데이터베이스에서 자산을 게시하려는 경우 추가 권한이 필요하지 않습니다.

그러나 자산을 게시하고 Amazon DataZone 환경 외부에 있는 AWS Glue 데이터베이스의 자산을 구독하려면 Amazon DataZone에이 외부 AWS Glue 데이터베이스의 테이블에 액세스할 수 있는 권한을 명시적으로 제공해야 합니다. 이렇게 하려면 AWS Lake Formation에서 다음 설정을 완료하고 필요한 Lake Formation 권한을 [AmazonDataZoneGlueAccess-<region>-<domainId>](glue-manage-access-role.md)에 연결해야 합니다.
+  AWS Lake Formation 권한 모드 또는 **하이브리드 액세스 모드를** 사용하여 **Lake Formation**에서 데이터 레이크의 Amazon S3 위치를 구성합니다. 자세한 내용은 [https://docs.aws.amazon.com/lake-formation/latest/dg/register-data-lake.html](https://docs.aws.amazon.com/lake-formation/latest/dg/register-data-lake.html)을 참조하세요.
+ Amazon DataZone이 `IAMAllowedPrincipals` 권한을 처리하는 Amazon Lake Formation 테이블에서 권한을 제거합니다. 자세한 내용은 [https://docs.aws.amazon.com/lake-formation/latest/dg/upgrade-glue-lake-formation-background.html](https://docs.aws.amazon.com/lake-formation/latest/dg/upgrade-glue-lake-formation-background.html)을 참조하세요.
+ [AmazonDataZoneGlueAccess-<region>-<domainId>](glue-manage-access-role.md)다음 AWS Lake Formation 권한을에 연결합니다.
  + 테이블이 있는 데이터베이스에 대한 `Describe` 및 `Describe grantable` 권한
  + DataZone이 사용자를 대신하여 액세스를 관리하도록 하려는 위 데이터베이스의 모든 테이블에 대한 `Describe`, `Select`, `Describe Grantable`, `Select Grantable` 권한.

**참고**  
Amazon DataZone은 AWS Lake Formation Hybrid 모드를 지원합니다. Lake Formation 하이브리드 모드를 사용하면 Lake Formation을 통해 AWS Glue 데이터베이스 및 테이블에 대한 권한 관리를 시작하는 동시에 이러한 테이블 및 데이터베이스에 대한 기존 IAM 권한을 계속 유지할 수 있습니다. 자세한 내용은 [AWS Lake Formation 하이브리드 모드와 Amazon DataZone 통합](hybrid-mode.md) 섹션을 참조하세요.

자세한 내용은 [Amazon DataZone에 대한 AWS Lake Formation 권한 문제 해결](troubleshooting-datazone.md#troubleshooting-lake-formation-permissions) 단원을 참조하십시오.

# AWS Lake Formation 하이브리드 모드와 Amazon DataZone 통합
<a name="hybrid-mode"></a>

Amazon DataZone은 AWS Lake Formation 하이브리드 모드와 통합됩니다. 이 통합을 통해 먼저 AWS Lake Formation에 등록할 필요 없이 Amazon DataZone을 통해 AWS Glue 테이블을 쉽게 게시하고 공유할 수 있습니다. 하이브리드 모드를 사용하면 AWS Lake Formation을 통해 AWS Glue 테이블에 대한 권한 관리를 시작하는 동시에 이러한 테이블에 대한 기존 IAM 권한을 계속 유지할 수 있습니다.

시작하려면 Amazon DataZone 관리 콘솔의 **DefaultDataLake** 블루프린트에서 **데이터 위치 등록** 설정을 활성화할 수 있습니다.

**AWS Lake Formation 하이브리드 모드와의 통합 활성화**

1. [https://console.aws.amazon.com/datazone](https://console.aws.amazon.com/datazone)에서 Amazon DataZone 콘솔로 이동하여 계정 자격 증명으로 로그인합니다.

1. **도메인 보기를** 선택하고 AWS Lake Formation 하이브리드 모드와의 통합을 활성화하려는 도메인을 선택합니다.

1. 도메인 세부 정보 페이지에서 **블루프린트** 탭으로 이동합니다.

1. **블루프린트** 목록에서 **DefaultDataLake** 블루프린트를 선택합니다.

1. DefaultDataLake 블루프린트가 활성화되어 있는지 확인합니다. 활성화되지 않은 경우 [Amazon DataZone 도메인을 소유한 AWS 계정에서 기본 제공 블루프린트 활성화](working-with-blueprints.md#enable-default-blueprint)의 단계에 따라 AWS 계정에서 활성화하세요.

1. DefaultDataLake 세부 정보 페이지에서 **프로비저닝** 탭을 열고 페이지 오른쪽 상단 모서리에 있는 **편집** 버튼을 선택합니다.

1. **데이터 위치 등록**에서 데이터 위치 등록을 활성화하려면 확인란을 선택합니다.

1. 데이터 위치 관리 역할의 경우 새 IAM 역할을 생성하거나 기존 IAM 역할을 선택할 수 있습니다. Amazon DataZone은이 역할을 사용하여 AWS Lake Formation 하이브리드 액세스 모드를 사용하여 Data Lake에 대해 선택한 Amazon S3 버킷(들)에 대한 읽기/쓰기 액세스를 관리합니다. 자세한 내용은 [AmazonDataZoneS3Manage-<region>-<domainId>](AmazonDataZoneS3Manage.md) 단원을 참조하십시오.

1. 선택적으로 Amazon DataZone이 하이브리드 모드에서 자동으로 등록하지 않도록 하려면 특정 Amazon S3 위치를 제외하도록 선택할 수 있습니다. 이를 위해서는 다음 단계를 완료하세요.
   + 토글 버튼을 선택하여 지정된 Amazon S3 위치를 제외합니다.
   + 삭제할 Amazon S3 버킷의 URL를 제공합니다.
   + 버킷을 추가하려면 **S3 위치 추가**를 선택합니다.
**참고**  
Amazon DataZone은 루트 S3 위치만 제외할 수 있습니다. 루트 S3 위치 경로 내의 모든 S3 위치는 자동으로 등록에서 제외됩니다.
   + **변경 사항 저장**을 선택합니다.

 계정 AWS 에서 데이터 위치 등록 설정을 활성화한 후 데이터 소비자가 IAM 권한을 통해 관리되는 AWS Glue 테이블을 구독하면 Amazon DataZone은 먼저이 테이블의 Amazon S3 위치를 하이브리드 모드로 등록한 다음 AWS Lake Formation을 통해 테이블에 대한 권한을 관리하여 데이터 소비자에게 액세스 권한을 부여합니다. 이렇게 하면 기존 워크플로를 중단하지 않고 새로 부여된 AWS Lake Formation 권한으로 테이블에 대한 IAM 권한이 계속 존재합니다.

## Amazon DataZone에서 AWS Lake Formation 하이브리드 모드 통합을 활성화할 때 암호화된 Amazon S3 위치를 처리하는 방법
<a name="hybrid-mode-encryption"></a>

고객 관리형 또는 AWS 관리형 KMS 키로 암호화된 Amazon S3 위치를 사용하는 경우 **AmazonDataZoneS3Manage** 역할에는 KMS 키를 사용하여 데이터를 암호화하고 복호화할 수 있는 권한이 있거나 KMS 키 정책이 역할에 키에 대한 권한을 부여해야 합니다.

Amazon S3 위치가 AWS 관리형 키로 암호화된 경우 **AmazonDataZoneDataLocationManagement** 역할에 다음 인라인 정책을 추가합니다.

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "kms:Encrypt",
                "kms:Decrypt",
                "kms:ReEncrypt*",
                "kms:GenerateDataKey*",
                "kms:DescribeKey"
            ],
            "Resource": "arn:aws:kms:us-east-1:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"
        }
    ]
}
```

------

Amazon S3 위치가 고객 관리형 키로 암호화된 경우 다음을 수행합니다.

1. [https://console.aws.amazon.com/kms](https://console.aws.amazon.com/kms) AWS KMS 콘솔을 열고 Identity and Access Management(IAM) 관리 사용자 또는 위치를 암호화하는 데 사용되는 KMS 키의 키 정책을 수정할 수 있는 사용자로 로그인 AWS 합니다.

1. 탐색 창에서 **고객 관리형 키**를 선택한 다음 원하는 KMS 키의 이름을 선택합니다.

1. KMS 키 세부 정보 페이지에서 **키 정책** 탭을 선택한 다음 다음 중 하나를 수행하여 사용자 지정 역할 또는 Lake Formation 서비스 연결 역할을 KMS 키 사용자로 추가합니다.
   + 기본 보기가 표시되는 경우(키 관리자, 키 삭제, 키 사용자 및 기타 AWS 계정 섹션 포함) - **키 사용자** 섹션에서 **AmazonDataZoneDataLocationManagement** 역할을 추가합니다.
   + 키 정책(JSON)이 표시되는 경우 다음 예제와 같이 정책을 편집하여 객체 '키 사용 허용'에 **AmazonDataZoneDataLocationManagement** 역할을 추가합니다.

     ```
     ...
             {
                 "Sid": "Allow use of the key",
                 "Effect": "Allow",
                 "Principal": {
                     "AWS": [
                         "arn:aws:iam::111122223333:role/service-role/AmazonDataZoneDataLocationManage-<region>-<domain-id>"
                     ]
                 },
                 "Action": [
                     "kms:Encrypt",
                     "kms:Decrypt",
                     "kms:ReEncrypt*",
                     "kms:GenerateDataKey*",
                     "kms:DescribeKey"
                 ],
                 "Resource": "*"
             },
             ...
     ```

**참고**  
KMS 키 또는 Amazon S3 위치가 데이터 카탈로그와 동일한 AWS 계정에 있지 않은 경우 [계정 간에 AWS 암호화된 Amazon S3 위치 등록](https://docs.aws.amazon.com/lake-formation/latest/dg/register-cross-encrypted.html)의 지침을 따릅니다.

# Amazon DataZone에서 사용자 지정 자산 유형 생성
<a name="create-asset-types"></a>

Amazon DataZone에서 자산은 데이터베이스 테이블, 대시보드 또는 기계 학습 모델과 같은 특정 유형의 데이터 리소스를 나타냅니다. 카탈로그 자산을 설명할 때 일관성과 표준화를 제공하려면 Amazon DataZone 도메인에 카탈로그에서 자산을 나타내는 방법을 정의하는 자산 유형 집합이 있어야 합니다. 자산 유형은 특정 유형의 자산에 대한 스키마를 정의합니다. 자산 유형에는 필수 및 선택 사항인 이름 지정 가능한 메타데이터 양식 유형 세트(예: govForm 또는 GovernanceFormType)가 있습니다. Amazon DataZone의 자산 유형은 버전 관리됩니다. 자산이 생성되면 자산 유형(일반적으로 최신 버전)에 의해 정의된 스키마에 대해 검증되고 잘못된 구조가 지정되면 자산 생성이 실패합니다.

**시스템 자산 유형** - Amazon DataZone은 서비스 소유 시스템 자산 유형GlueTableAssetType, GlueViewAssetType, RedshiftTableAssetType, RedshiftViewAssetType, S3ObjectCollectionAssetType 포함) 및 시스템 양식 유형(DataSourceReferenceFormType, AssetCommonDetailsFormType, SubscriptionTermsFormType 포함)을 프로비저닝합니다. 시스템 자산 유형은 편집할 수 없습니다.

**사용자 지정 자산 유형** - 사용자 지정 자산 유형을 생성하려면 먼저 양식 유형에 사용할 필수 메타데이터 양식 유형과 용어집을 생성합니다. 그런 다음 필수 또는 선택 사항일 수 있는 이름, 설명 및 관련 메타데이터 양식을 지정하여 사용자 지정 자산 유형을 생성할 수 있습니다.

구조화된 데이터가 있는 자산 유형의 경우 데이터 포털에서 열 스키마를 나타내려면 `RelationalTableFormType`을 사용하여 기술적 메타데이터(열 이름, 설명 및 데이터 유형 포함)를 열에 추가하고 ` ColumnBusinessMetadataForm`을 사용하여 열의 비즈니스 설명(비즈니스 이름, 용어 및 사용자 지정 키 값 페어 포함)을 추가할 수 있습니다.

데이터 포털을 통해 사용자 지정 자산 유형을 생성하려면 다음 단계를 완료합니다.

1. Amazon DataZone 데이터 포털 URL로 이동하여 SSO(Single Sign-On) 또는 자격 AWS 증명을 사용하여 로그인합니다. Amazon DataZone 관리자인 경우 [https://console.aws.amazon.com/datazone](https://console.aws.amazon.com/datazone)에서 Amazon DataZone 콘솔로 이동하여 도메인이 생성된 AWS 계정 으로 로그인한 다음 **데이터 포털 열기**를 선택합니다.

1. 상단 탐색 창에서 **프로젝트 선택**을 선택하고 사용자 지정 자산 유형을 생성할 프로젝트를 선택합니다.

1. 프로젝트의 **데이터** 탭으로 이동합니다.

1. 왼쪽 탐색 창에서 **자산 유형**을 선택한 다음 **자산 유형 생성**을 선택합니다.

1. 다음을 지정한 후 **생성**을 선택합니다.
   + **이름** - 사용자 지정 자산 유형의 이름입니다.
   + **설명** - 사용자 지정 자산 유형에 대한 설명입니다.
   + **메타데이터 양식 추가를 선택**하여 이 사용자 지정 자산 유형에 메타데이터 양식을 추가합니다.

1. 사용자 지정 자산 유형이 생성되면 이를 사용하여 자산을 생성할 수 있습니다.

API를 통해 사용자 지정 자산 유형을 생성하려면 다음 단계를 완료합니다.

1. `CreateFormType` API 작업을 간접적으로 호출하여 메타데이터 양식 유형을 생성합니다.

   다음은 Amazon SageMaker 이벤트 예제입니다.

   ```
   m_model = "
   
   structure SageMakerModelFormType {
      @required
      @amazon.datazone#searchable
      modelName: String
   
      @required
      modelArn: String
   
      @required
      creationTime: String
   }
   "
   
   CreateFormType(
       domainIdentifier="my-dz-domain",
       owningProjectIdentifier="d4bywm0cja1dbb",
       name="SageMakerModelFormType",
       model=m_model
       status="ENABLED"
       )
   ```

1. 다음으로 `CreateAssetType` API 작업을 간접적으로 호출하여 자산 유형을 생성할 수 있습니다. 사용 가능한 시스템 양식 유형(아래 예제에서 `SubscriptionTermsFormType`) 또는 사용자 지정 양식 유형을 사용하여 Amazon DataZone API를 통해서만 자산 유형을 생성할 수 있습니다. 시스템 양식 유형의 경우 유형 이름은 `amazon.datazone`으로 시작해야 합니다.

   ```
   CreateAssetType(
       domainIdentifier="my-dz-domain",
       owningProjectIdentifier="d4bywm0cja1dbb",
       name="SageMakerModelAssetType",
       formsInput={
           "SageMakerModelForm": {
               "typeIdentifier": "SageMakerModelFormType",
               "typeRevision": 7,
               "required": True,
           },
           "SubscriptionTerms": {
               "typeIdentifier": "amazon.datazone.SubscriptionTermsFormType",
               "typeRevision": 1,
               "required": False,
           },
       },
   )
   ```

   다음은 구조화된 데이터에 대한 자산 유형을 생성하는 예제입니다.

   ```
   CreateAssetType(
       domainIdentifier="my-dz-domain",
       owningProjectIdentifier="d4bywm0cja1dbb",
       name="OnPremMySQLAssetType",
       formsInput={
           "OnpremMySQLForm": {
               "typeIdentifier": "OnpremMySQLFormType",
               "typeRevision": 5,
               "required": True,
           },
           "RelationalTableForm": {
               "typeIdentifier": "amazon.datazone.RelationalTableFormType",
               "typeRevision": 1,
               "required": True,
           },
           "ColumnBusinessMetadataForm": {
               "typeIdentifier": "amazon.datazone.ColumnBusinessMetadataFormType",
               "typeRevision": 1,
               "required": False,
           },
           "SubscriptionTerms": {
               "typeIdentifier": "amazon.datazone.SubscriptionTermsFormType",
               "typeRevision": 1,
               "required": False,
           },
       },
   )
   ```

1. 이제 위 단계에서 생성한 사용자 지정 자산 유형을 사용하여 자산을 생성할 수 있습니다.

   ```
   CreateAsset(
      domainIdentifier="my-dz-domain",
      owningProjectIdentifier="d4bywm0cja1dbb",
      typeIdentifier="SageMakerModelAssetType",
      name="MyModelAsset",
      glossaryTerms="xxx",
      formsInput=[{
           "formName": "SageMakerModelForm",
           "typeIdentifier": "SageMakerModelFormType",
           "content": "{\n \"ModelName\" : \"sample-ModelName\",\n \"ModelArn\" : \"999999911111\",\n \"CreationTime\" : \"2025-01-01 18:00:00.000\"}"
           }
           ]
   )
   ```

   이 예제에서는 구조화된 데이터 자산을 생성합니다.

   ```
   CreateAsset(
      domainIdentifier="my-dz-domain",
      owningProjectIdentifier="d4bywm0cja1dbb",
      typeIdentifier="OnPremMySQLAssetType",
      name="MyModelAsset",
      glossaryTerms="xxx",
      formsInput=[{
           "formName": "RelationalTableForm",
           "typeIdentifier": "amazon.datazone.RelationalTableFormType",
           "content": ".."
           },
           {
           "formName": "OnpremMySQLForm",
           "typeIdentifier": "OnpremMySQLFormType",
           "content": ".."
           },
           {
           "formName": "mySQLTableForm",
           "typeIdentifier": "MySQLTableFormType",
           "typeRevision": "1",
           "content": ".."
           },
           {
           "formName": "AssetCommonDetailsForm",
           "typeIdentifier": "amazon.datazone.AssetCommonDetailsFormType",
           "content": "..."
           }, 
           .....
           ]
   )
   ```

# 에 대한 Amazon DataZone 데이터 소스 생성 및 실행 AWS Glue Data Catalog
<a name="create-glue-data-source"></a>

Amazon DataZone에서는 데이터베이스 테이블의 기술적 메타데이터를 가져오기 위해 AWS Glue Data Catalog 데이터 소스를 생성할 수 있습니다 AWS Glue. 에 대한 데이터 소스를 추가하려면 소스 데이터베이스 AWS Glue Data Catalog가 이미에 있어야 합니다 AWS Glue.

 AWS Glue 데이터 소스를 생성하고 실행할 때 소스 AWS Glue 데이터베이스의 자산을 Amazon DataZone 프로젝트의 인벤토리에 추가합니다. 설정된 일정 또는 온디맨드로 AWS Glue 데이터 소스를 실행하여 자산의 기술 메타데이터를 생성하거나 업데이트할 수 있습니다. 데이터 소스가 실행되는 동안 선택적으로 자산을 Amazon DataZone 카탈로그에 게시하여 모든 도메인 사용자가 검색할 수 있도록 할 수 있습니다. 비즈니스 메타데이터를 편집한 후 프로젝트 인벤토리 자산을 게시할 수도 있습니다. 도메인 사용자는 게시된 자산을 검색 및 검색하고 이러한 자산에 대한 구독을 요청할 수 있습니다.

**AWS Glue 데이터 소스를 추가하려면**

1. Amazon DataZone 데이터 포털 URL로 이동하여 SSO(Single Sign-On) 또는 자격 AWS 증명을 사용하여 로그인합니다. Amazon DataZone 관리자인 경우 [https://console.aws.amazon.com/datazone](https://console.aws.amazon.com/datazone)에서 Amazon DataZone 콘솔로 이동하여 도메인이 생성된 AWS 계정 으로 로그인한 다음 **데이터 포털 열기**를 선택합니다.

1. 상단 탐색 창에서 **프로젝트 선택**을 선택하고 데이터 소스를 추가할 프로젝트를 선택합니다.

1. 프로젝트의 **데이터** 탭으로 이동합니다.

1. 왼쪽 탐색 창에서 **데이터 소스**를 선택한 다음 **데이터 소스 생성**을 선택합니다.

1. 다음 필드를 구성합니다.
   + **이름** – 데이터 소스 이름입니다.
   + **설명** - 데이터 소스 설명입니다.

1. **데이터 소스 유형**에서 **AWS Glue**를 선택합니다.

1. **환경 선택**에서 AWS Glue 테이블을 게시할 환경을 지정합니다.

1. **데이터 선택**에서 AWS Glue 데이터베이스를 제공하고 테이블 선택 기준을 입력합니다. 예를 들어 **포함**을 선택하고 `*corporate`를 입력하면 데이터베이스에 `corporate` 단어로 끝나는 모든 소스 테이블이 포함됩니다.

   드롭다운에서 AWS Glue 데이터베이스를 선택하거나 데이터베이스 이름을 입력할 수 있습니다. 드롭다운에는 게시 데이터베이스와 환경의 구독 데이터베이스라는 두 개의 데이터베이스가 포함됩니다. 환경에서 생성하지 않은 데이터베이스에서 자산을 가져오려면 드롭다운에서 선택하는 대신 데이터베이스 이름을 입력해야 합니다.

   단일 데이터베이스 내에서 테이블에 대한 여러 포함 및 제외 규칙을 추가할 수 있습니다. **다른 데이터베이스 추가** 버튼을 사용하여 여러 데이터베이스를 추가할 수도 있습니다.

   

1. **데이터 품질**에서 **이 데이터 소스 에 대한 데이터 품질 활성화**를 선택할 수 있습니다. 이렇게 하면 Amazon DataZone은 기존 AWS Glue 데이터 품질 출력을 Amazon DataZone 카탈로그로 가져옵니다. 기본적으로 Amazon DataZone은 AWS Glue에서 만료 날짜가 없는 최신 기존 100개 품질 보고서를 가져옵니다.

   Amazon DataZone의 데이터 품질 지표는 데이터 소스의 완전성과 정확성을 이해하는 데 도움이 됩니다. Amazon DataZone은 AWS Glue에서 이러한 데이터 품질 지표를 가져와 비즈니스 데이터 카탈로그 검색과 같은 특정 시점의 컨텍스트를 제공합니다. 데이터 사용자는 구독한 자산에 대해 시간이 지남에 따라 데이터 품질 지표가 어떻게 변화하는지 확인할 수 있습니다. 데이터 생산자는 일정에 따라 AWS Glue 데이터 품질 점수를 수집할 수 있습니다. Amazon DataZone 비즈니스 데이터 카탈로그는 데이터 품질 API를 통해 서드파티 시스템에서 품질 지표를 표시할 수 있습니다. 자세한 내용은 [Amazon DataZone의 데이터 품질](datazone-data-quality.md) 섹션을 참조하세요.

1. **다음**을 선택합니다.

1. **게시 설정**에서 비즈니스 데이터 카탈로그에서 자산을 즉시 검색할 수 있는지 여부를 선택합니다. 인벤토리에만 추가하는 경우 나중에 구독 조건을 선택하여 비즈니스 데이터 카탈로그에 게시할 수 있습니다.

1. **자동 비즈니스 이름 생성**의 경우, 소스에서 가져온 자산에 대한 메타데이터를 자동으로 생성할지 여부를 선택합니다.

1. (선택 사항) **메타데이터 양식**의 경우, Amazon DataZone으로 자산을 가져올 때 수집 및 저장되는 메타데이터를 정의하는 양식을 추가합니다. 자세한 내용은 [Amazon DataZone에서 메타데이터 양식 생성](create-metadata-form.md) 섹션을 참조하세요.

1. **실행 기본 설정**에서 데이터 소스를 실행할 시기를 선택합니다.
   + **일정에 따라 실행** - 데이터 소스를 실행할 날짜와 시간을 지정합니다.
   + **온디맨드 실행** - 데이터 소스 실행을 수동으로 시작할 수 있습니다.

1. **다음**을 선택합니다.

1. 데이터 소스 구성을 검토하고 **생성**을 선택합니다.

**참고**  
Glue 데이터 소스가 생성되면 Amazon DataZone은 데이터 소스에 사용되는 AWS Glue 데이터베이스의 모든 테이블에 액세스하기 위해 데이터 소스를 생성하는 데 사용되는 환경의 IAM 역할에 대한 Lake Formation AWS '읽기 전용' 권한을 생성합니다. 환경의 세부 정보 페이지의 데이터 소스에서 이러한 권한 부여의 상태를 모니터링할 수 있습니다. Amazon DataZone은 게시 환경의 AWS IAM 역할에 대한 액세스 권한을 부여할 때 Glue 데이터베이스에 다음 AWS 태그를 추가합니다. `DataZoneDiscoverable_${domainId}: true`   
Amazon DataZone의 현재 릴리스 이전에 생성된 환경의 경우 프로젝트 구성원은 Amazon Athena에서 부여된 테이블을 볼 수 없습니다.

# Amazon Redshift용 Amazon DataZone 데이터 소스 생성 및 실행
<a name="create-redshift-data-source"></a>

Amazon DataZone에서는 Amazon Redshift 데이터 웨어하우스에서 데이터베이스 테이블 및 뷰의 기술적 메타데이터를 가져오기 위해 Amazon Redshift 데이터 소스를 생성할 수 있습니다. Amazon Redshift용 Amazon DataZone 데이터 소스를 추가하려면 소스 데이터 웨어하우스가 Amazon Redshift에 이미 있어야 합니다.

Amazon Redshift 데이터 소스를 생성하고 실행할 때 소스 Amazon Redshift 데이터 웨어하우스의 자산을 Amazon DataZone 프로젝트의 인벤토리에 추가합니다. Amazon Redshift 데이터 소스를 설정된 일정 또는 온디맨드로 실행하여 자산의 기술 메타데이터를 생성하거나 업데이트할 수 있습니다. 데이터 소스가 실행되는 동안 선택적으로 프로젝트 인벤토리 자산을 Amazon DataZone 카탈로그에 게시하여 모든 도메인 사용자가 검색할 수 있도록 할 수 있습니다. 비즈니스 메타데이터를 편집한 후 인벤토리 자산을 게시할 수도 있습니다. 도메인 사용자는 게시된 자산을 검색 및 검색하고 이러한 자산에 대한 구독을 요청할 수 있습니다.

**Amazon Redshift 데이터 소스를 추가하려면**

1. Amazon DataZone 데이터 포털 URL로 이동하여 SSO(Single Sign-On) 또는 자격 AWS 증명을 사용하여 로그인합니다. Amazon DataZone 관리자인 경우 [https://console.aws.amazon.com/datazone](https://console.aws.amazon.com/datazone)에서 Amazon DataZone 콘솔로 이동하여 도메인이 생성된 AWS 계정 으로 로그인한 다음 **데이터 포털 열기**를 선택합니다.

1. 상단 탐색 창에서 **프로젝트 선택**을 선택하고 데이터 소스를 추가할 프로젝트를 선택합니다.

1. 프로젝트의 **데이터** 탭으로 이동합니다.

1. 왼쪽 탐색 창에서 **데이터 소스**를 선택한 다음 **데이터 소스 생성**을 선택합니다.

1. 다음 필드를 구성합니다.
   + **이름** – 데이터 소스 이름입니다.
   + **설명** - 데이터 소스 설명입니다.

1. **데이터 소스 유형**에서 **Amazon Redshift**를 선택합니다.

1. **환경 선택**에서 Amazon Redshift 테이블을 게시할 환경을 지정합니다.

1. 선택한 환경에 따라 Amazon DataZone은 Amazon Redshift 자격 증명 및 기타 파라미터를 환경에서 직접 자동으로 적용하거나 직접 선택할 수 있는 옵션을 제공합니다.
   + 환경의 기본 Amazon Redshift 스키마에서만 게시를 허용하는 환경을 선택한 경우 Amazon DataZone은 Amazon Redshift 자격 증명과 Amazon Redshift 클러스터 또는 작업 그룹 이름, AWS 보안 암호, 데이터베이스 이름 및 스키마 이름을 포함한 기타 파라미터를 자동으로 적용합니다. 이러한 자동 채워진 파라미터는 편집할 수 없습니다.
   + 어떤 데이터든 게시할 수 없는 환경을 선택하면 데이터 소스 생성을 진행할 수 없습니다.
   + 스키마에서 데이터를 게시할 수 있는 환경을 선택하면 환경의 자격 증명 및 기타 Amazon Redshift 파라미터를 사용하거나 자체 자격 증명/파라미터를 입력하는 옵션이 표시됩니다.

1. 자체 자격 증명을 사용하여 데이터 소스를 생성하도록 선택한 경우 다음 세부 정보를 제공합니다.
   + **Amazon Redshift 자격 증명 제공**에서 프로비저닝된 Amazon Redshift 클러스터 또는 Amazon Redshift Serverless 워크스페이스를 데이터 소스로 사용할지 여부를 선택합니다.
   + 위 단계의 선택에 따라 드롭다운 메뉴에서 Amazon Redshift 클러스터 또는 워크스페이스를 선택한 다음 AWS Secrets Manager에서 인증에 사용할 보안 암호를 선택합니다. 기존 보안 암호를 선택하거나 새로운 보안 암호를 생성할 수 있습니다.
   + 기존 보안 암호가 드롭다운에 표시되도록 하려면 AWS Secrets Manager의 보안 암호에 다음 태그(키/값)가 포함되어 있는지 확인합니다.
     + AmazonDataZoneProject: <projectID> 
     + AmazonDataZoneDomain: <domainID>

     새 보안 암호를 생성하도록 선택하면 보안 암호에 위에 참조된 태그가 자동으로 지정되므로 추가 단계가 필요하지 않습니다. 자세한 내용은 [에 데이터베이스 자격 증명 저장을 참조하세요 AWS Secrets Manager](https://docs.aws.amazon.com/redshift/latest/mgmt/data-api-access.html#data-api-secrets).

     데이터 소스를 생성하기 위해 제공된 AWS 보안 암호의 Amazon Redshift 사용자는 게시할 테이블에 대한 `SELECT` 권한이 있어야 합니다. Amazon DataZone이 사용자를 대신하여 구독(액세스)도 관리하도록 하려면 AWS 보안 암호의 데이터베이스 사용자에게 다음 권한도 있어야 합니다.
     + `CREATE DATASHARE`
     + `ALTER DATASHARE`
     + `DROP DATASHARE`

1. **데이터 선택**에서 Amazon Redshift 데이터베이스, 스키마를 제공하고 테이블 또는 뷰 선택 기준을 입력합니다. 예를 들어 **포함**을 선택하고 `*corporate`를 입력하면 자산에는 `corporate` 단어로 끝나는 모든 소스 테이블이 포함됩니다.

   단일 데이터베이스 내에서 테이블에 대한 여러 포함 규칙을 추가할 수 있습니다. **다른 데이터베이스 추가** 버튼을 사용하여 여러 데이터베이스를 추가할 수도 있습니다.

1. **다음**을 선택합니다.

1. **게시 설정**에서 데이터 카탈로그에서 자산을 즉시 검색할 수 있는지 여부를 선택합니다. 인벤토리에만 추가하는 경우 나중에 구독 조건을 선택하여 비즈니스 데이터 카탈로그에 게시할 수 있습니다.

1. **자동 비즈니스 이름 생성**의 경우, 소스에서 게시되고 업데이트된 자산에 대한 메타데이터를 자동으로 생성할지 여부를 선택합니다.

1. (선택 사항) **메타데이터 양식**의 경우, Amazon DataZone으로 자산을 가져올 때 수집 및 저장되는 메타데이터를 정의하는 양식을 추가합니다. 자세한 내용은 [Amazon DataZone에서 메타데이터 양식 생성](create-metadata-form.md) 섹션을 참조하세요.

1. **실행 기본 설정**에서 데이터 소스를 실행할 시기를 선택합니다.
   + **일정에 따라 실행** - 데이터 소스를 실행할 날짜와 시간을 지정합니다.
   + **온디맨드 실행** - 데이터 소스 실행을 수동으로 시작할 수 있습니다.

1. **다음**을 선택합니다.

1. 데이터 소스 구성을 검토하고 **생성**을 선택합니다.

**참고**  
Amazon Redshift 데이터 소스가 생성되면 Amazon DataZone은 데이터 소스에 사용되는 Amazon Redshift 스키마의 모든 테이블에 액세스하기 위해 데이터 소스를 생성하는 데 사용되는 환경에 대한 읽기 전용 액세스 권한을 부여합니다. 환경의 세부 정보 페이지의 데이터 소스에서 이러한 권한 부여의 상태를 모니터링할 수 있습니다.  
환경을 생성하는 데 사용된 것과 다른 Amazon Redshift 클러스터 또는 Serverless 작업 그룹을 사용하는 경우 클러스터 또는 작업 그룹에 다음 AWS 태그가 추가되었는지 확인해야 합니다. 이는 환경 사용자가 Amazon Redshift Query Editor V2에서 부여된 데이터베이스를 볼 수 있도록 하는 데 필요합니다. `DataZoneDiscoverable_${domainId}: true`   
Amazon DataZone 의 현재 릴리스 이전에 생성된 환경의 경우 프로젝트 구성원은 Amazon Redshift에서 부여된 테이블을 볼 수 없습니다.

# Amazon DataZone에서 데이터 소스 편집
<a name="edit-data-source"></a>

Amazon DataZone 데이터 소스를 생성한 후 언제든지 수정하여 소스 세부 정보 또는 데이터 선택 기준을 변경할 수 있습니다. 데이터 소스를 더 이상 사용할 필요가 없는 경우 삭제할 수 있습니다.

이 단계를 완료하려면 **AmazonDataZoneFullAccess** AWS 관리형 정책이 연결되어 있어야 합니다. 자세한 내용은 [AWS Amazon DataZone에 대한 관리형 정책](security-iam-awsmanpol.md) 단원을 참조하십시오.

Amazon DataZone 데이터 소스를 편집하여 테이블 선택 기준 추가, 제거 또는 변경을 포함하여 데이터 선택 설정을 수정할 수 있습니다. 데이터베이스를 추가하고 제거할 수도 있습니다. 데이터 소스 유형 또는 데이터 소스가 게시되는 환경을 변경할 수 없습니다.

**데이터 원본을 편집하려면**

1. Amazon DataZone 데이터 포털 URL로 이동하여 SSO(Single Sign-On) 또는 자격 AWS 증명을 사용하여 로그인합니다. Amazon DataZone 관리자인 경우 [https://console.aws.amazon.com/datazone](https://console.aws.amazon.com/datazone)에서 Amazon DataZone 콘솔로 이동하여 도메인이 생성된 AWS 계정 으로 로그인한 다음 **데이터 포털 열기**를 선택합니다.

1. 상단 탐색 창에서 **프로젝트 선택**을 선택하고 데이터 소스가 속한 프로젝트를 선택합니다.

1. 프로젝트의 **데이터** 탭으로 이동합니다.

1. 왼쪽 탐색 창에서 **데이터 소스**를 선택한 다음 수정하려는 데이터 소스를 선택합니다.

1. **데이터 소스 정의** 탭으로 이동하여 **편집**을 선택합니다.

1. 데이터 소스 정의를 변경합니다. 데이터 소스 세부 정보를 업데이트하고 데이터 선택 기준을 변경할 수 있습니다.

1. 변경 작업을 마치면 **저장**을 선택합니다.

# Amazon DataZone에서 데이터 소스 삭제
<a name="delete-data-source"></a>

Amazon DataZone 데이터 소스를 생성한 후 언제든지 수정하여 소스 세부 정보 또는 데이터 선택 기준을 변경할 수 있습니다.

이 단계를 완료하려면 **AmazonDataZoneFullAccess** AWS 관리형 정책이 연결되어 있어야 합니다. 자세한 내용은 [AWS Amazon DataZone에 대한 관리형 정책](security-iam-awsmanpol.md) 단원을 참조하십시오.

Amazon DataZone 데이터 소스가 더 이상 필요하지 않은 경우 영구적으로 제거할 수 있습니다. 데이터 소스를 삭제한 후에도 해당 데이터 소스에서 시작된 모든 자산은 카탈로그에서 계속 사용할 수 있으며 사용자는 계속 구독할 수 있습니다. 그러나 자산은 소스로부터 업데이트 수신을 중지합니다. 종속 자산을 삭제하기 전에 먼저 다른 데이터 소스로 이동하는 것이 좋습니다.

**참고**  
데이터 소스를 삭제하려면 먼저 데이터 소스에서 모든 이행을 제거해야 합니다. 자세한 내용은 [Amazon DataZone 데이터 검색, 구독 및 소비](discover-subscribe-consume-data.md) 섹션을 참조하세요.

**데이터 소스를 삭제하기**

1. 프로젝트의 **데이터** 탭에서 왼쪽 탐색 창에서 **데이터 소스**를 선택합니다.

1. 삭제하려는 데이터 소스를 선택합니다.

1. **작업**, **데이터 소스 삭제**를 차례로 선택한 후 삭제를 확인합니다.

# 프로젝트 인벤토리에서 Amazon DataZone 카탈로그에 자산 게시
<a name="publishing-data-asset"></a>

프로젝트 인벤토리의 Amazon DataZone 자산과 메타데이터를 Amazon DataZone 카탈로그에 게시할 수 있습니다. 최신 버전의 자산만 카탈로그에 게시할 수 있습니다.

카탈로그에 자산을 게시할 때는 다음 사항을 고려하세요.
+ 카탈로그에 자산을 게시하려면 해당 프로젝트의 소유자 또는 기여자여야 합니다.
+ Amazon Redshift 자산의 경우 Amazon DataZone이 Redshift 테이블 및 뷰에 대한 액세스를 관리하기 위해 게시자 및 구독자 클러스터와 연결된 Amazon Redshift 클러스터가 Amazon Redshift 데이터 공유에 대한 모든 요구 사항을 충족하는지 확인합니다. [Amazon Redshift의 데이터 공유 개념](https://docs.aws.amazon.com/redshift/latest/dg/concepts.html)을 참조하세요.
+ Amazon DataZone은 AWS Glue Data Catalog 및 Amazon Redshift에서 게시된 자산에 대한 액세스 관리만 지원합니다. Amazon S3 객체와 같은 다른 모든 자산의 경우 Amazon DataZone은 승인된 구독자의 액세스를 관리하지 않습니다. 이러한 관리되지 않는 자산을 구독하면 다음 메시지가 표시됩니다.

  `Subscription approval does not provide access to data. Subscription grants on this asset are not managed by Amazon DataZone. For more information or help, reach out to your administrator.`

## Amazon DataZone에 자산 게시
<a name="publish-data-asset"></a>

데이터 소스를 생성할 때 데이터 카탈로그에서 자산을 즉시 검색하도록 선택하지 않은 경우 다음 단계를 수행하여 나중에 게시합니다.

**자산을 게시하려면**

1. Amazon DataZone 데이터 포털 URL로 이동하여 SSO(Single Sign-On) 또는 자격 AWS 증명을 사용하여 로그인합니다. Amazon DataZone 관리자인 경우 [https://console.aws.amazon.com/datazone](https://console.aws.amazon.com/datazone)에서 Amazon DataZone 콘솔로 이동하여 도메인이 생성된 AWS 계정 으로 로그인한 다음 **데이터 포털 열기**를 선택합니다.

1. 상단 탐색 창에서 **프로젝트 선택**을 선택하고 자산이 속한 프로젝트를 선택합니다.

1. 프로젝트의 **데이터** 탭으로 이동합니다.

1. 왼쪽 탐색 창에서 **인벤토리 데이터**를 선택한 다음 게시할 자산을 선택합니다.
**참고**  
기본적으로 모든 자산에는 구독 승인이 필요합니다. 즉, 데이터 소유자가 자산에 대한 모든 구독 요청을 승인해야 합니다. 자산을 게시하기 전에 이 설정을 변경하려면 자산 세부 정보를 열고 **구독 승인** 옆의 **편집**을 선택합니다. 나중에 자산을 수정하고 다시 게시하여 이 설정을 변경할 수 있습니다.

1. **자산 게시**를 선택합니다. 자산은 카탈로그에 직접 게시됩니다.

   승인 요구 사항 수정과 같이 자산을 변경하는 경우 **재게시**를 선택하여 카탈로그에 업데이트를 게시할 수 있습니다.

# Amazon DataZone에서 인벤토리 관리 및 자산 큐레이팅
<a name="update-metadata"></a>

Amazon DataZone을 사용하여 데이터를 카탈로그화하려면 먼저 Amazon DataZone에서 프로젝트 인벤토리로 데이터(자산)를 가져와야 합니다. 특정 프로젝트의 인벤토리를 생성하면 해당 프로젝트의 구성원만 자산을 검색할 수 있습니다.

프로젝트 인벤토리에서 자산이 생성되면 메타데이터를 큐레이션할 수 있습니다. 예를 들어 자산의 이름, 설명, 알림을 편집할 수 있습니다. 자산을 편집할 때마다 자산의 새 버전이 생성됩니다. 자산 세부 정보 페이지의 기록 탭을 사용하여 모든 자산 버전을 볼 수 있습니다.

**알림** 섹션을 편집하고 자산에 대한 풍부한 설명을 추가할 수 있습니다. **알림** 섹션은 마크다운을 지원하므로 필요에 따라 설명을 포맷하고 자산에 대한 주요 정보를 소비자에게 설명할 수 있습니다.

용어집 용어는 사용 가능한 양식을 작성하여 자산 수준에서 추가할 수 있습니다.

스키마를 큐레이션하려면 열을 검토하고, 비즈니스 이름, 설명을 추가하고, 열 수준에서 용어집 용어를 추가할 수 있습니다.

데이터 소스가 생성될 때 자동 메타데이터 생성이 활성화된 경우 자산 및 열의 비즈니스 이름을 개별적으로 또는 모두 한 번에 검토하고 수락하거나 거부할 수 있습니다.

구독 조건을 편집하여 자산에 대한 승인이 필요한지 여부를 지정할 수도 있습니다.

Amazon DataZone의 메타데이터 양식을 사용하면 사용자 지정 정의 속성(예: 판매 지역, 판매 연도 및 판매 분기)을 추가하여 데이터 자산의 메타데이터 모델을 확장할 수 있습니다. 자산 유형에 연결된 메타데이터 양식은 해당 자산 유형에서 생성된 모든 자산에 적용됩니다. 데이터 소스 실행의 일부로 또는 생성된 후 개별 자산에 메타데이터 양식을 추가할 수도 있습니다. 새 양식을 생성하려면 [Amazon DataZone에서 메타데이터 양식 생성](create-metadata-form.md) 섹션을 참조하세요.

자산의 메타데이터를 업데이트하려면 자산이 속한 프로젝트의 소유자 또는 기여자여야 합니다.

**자산의 메타데이터를 업데이트하려면**

1. Amazon DataZone 데이터 포털 URL로 이동하여 SSO(Single Sign-On) 또는 자격 AWS 증명을 사용하여 로그인합니다. Amazon DataZone 관리자인 경우 [https://console.aws.amazon.com/datazone](https://console.aws.amazon.com/datazone)에서 Amazon DataZone 콘솔로 이동하여 도메인이 생성된 AWS 계정 으로 로그인한 다음 **데이터 포털 열기**를 선택합니다.

1. 상단 탐색 창에서 **프로젝트 선택**을 선택하고 업데이트하려는 메타데이터의 자산이 포함된 프로젝트를 선택합니다.

1. 프로젝트의 **데이터** 탭으로 이동합니다.

1. 왼쪽 탐색 창에서 **인벤토리 데이터**를 선택한 다음 업데이트하려는 메타데이터의 자산 이름을 선택합니다.

1. 자산 세부 정보 페이지의 **메타데이터 양식**에서 필요에 따라 기존 양식 **편집** 및 편집을 선택합니다. 자산에 추가 메타데이터 양식을 연결할 수도 있습니다. 자세한 내용은 [자산에 추가 메타데이터 양식 연결](#update-metadata-data-steward) 섹션을 참조하세요.

1. 업데이트가 완료되면 **양식 저장**을 선택합니다.

   양식을 저장하면 Amazon DataZone이 자산의 새 인벤토리 버전을 생성합니다. 업데이트된 버전을 카탈로그에 게시하려면 **자산 재게시**를 선택합니다.

## 자산에 추가 메타데이터 양식 연결
<a name="update-metadata-data-steward"></a>

기본적으로 도메인에 연결된 메타데이터 양식은 해당 도메인에 게시된 모든 자산에 연결됩니다. 데이터 게시자는 추가 컨텍스트를 제공하기 위해 추가 메타데이터 양식을 개별 자산에 연결할 수 있습니다.

**자산에 추가 메타데이터 양식을 연결하려면**

1. Amazon DataZone 데이터 포털 URL로 이동하여 SSO(Single Sign-On) 또는 자격 AWS 증명을 사용하여 로그인합니다. Amazon DataZone 관리자인 경우 [https://console.aws.amazon.com/datazone](https://console.aws.amazon.com/datazone)에서 Amazon DataZone 콘솔로 이동하여 도메인이 생성된 AWS 계정 으로 로그인한 다음 **데이터 포털 열기**를 선택합니다.

1. 상단 탐색 창에서 **프로젝트 선택**을 선택하고 메타데이터를 추가할 자산이 포함된 프로젝트를 선택합니다.

1. 프로젝트의 **데이터** 탭으로 이동합니다.

1. 왼쪽 탐색 창에서 **인벤토리 데이터**를 선택한 다음 메타데이터를 추가할 자산의 이름을 선택합니다.

1. 자산 세부 정보 페이지의 **메타데이터 양식**에서 **양식 추가**를 선택합니다.

1. 자산에 추가할 양식을 선택한 다음 **양식 추가**를 선택합니다.

1. 각 메타데이터 필드의 값을 입력한 다음 **양식 저장**을 선택합니다.

   양식을 저장하면 Amazon DataZone이 자산의 새 인벤토리 버전을 생성합니다. 업데이트된 버전을 카탈로그에 게시하려면 **자산 재게시**를 선택합니다.

## Amazon DataZone에서 큐레이션 후 카탈로그에 자산 게시
<a name="publish-asset-after-curation"></a>

자산 큐레이션에 만족하면 데이터 소유자는 Amazon DataZone 카탈로그에 자산 버전을 게시하여 모든 도메인 사용자가 검색할 수 있도록 할 수 있습니다. 자산에는 인벤토리 버전과 게시된 버전이 표시됩니다. 검색 카탈로그에는 게시된 최신 버전만 표시됩니다. 게시 후 메타데이터가 업데이트되면 카탈로그에 새 인벤토리 버전을 게시할 수 있습니다.

# Amazon DataZone에서 수동으로 자산 생성
<a name="create-data-asset-manually"></a>

Amazon DataZone에서 자산은 단일 물리적 데이터 객체(예: 테이블, 대시보드, 파일) 또는 가상 데이터 객체(예: 뷰)를 제공하는 엔터티입니다. 자세한 내용은 [Amazon DataZone 용어 및 개념](datazone-concepts.md) 섹션을 참조하세요. 자산을 수동으로 게시하는 것은 일회성 작업입니다. 자산에 대한 실행 일정을 지정하지 않으므로 소스가 변경되면 자동으로 업데이트되지 않습니다.

프로젝트를 통해 자산을 수동으로 생성하려면 해당 프로젝트의 소유자 또는 기여자여야 합니다.

**자산을 수동으로 생성하려면**

1. Amazon DataZone 데이터 포털 URL로 이동하여 SSO(Single Sign-On) 또는 자격 AWS 증명을 사용하여 로그인합니다. Amazon DataZone 관리자인 경우 [https://console.aws.amazon.com/datazone](https://console.aws.amazon.com/datazone)에서 Amazon DataZone 콘솔로 이동하여 도메인이 생성된 AWS 계정 으로 로그인한 다음 **데이터 포털 열기**를 선택합니다.

1. 상단 탐색 창에서 **프로젝트 선택**을 선택하고 자산을 생성할 프로젝트를 선택합니다.

1. 프로젝트의 **데이터** 탭으로 이동합니다.

1. 왼쪽 탐색 창에서 **데이터 소스**를 선택한 다음 **데이터 소스 생성**을 선택합니다.

1. **자산 세부 정보**에서 다음 설정을 구성합니다.
   + **자산 유형** - 자산 유형입니다.
   + **이름** - 자산의 이름입니다.
   + **설명** - 정책의 설명입니다.

1. **S3 위치**에 소스 S3 버킷의 Amazon 리소스 이름(ARN)을 입력합니다.

   선택적으로 S3 액세스 포인트를 입력합니다. 자세한 내용을 알아보려면 [Amazon S3 액세스 지점을 사용한 데이터 액세스 관리](https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-points.html)를 참조하세요.

1. **게시 설정**에서 카탈로그에서 자산을 즉시 검색할 수 있는지 여부를 선택합니다. 인벤토리에만 추가하는 경우 나중에 구독 조건을 선택하여 카탈로그에 게시할 수 있습니다.

1. **생성(Create)**을 선택합니다.

   자산이 생성되면 카탈로그에 활성 자산으로 직접 게시되거나 게시하기로 결정할 때까지 인벤토리에 저장됩니다.

# Amazon DataZone 카탈로그에서 자산 게시 취소
<a name="archive-data-asset"></a>

카탈로그에서 Amazon DataZone 자산을 게시 취소하면 글로벌 검색 결과에 더 이상 표시되지 않습니다. 신규 사용자는 카탈로그의 자산 목록을 찾거나 구독할 수 없지만 기존 구독은 모두 동일합니다.

자산을 게시 취소하려면 자산이 속한 프로젝트의 소유자 또는 기여자여야 합니다.

**자산을 게시 취소하려면**

1. Amazon DataZone 데이터 포털 URL로 이동하여 SSO(Single Sign-On) 또는 자격 AWS 증명을 사용하여 로그인합니다. Amazon DataZone 관리자인 경우 [https://console.aws.amazon.com/datazone](https://console.aws.amazon.com/datazone)에서 Amazon DataZone 콘솔로 이동하여 도메인이 생성된 AWS 계정 으로 로그인한 다음 **데이터 포털 열기**를 선택합니다.

1. 상단 탐색 창에서 **프로젝트 선택**을 선택하고 자산이 속한 프로젝트를 선택합니다.

1. 프로젝트의 **데이터** 탭으로 이동합니다.

1. 왼쪽 탐색 창에서 **게시된 데이터**를 선택합니다.

1. 게시된 자산 목록에서 자산을 찾은 다음 **게시 취소**를 선택합니다.

   카탈로그에서 자산이 제거됩니다. 게시를 선택하여 언제든지 자산을 다시 **게시**할 수 있습니다.

# Amazon DataZone 자산 삭제
<a name="delete-data-asset"></a>

Amazon DataZone에 자산이 더 이상 필요하지 않으면 영구적으로 삭제할 수 있습니다. 자산을 삭제하는 것은 카탈로그에서 자산을 게시 취소하는 것과 다릅니다. 검색 결과에 표시되지 않도록 카탈로그에서 자산 및 관련 목록을 삭제할 수 있습니다. 자산 목록을 삭제하려면 먼저 모든 구독을 취소해야 합니다.

자산을 삭제하려면 자산이 속한 프로젝트의 소유자 또는 기여자여야 합니다.

**참고**  
자산 목록을 삭제하려면 먼저 자산에 대한 기존 구독을 모두 취소해야 합니다. 기존 구독자가 있는 자산 목록은 삭제할 수 없습니다.

**자산을 삭제하려면**

1. Amazon DataZone 데이터 포털 URL로 이동하여 SSO(Single Sign-On) 또는 자격 AWS 증명을 사용하여 로그인합니다. Amazon DataZone 관리자인 경우 [https://console.aws.amazon.com/datazone](https://console.aws.amazon.com/datazone)에서 Amazon DataZone 콘솔로 이동하여 도메인이 생성된 AWS 계정 으로 로그인한 다음 **데이터 포털 열기**를 선택합니다.

1. 상단 탐색 창에서 **프로젝트 선택**을 선택하고 삭제할 자산이 포함된 프로젝트를 선택합니다.

1. 프로젝트의 **데이터** 탭으로 이동합니다.

1. 왼쪽 탐색 창에서 **게시된 데이터**를 선택한 다음 삭제할 자산을 찾아 선택합니다. 그러면 자산 세부 정보 페이지가 열립니다.

1. **작업**, **삭제**를 차례로 선택한 후 삭제를 확인합니다.

   자산이 삭제되면 더 이상 볼 수 없으며 사용자는 자산을 구독할 수 없습니다.

# Amazon DataZone에서 수동으로 데이터 소스 실행 시작
<a name="manually-start-data-source-run"></a>

데이터 소스를 실행하면 Amazon DataZone은 소스에서 모든 새 메타데이터 또는 수정된 메타데이터를 가져와 인벤토리의 관련 자산을 업데이트합니다. Amazon DataZone에 데이터 소스를 추가할 때 소스의 실행 기본 설정을 지정합니다. 이 기본 설정은 소스가 일정에 따라 실행되는지 아니면 필요에 따라 실행되는지를 정의합니다. 소스가 필요에 따라 실행되는 경우 데이터 소스 실행을 수동으로 시작해야 합니다.

소스가 일정에 따라 실행되더라도 언제든지 수동으로 실행할 수 있습니다. 자산에 비즈니스 메타데이터를 추가한 후 자산을 선택하고 Amazon DataZone 카탈로그에 게시하여 모든 도메인 사용자가 이러한 자산을 검색할 수 있도록 할 수 있습니다. 게시된 자산만 다른 도메인 사용자가 검색할 수 있습니다.

**데이터 소스를 수동으로 실행하려면**

1. Amazon DataZone 데이터 포털 URL로 이동하여 SSO(Single Sign-On) 또는 자격 AWS 증명을 사용하여 로그인합니다. Amazon DataZone 관리자인 경우 [https://console.aws.amazon.com/datazone](https://console.aws.amazon.com/datazone)에서 Amazon DataZone 콘솔로 이동하여 도메인이 생성된 AWS 계정 으로 로그인한 다음 **데이터 포털 열기**를 선택합니다.

1. 상단 탐색 창에서 **프로젝트 선택**을 선택하고 데이터 소스가 속한 프로젝트를 선택합니다.

1. 프로젝트의 **데이터** 탭으로 이동합니다.

1. 왼쪽 탐색 창에서 **데이터 소스**를 선택한 다음 실행할 데이터 소스를 찾아 선택합니다. 그러면 데이터 소스 세부 정보 페이지가 열립니다.

1. **온디맨드 실행**을 선택합니다.

   Amazon DataZone이 자산 메타데이터를 소스의 최신 데이터로 업데이트하면 데이터 소스 상태가 `Running`으로 변경됩니다. **데이터 소스 실행** 탭에서 실행 상태를 모니터링할 수 있습니다.

# Amazon DataZone의 자산 개정
<a name="asset-versioning"></a>

Amazon DataZone은 비즈니스 또는 기술 메타데이터를 편집할 때 자산의 개정을 증가시킵니다. 이러한 편집에는 자산 이름, 설명, 용어집 용어, 열 이름, 메타데이터 양식 및 메타데이터 양식 필드 값 수정이 포함됩니다. 이러한 변경은 수동 편집, 데이터 소스 작업 실행 또는 API 작업으로 인해 발생할 수 있습니다. Amazon DataZone은 자산을 편집할 때마다 새 자산 개정을 자동으로 생성합니다.

자산을 업데이트하고 새 개정이 생성된 후에는 새 개정을 카탈로그에 게시하여 구독자가 업데이트하고 사용할 수 있도록 해야 합니다. 자세한 내용은 [프로젝트 인벤토리에서 Amazon DataZone 카탈로그에 자산 게시](publishing-data-asset.md) 섹션을 참조하세요. 최신 버전의 자산만 카탈로그에 게시할 수 있습니다.

**자산의 과거 개정을 보려면**

1. Amazon DataZone 데이터 포털 URL로 이동하여 SSO(Single Sign-On) 또는 자격 AWS 증명을 사용하여 로그인합니다. Amazon DataZone 관리자인 경우 [https://console.aws.amazon.com/datazone](https://console.aws.amazon.com/datazone)에서 Amazon DataZone 콘솔로 이동하여 도메인이 생성된 AWS 계정 으로 로그인한 다음 **데이터 포털 열기**를 선택합니다.

1. 상단 탐색 창에서 **프로젝트 선택**을 선택하고 자산이 포함된 프로젝트를 선택합니다.

1. 프로젝트의 **데이터** 탭으로 이동한 다음 자산을 찾아 선택합니다. 그러면 자산 세부 정보 페이지가 열립니다.

1. 자산의 과거 개정 목록을 표시하는 **기록** 탭으로 이동합니다.

# Amazon DataZone의 데이터 품질
<a name="datazone-data-quality"></a>

Amazon DataZone의 데이터 품질 지표는 데이터 소스의 완전성, 적시성 및 정확성과 같은 다양한 품질 지표를 이해하는 데 도움이 됩니다. Amazon DataZone은 AWS Glue Data Quality와 통합되며 타사 데이터 품질 솔루션의 데이터 품질 지표를 통합하는 APIs를 제공합니다. 데이터 사용자는 구독한 자산에 대해 시간이 지남에 따라 데이터 품질 지표가 어떻게 변화하는지 확인할 수 있습니다. 데이터 품질 규칙을 작성하고 실행하려면 AWS Glue 데이터 품질과 같이 선택한 데이터 품질 도구를 사용할 수 있습니다. Amazon DataZone의 데이터 품질 지표를 사용하면 데이터 소비자는 자산 및 열의 데이터 품질 점수를 시각화하여 결정에 사용하는 데이터에 대한 신뢰를 구축할 수 있습니다.

**사전 조건 및 IAM 역할 변경**

Amazon DataZone의 AWS 관리형 정책을 사용하는 경우 추가 구성 단계가 없으며 이러한 관리형 정책은 데이터 품질을 지원하도록 자동으로 업데이트됩니다. Amazon DataZone에 지원되는 서비스와 상호 운용하는 데 필요한 권한을 부여하는 역할에 대해 자체 정책을 사용하는 경우 이러한 역할에 연결된 정책을 업데이트하여에서 AWS Glue 데이터 품질 정보를 읽을 수 있도록 지원하고 [AWS 관리형 정책: AmazonDataZoneGlueManageAccessRolePolicy](security-iam-awsmanpol-AmazonDataZoneGlueManageAccessRolePolicy.md) 및 [AWS 관리형 정책: AmazonDataZoneDomainExecutionRolePolicy](security-iam-awsmanpol-AmazonDataZoneDomainExecutionRolePolicy.md)에서 시계열 APIs에 대한 지원을 활성화해야 합니다[AWS 관리형 정책: AmazonDataZoneFullUserAccess](security-iam-awsmanpol-AmazonDataZoneFullUserAccess.md).

## AWS Glue 자산에 대한 데이터 품질 활성화
<a name="datazone-data-quality-glue"></a>

Amazon DataZone은 비즈니스 데이터 카탈로그 검색과 같은 특정 시점에 컨텍스트를 제공하기 위해 AWS Glue에서 데이터 품질 지표를 가져옵니다. 데이터 사용자는 구독한 자산에 대해 시간이 지남에 따라 데이터 품질 지표가 어떻게 변화하는지 확인할 수 있습니다. 데이터 생산자는 일정에 따라 AWS Glue 데이터 품질 점수를 수집할 수 있습니다. Amazon DataZone 비즈니스 데이터 카탈로그는 데이터 품질 API를 통해 서드파티 시스템에서 품질 지표를 표시할 수 있습니다. 자세한 내용은 [AWS Glue 데이터 품질](https://docs.aws.amazon.com/glue/latest/dg/glue-data-quality.html) 및 [데이터 카탈로그의 AWS Glue 데이터 품질 시작하기를 참조하세요](https://docs.aws.amazon.com/glue/latest/dg/data-quality-getting-started.html).

다음과 같은 방법으로 Amazon DataZone 자산에 대한 데이터 품질 지표를 활성화할 수 있습니다.
+ 데이터 포털 또는 Amazon DataZone APIs 사용하여 새 AWS Glue 데이터 소스를 생성하거나 기존 Glue 데이터 소스를 편집하는 동안 Amazon DataZone 데이터 포털을 통해 AWS Glue 데이터 소스에 대한 데이터 품질을 활성화합니다.

  포털을 통해 데이터 소스에 대한 데이터 품질을 활성화하는 방법에 대한 자세한 내용은 [에 대한 Amazon DataZone 데이터 소스 생성 및 실행 AWS Glue Data Catalog](create-glue-data-source.md) 섹션을 참조하세요.
**참고**  
Data Portal을 사용하여 AWS Glue 인벤토리 자산에 대한 데이터 품질만 활성화할 수 있습니다. 이번 릴리스에서 Amazon DataZone은 데이터 포털을 통해 Amazon Redshift 또는 사용자 지정 유형 자산에 대한 데이터 품질을 활성화할 수 없습니다.

  API를 사용하여 새 데이터 소스 또는 기존 데이터 소스의 데이터 품질을 활성화할 수도 있습니다. [CreateDataSource](https://docs.aws.amazon.com/datazone/datazone/latest/APIReference/API_CreateDataSource.htmlAPI) 또는 [UpdateDataSource](https://docs.aws.amazon.com/datazone/datazone/latest/APIReference/API_UpdateDataSource.htmlAPI)를 간접적으로 호출하고 `autoImportDataQualityResult` 파라미터를 'True'로 설정하여 이 작업을 수행할 수 있습니다.

  데이터 품질이 활성화된 후 요청 시 또는 일정에 따라 데이터 소스를 실행할 수 있습니다. 각 실행은 자산당 최대 100개의 지표를 가져올 수 있습니다. 데이터 품질을 위해 데이터 소스를 사용할 때는 양식을 생성하거나 지표를 수동으로 추가할 필요가 없습니다. 자산이 게시되면 데이터 품질 양식에 수행된 업데이트(이력 규칙당 최대 30개의 데이터 포인트)가 소비자 목록에 반영됩니다. 그런 다음 자산에 지표를 새로 추가할 때마다 목록에 자동으로 추가됩니다. 소비자가 최신 점수를 사용할 수 있도록 자산을 다시 게시할 필요가 없습니다.

## 사용자 지정 자산 유형에 대한 데이터 품질 활성화
<a name="datazone-data-quality-third-party"></a>

Amazon DataZone API를 사용하여 사용자 지정 유형 자산에 대한 데이터 품질을 활성화할 수 있습니다. 자세한 내용은 다음을 참조하세요.
+ [PostTimeSeriesDataPoints](https://docs.aws.amazon.com/datazone/latest/APIReference/API_PostTimeSeriesDataPoints.html)
+ [ListTimeSeriesDataPoints](https://docs.aws.amazon.com/datazone/latest/APIReference/API_ListTimeSeriesDataPoints.html)
+ [GetTimeSeriesDataPoint](https://docs.aws.amazon.com/datazone/latest/APIReference/API_GetTimeSeriesDataPoint.html)
+ [DeleteTimeSeriesDataPoints](https://docs.aws.amazon.com/datazone/latest/APIReference/API_DeleteTimeSeriesDataPoints.html)

다음 단계에서는 API 또는 CLI를 사용하여 Amazon DataZone의 자산에 대한 서드파티 지표를 가져오는 예를 제공합니다.

1. 다음과 같이 `PostTimeSeriesDataPoints` API를 간접적으로 호출합니다.

   ```
   aws datazone post-time-series-data-points  \
   --cli-input-json file://createTimeSeriesPayload.json \
   ```

   다음 페이로드로 수행:

   ```
   "domainId": "dzd_5oo7xzoqltu8mf",
       "entityId": "4wyh64k2n8czaf",
       "entityType": "ASSET",
       "form": {
           "content": "{\n  \"evaluations\" : [ {\n    \"types\" : [ \"MaximumLength\" ],\n    \"description\" : \"ColumnLength \\\"ShippingCountry\\\" <= 6\",\n    \"details\" : { },\n    \"applicableFields\" : [ \"ShippingCountry\" ],\n    \"status\" : \"PASS\"\n  }, {\n    \"types\" : [ \"MaximumLength\" ],\n    \"description\" : \"ColumnLength \\\"ShippingState\\\" <= 2\",\n    \"details\" : { },\n    \"applicableFields\" : [ \"ShippingState\" ],\n    \"status\" : \"PASS\"\n  }, {\n    \"types\" : [ \"MaximumLength\" ],\n    \"description\" : \"ColumnLength \\\"ShippingCity\\\" <= 8\",\n    \"details\" : { },\n    \"applicableFields\" : [ \"ShippingCity\" ],\n    \"status\" : \"PASS\"\n  }, {\n    \"types\" : [ \"Completeness\" ],\n    \"description\" : \"Completeness \\\"ShippingStreet\\\" >= 0.59\",\n    \"details\" : { },\n    \"applicableFields\" : [ \"ShippingStreet\" ],\n    \"status\" : \"PASS\"\n  }, {\n    \"types\" : [ \"MaximumLength\" ],\n    \"description\" : \"ColumnLength \\\"ShippingStreet\\\" <= 101\",\n    \"details\" : { },\n    \"applicableFields\" : [ \"ShippingStreet\" ],\n    \"status\" : \"PASS\"\n  }, {\n    \"types\" : [ \"MaximumLength\" ],\n    \"description\" : \"ColumnLength \\\"BillingCountry\\\" <= 6\",\n    \"details\" : { },\n    \"applicableFields\" : [ \"BillingCountry\" ],\n    \"status\" : \"PASS\"\n  }, {\n    \"types\" : [ \"Completeness\" ],\n    \"description\" : \"Completeness \\\"biLlingcountry\\\" >= 0.5\",\n    \"details\" : {\n      \"EVALUATION_MESSAGE\" : \"Value: 0.26666666666666666 does not meet the constraint requirement!\"\n    },\n    \"applicableFields\" : [ \"biLlingcountry\" ],\n    \"status\" : \"FAIL\"\n  }, {\n    \"types\" : [ \"Completeness\" ],\n    \"description\" : \"Completeness \\\"Billingstreet\\\" >= 0.5\",\n    \"details\" : { },\n    \"applicableFields\" : [ \"Billingstreet\" ],\n    \"status\" : \"PASS\"\n  } ],\n  \"passingPercentage\" : 88.0,\n  \"evaluationsCount\" : 8\n}",
           "formName": "shortschemaruleset",
           "id": "athp9dyw75gzhj",
           "timestamp": 1.71700477757E9,
           "typeIdentifier": "amazon.datazone.DataQualityResultFormType",
           "typeRevision": "8"
       },
       "formName": "shortschemaruleset"
   }
   ```

   `GetFormType` 작업을 간접적으로 호출하여 이 페이로드를 가져올 수 있습니다.

   ```
   aws datazone get-form-type --domain-identifier <your_domain_id> --form-type-identifier amazon.datazone.DataQualityResultFormType --region <domain_region> --output text --query 'model.smithy'
   ```

1. 다음과 같이 `DeleteTimeSeriesDataPoints` API를 간접적으로 호출합니다.

   ```
   aws datazone delete-time-series-data-points\
   --domain-identifier dzd_bqqlk3nz21zp2f \
   --entity-identifier dzd_bqqlk3nz21zp2f \
   --entity-type ASSET \
   --form-name rulesET1 \
   ```

# Amazon DataZone에서 기계 학습 및 생성형 AI 사용
<a name="autodoc"></a>

**참고**  
Amazon Bedrock: AWS implements 자동 침해 탐지로 구동됩니다. Amazon DataZone의 설명 기능을 위한 AI 권장 사항은 Amazon Bedrock을 기반으로 구축되었으므로 사용자는 Amazon Bedrock에 구현된 제어 기능을 상속받아 안전, 보안, AI의 책임감 있는 사용을 강화할 수 있습니다.

Amazon DataZone의 현재 릴리스에서는 이름 및 설명에 대한 AI 추천 기능을 사용하여 데이터 검색 및 카탈로그 작성을 자동화할 수 있습니다. Amazon DataZone의 생성형 AI 지원 기능은 자산 및 열에 대한 비즈니스 이름과 설명을 생성합니다. 이 이름과 설명을 사용하여 데이터에 대한 비즈니스 컨텍스트를 추가하고 데이터 검색 결과를 높이는 데 도움이 될 수 있는 데이터세트에 대한 분석을 권장할 수 있습니다.

Amazon DataZone의 데이터 자산 이름 및 설명에 대한 AI 추천 기능은 Amazon Bedrock의 대규모 언어 모델을 기반으로 하며 데이터의 이해 가능성과 검색 용이성을 보장하는 데 도움을 줍니다. AI 추천은 데이터세트에 가장 적합한 분석 애플리케이션도 제안합니다. 자동 생성된 이름과 설명은 수동 문서화 작업을 줄이고 적절한 데이터 사용을 조언함으로써 데이터의 신뢰성을 높이고 가치 있는 데이터의 누락을 최소화하여 정보에 기반한 의사 결정을 가속화하는 데 도움이 될 수 있습니다.

## 지원되는 리전:
<a name="regions-supported"></a>

현재 Amazon DataZone 릴리스에서는 이름 및 설명에 대한 AI 추천 기능이 다음 리전에서 지원됩니다.
+ 미국 동부(버지니아 북부)
+ 미국 서부(오레곤)
+ 아시아 태평양(도쿄)
+ 유럽(프랑크푸르트)
+ 아시아 태평양(시드니)
+ 캐나다(중부)
+ 유럽(런던)
+ 남아메리카(상파울루)
+ 유럽(아일랜드)
+ 아시아 태평양(싱가포르)
+ 미국 동부(오하이오)
+ 아시아 태평양(서울)

Amazon DataZone은 다음 리전에서 비즈니스 설명 생성을 지원합니다.
+ 아시아 태평양(뭄바이)
+ 유럽(파리)

Amazon DataZone은 다음 리전에서 비즈니스 이름 생성을 지원합니다.
+ 유럽(스톡홀름)

**Bedrock 교차 리전 추론**  
Amazon DataZone은 Amazon Bedrock의 교차 리전 추론 엔드포인트를 활용하여 미국 동부(오하이오) 리전에 대한 권장 사항을 제공합니다. 그 외의 모든 리전은 리전 내 엔드포인트를 사용합니다.

## GenAI 사용 단계
<a name="steps-to-use-genai"></a>

다음 절차에서는 Amazon DataZone에서 이름 및 설명에 대한 AI 추천을 생성하는 방법을 설명합니다.
+ Amazon DataZone 데이터 포털 URL로 이동한 다음 SSO(Single Sign-On) 또는 자격 AWS 증명을 사용하여 로그인합니다. Amazon DataZone 관리자인 경우 Amazon DataZone 콘솔([https://console.aws.amazon.com/datazone](https://console.aws.amazon.com/datazone))로 이동하여 도메인이 생성된 AWS 계정 으로 로그인한 다음 **데이터 포털 열기**를 선택합니다.
+ 상단 탐색 창에서 **프로젝트 선택**을 선택한 다음 설명을 위한 AI 권장 사항을 생성할 자산이 포함된 프로젝트를 선택합니다.

### 비즈니스 설명 및 요약 생성
<a name="generating-business-descriptions"></a>
+ 프로젝트의 **데이터** 탭으로 이동합니다.
+ 왼쪽 탐색 창에서 **인벤토리 데이터**를 선택한 다음, 자산에 대한 설명을 위한 AI 권장 사항을 생성하려는 자산의 이름을 선택합니다.
+ 자산의 세부 정보 페이지의 **비즈니스 메타데이터** 탭에서 **설명 생성**을 선택합니다.

### 비즈니스 이름 생성
<a name="generating-business-names"></a>
+ 프로젝트의 **데이터** 탭으로 이동합니다.
+ 왼쪽 탐색 창에서 **데이터 소스**를 선택한 다음 비즈니스 이름 생성을 활성화하려는 데이터 소스를 선택합니다.
+ **세부 정보** 탭으로 이동하여 **자동으로 비즈니스 이름 생성** 구성을 활성화합니다.
+ [CreateAsset API](https://docs.aws.amazon.com/datazone/latest/APIReference/API_CreateAsset.html) 페이로드의 predictionConfiguration에서 businessNameGeneration 플래그를 활성화하면 자산을 생성할 때 프로그래밍 방식으로 비즈니스 이름을 생성할 수도 있습니다.

### 예측 수락/거부
<a name="accepting-rejecting-predictions"></a>
+ 설명이 생성되면 설명을 편집, 수락 또는 거부할 수 있습니다.
+ 녹색 아이콘은 데이터 자산에 대해 자동으로 생성된 각 메타데이터 설명 옆에 표시됩니다. **비즈니스 메타데이터** 탭에서 자동으로 생성된 **요약** 옆의 녹색 아이콘을 선택한 다음 **편집**, **수락**, **거부** 중 하나를 선택하여 생성된 설명을 처리할 수 있습니다.
+ **비즈니스 메타데이터** 탭이 선택된 경우 페이지 상단에 표시되는 **모두 수락** 또는 **모두 거부**를 선택하여 자동으로 생성된 모든 설명에 대해 선택한 작업을 수행할 수도 있습니다.
+ 또는 **스키마** 탭을 선택한 다음 한 번에 하나의 열 설명에 대한 녹색 아이콘을 선택한 다음 **수락** 또는 **거부**를 선택하여 자동으로 생성된 설명을 개별적으로 처리할 수 있습니다.
+ **스키마** 탭에서 **모두 수락** 또는 **모두 거부**를 선택하여 자동으로 생성된 모든 설명에 대해 선택한 작업을 수행할 수도 있습니다.

생성된 설명과 함께 카탈로그에 자산을 게시하려면 **자산 게시**를 선택한 다음 **자산** 게시 팝업 창에서 **자산 재게시**를 선택하여 이 작업을 확인합니다.

**참고**  
자산에 대해 생성된 설명을 수락하거나 거부하지 않은 다음 이 자산을 게시하면 검토되지 않은 이 자동 생성된 메타데이터는 게시된 데이터 자산에 포함되지 않습니다.

## 사용자 지정 관계형 자산 유형 지원
<a name="custom-relational-asset-types"></a>

Amazon DataZone은 사용자 지정 자산 유형에 대해 genAI 기능을 지원합니다. 이전에는이 기능이 관리형 AWS Glue 및 AMazon Redshift 자산 유형에 대해서만 지원되었습니다.

이 기능을 활성화하려면 자체 자산 유형 정의를 생성하고 `RelationalTableFormType`을 양식 중 하나로 연결합니다. Amazon DataZone은 이러한 양식이 있는지 자동으로 감지하고 해당 자산에 대해 GenAI 기능을 활성화합니다. 비즈니스 이름 생성(CreateAsset API의 predictionConfiguration을 통해) 및 비즈니스 설명 생성(자산 세부 정보 페이지의 설명 생성 버튼 클릭)에 대한 전반적인 사용 환경은 동일하게 유지됩니다.

사용자 지정 자산 유형 생성에 대한 자세한 내용은 [Amazon DataZone에서 사용자 지정 자산 유형 생성](create-asset-types.md) 섹션을 참조하세요.

## 할당량
<a name="quotas"></a>

Amazon DataZone은 비즈니스 이름 생성 및 비즈니스 설명 생성에 대해 서로 다른 할당량을 지원합니다. AWS 지원 팀에 문의하여 이러한 할당량을 늘릴 수 있습니다.
+ BusinessDescriptionGeneration: 월 1만 회 호출
+ BusinessNameGeneration: 월 5만 회 호출

# Amazon DataZone의 데이터 계보
<a name="datazone-data-lineage"></a>

Amazon DataZone의 데이터 계보는 OpenLineage 호환 기능으로, OpenLineage 지원 시스템 또는 API를 통해 계보 이벤트를 캡처하고 시각화하여 데이터 오리진을 추적하고, 변환을 추적하고, 조직 간 데이터 사용 현황을 확인할 수 있도록 지원합니다. 데이터 자산의 출처와 연결 체인을 확인할 수 있도록 데이터 자산에 대한 포괄적인 뷰를 제공합니다. 계보 데이터에는 카탈로그화된 자산, 해당 자산의 구독자, API를 사용하여 프로그래밍 방식으로 캡처된 비즈니스 데이터 카탈로그 외부에서 발생하는 활동에 대한 정보를 포함하여 Amazon DataZone의 비즈니스 데이터 카탈로그 내 활동에 대한 정보가 포함됩니다.

**Topics**
+ [

## Amazon DataZone의 계보 노드 유형
](#datazone-data-lineage-node-types)
+ [

## 계보 노드의 주요 속성
](#datazone-data-lineage-key-attributes)
+ [

## 데이터 계보 시각화
](#datazone-data-lineage-history)
+ [

## Amazon DataZone의 데이터 계보 권한 부여
](#datazone-data-lineage-authorization)
+ [

## Amazon DataZone의 데이터 계보 샘플 경험
](#datazone-data-lineage-sample-experience)
+ [

## 관리 콘솔에서 데이터 계보 활성화
](#enable-data-lineage)
+ [

## 프로그래밍 방식으로 Amazon DataZone 데이터 계보 사용
](#datazone-data-lineage-apis)
+ [

## Glue 카탈로그의 AWS 계보 자동화
](#datazone-data-lineage-automate)
+ [

## Amazon Redshift에서 계보 자동화
](#datazone-data-lineage-automate-redshift)

Amazon DataZone에 추가할 때 AWS Glue 및 Amazon Redshift 데이터베이스에서 계보를 자동으로 캡처하도록 설정할 수 있습니다. 또한 AWS Glue(v5.0 이상) 콘솔 또는 노트북에서 Spark ETL 작업을 실행하여 계보 이벤트를 Amazon DataZone 도메인으로 보내도록 구성할 수 있습니다.

Amazon DataZone에서 도메인 관리자는 데이터 레이크 및 데이터 웨어하우스 기본 제공 블루프린트를 설정하면서 계보를 구성할 수 있습니다. 그러면 해당 리소스로 생성된 모든 데이터 소스 실행에 자동 계보 캡처 기능이 활성화됩니다.

도메인 관리자와 데이터 생산자는 Amazon DataZone의 OpenLineage 호환 APIs를 사용하여 Amazon S3, AWS Glue 및 기타 서비스의 변환을 포함하여 Amazon DataZone에서 사용할 수 있는 것 이상의 계보 이벤트를 캡처하고 저장할 수 있습니다. 이를 통해 데이터 소비자에게 포괄적인 뷰를 제공하고 자산의 오리진에 대한 확신을 얻는 데 도움이 되는 반면, 데이터 생산자는 사용량을 이해하여 자산에 대한 변경의 영향을 평가할 수 있습니다. 또한 Amazon DataZone은 각 이벤트와 함께 계보를 버전하므로 사용자는 언제든지 계보를 시각화하거나 자산 또는 작업 기록 전반의 변환을 비교할 수 있습니다. 이 역사적 계보는 데이터 자산의 무결성의 문제 해결, 감사 및 검증에 필수적인 데이터가 어떻게 진화했는지에 대한 심층적인 이해를 제공합니다.

데이터 계보를 사용하면 Amazon DataZone에서 다음을 수행할 수 있습니다.
+ 데이터의 출처 이해: 데이터의 출처를 파악하면 데이터의 출처, 종속성 및 변환을 명확하게 이해하여 데이터에 대한 신뢰를 높일 수 있습니다. 이러한 투명성은 신뢰할 수 있는 데이터 기반 결정을 내리는 데 도움이 됩니다.
+ 데이터 파이프라인에 대한 변경 사항의 영향 이해: 데이터 파이프라인이 변경되면 계보를 사용하여 영향을 받을 모든 다운스트림 소비자를 식별할 수 있습니다. 이렇게 하면 중요한 데이터 흐름을 중단하지 않고 변경 사항을 적용할 수 있습니다.
+ 데이터 품질 문제의 근본 원인을 식별합니다. 다운스트림 보고서에서 데이터 품질 문제가 감지되면 계보, 특히 열 수준 계보를 사용하여 데이터를 역추적(열 수준에서)하여 해당 문제를 소스로 다시 식별할 수 있습니다. 이렇게 하면 데이터 엔지니어가 문제를 식별하고 해결하는 데 도움이 될 수 있습니다.
+ 데이터 거버넌스 및 규정 준수 개선: 열 수준 계보를 사용하여 데이터 거버넌스 및 개인정보 보호 규정 준수를 입증할 수 있습니다. 예를 들어 열 수준 계보를 사용하여 민감한 데이터(예: PII)가 저장되는 위치와 다운스트림 활동에서 처리되는 방법을 표시할 수 있습니다.

## Amazon DataZone의 계보 노드 유형
<a name="datazone-data-lineage-node-types"></a>

Amazon DataZone에서 데이터 계보 정보는 테이블과 뷰를 나타내는 노드로 표시됩니다. 예를 들어 데이터 포털의 왼쪽 상단에서 선택한 프로젝트와 같이 프로젝트의 컨텍스트에 따라 생산자는 인벤토리 및 게시된 자산을 모두 볼 수 있는 반면 소비자는 게시된 자산만 볼 수 있습니다. 자산 세부 정보 페이지에서 계보 탭을 처음 열면 카탈로그화된 데이터세트 노드가 계보 그래프의 계보 노드를 통해 업스트림 또는 다운스트림을 탐색하기 위한 시작점입니다.

다음은 Amazon DataZone에서 지원되는 데이터 계보 노드의 유형입니다.
+ **데이터세트 노드** - 이 노드 유형에는 특정 데이터 자산에 대한 데이터 계보 정보가 포함됩니다.
  + Amazon DataZone 카탈로그에 게시된 AWS Glue 또는 Amazon Redshift 자산에 대한 정보가 포함된 데이터 세트 노드는 자동으로 생성되며 노드 내에 해당 AWS Glue 또는 Amazon Redshift 아이콘이 포함됩니다.
  + Amazon DataZone 카탈로그에 게시되지 않은 자산에 대한 정보를 포함하는 데이터세트 노드는 도메인 관리자(생산자)가 수동으로 생성하며 노드 내의 기본 사용자 지정 자산 아이콘으로 표시됩니다.
+ **작업(실행) 노드** - 이 노드 유형은 특정 작업의 최신 실행 및 실행 세부 정보를 포함하여 작업의 세부 정보를 표시합니다. 또한 이 노드는 여러 작업 실행을 캡처하며 노드 세부 정보의 **기록** 탭에서 볼 수 있습니다. 노드 아이콘을 선택하여 노드 세부 정보를 볼 수 있습니다.

## 계보 노드의 주요 속성
<a name="datazone-data-lineage-key-attributes"></a>

계보 노드의 `sourceIdentifier` 속성은 데이터세트에서 발생하는 이벤트를 나타냅니다. 계보 노드의 `sourceIdentifier`는 데이터세트의 식별자입니다(테이블/뷰 등). 계보 노드에서 고유성을 적용하는 데 사용됩니다. 예를 들어 `sourceIdentifier`가 동일한 계보 노드는 두 개일 수 없습니다. 다음은 다양한 유형의 노드에 대한 `sourceIdentifier` 값의 예입니다.
+ 각 데이터세트 유형이 있는 데이터세트 노드의 경우:
  + 자산: amazon.datazone.asset/<assetId>
  + 목록(게시된 자산): amazon.datazone.listing/<listingId>
  + AWS Glue 테이블: arn:aws:glue:<region>:<account-id>:table/<database>/<table-name> 
  + Amazon Redshift 테이블/뷰: arn:aws:<redshift/redshift-serverless>:<region>:<account-id>:<table-type(table/view etc)>/<clusterIdentifier/workgroupName>/<database>/<schema>/<table-name> 
  + open-lineage 실행 이벤트를 사용하여 가져온 다른 유형의 데이터세트 노드의 경우 노드의 `sourceIdentifier`를 기준으로 입력/출력 데이터세트의 <namespace>/<name>이 사용됩니다.
+ 작업의 경우:
  + open-lineage 실행 이벤트를 사용하여 가져온 작업 노드의 경우 <jobs\$1namespace>.<job\$1name>이 sourceIdentifier로 사용됩니다.
+ 작업 실행의 경우:
  + open-lineage 계보 실행 이벤트를 사용하여 가져온 작업 실행 노드의 경우 <jobs\$1namespace>.<job\$1name>/<run\$1id>가 sourceIdentifier로 사용됩니다.

`createAsset` API를 사용하여 생성된 자산의 경우 자산을 업스트림 리소스에 매핑할 수 있도록 `createAssetRevision` API를 사용하여 `sourceIdentifier`를 업데이트해야 합니다.

## 데이터 계보 시각화
<a name="datazone-data-lineage-history"></a>

Amazon DataZone의 자산 세부 정보 페이지는 데이터 계보를 그래픽으로 표시하므로 데이터 관계를 업스트림 또는 다운스트림으로 더 쉽게 시각화할 수 있습니다. 자산 세부 정보 페이지에서는 그래프를 탐색할 수 있는 다음과 같은 기능을 제공합니다.
+ 열 수준 계보: 데이터세트 노드에서 사용 가능한 경우 열 수준 계보를 확장합니다. 소스 열 정보를 사용할 수 있는 경우 업스트림 또는 다운스트림 데이터세트 노드와의 관계가 자동으로 표시됩니다.
+ 열 검색: 열 수에 대한 기본 표시가 10인 경우. 열이 10개 이상인 경우 페이지 매김이 활성화되어 나머지 열로 이동합니다. 특정 열을 빠르게 보려면 검색된 열만 나열하는 데이터세트 노드를 검색할 수 있습니다.
+ 데이터세트 노드만 보기: 데이터세트 계보 노드만 보고 작업 노드를 필터링하도록 전환하려면 그래프 뷰어 왼쪽 상단에 있는 보기 제어 열기 아이콘을 선택하고 **데이터세트 노드만 표시** 옵션을 전환할 수 있습니다. 이렇게 하면 그래프에서 모든 작업 노드가 제거되고 데이터세트 노드만 탐색할 수 있습니다. 보기 전용 데이터세트 노드가 켜져 있으면 그래프를 업스트림 또는 다운스트림으로 확장할 수 없습니다.
+ 세부 정보 창: 각 계보 노드에는 세부 정보가 캡처되어 선택 시 표시됩니다.
  + 데이터세트 노드에는 지정된 타임스탬프에 대해 해당 노드에 대해 캡처된 모든 세부 정보를 표시하는 세부 정보 창이 있습니다. 모든 데이터세트 노드에는 계보 정보, 스키마 및 기록 탭이라는 세 개의 탭이 있습니다. 기록 탭에는 해당 노드에 대해 캡처된 다양한 버전의 계보 이벤트가 나열됩니다. API에서 캡처한 모든 세부 정보는 메타데이터 양식 또는 JSON 뷰어를 사용하여 표시됩니다.
  + 작업 노드에는 탭, 즉 작업 정보 및 기록과 함께 작업 세부 정보를 표시하는 세부 정보 창이 있습니다. 세부 정보 창은 작업 실행의 일부로 캡처된 쿼리 또는 표현식도 캡처합니다. 기록 탭에는 해당 작업에 대해 캡처된 다양한 버전의 작업 실행 이벤트가 나열됩니다. API에서 캡처한 모든 세부 정보는 메타데이터 양식 또는 JSON 뷰어를 사용하여 표시됩니다.
+ 버전 탭: Amazon DataZone 데이터 계보의 모든 계보 노드에는 버전 관리가 있습니다. 모든 데이터세트 노드 또는 작업 노드에 대해 버전은 기록으로 캡처되며, 이를 통해 여러 버전 간에 탐색하여 초과 근무 시 변경된 사항을 식별할 수 있습니다. 각 버전은 계보 페이지에서 비교 또는 대비를 돕기 위해 새 탭을 엽니다.

## Amazon DataZone의 데이터 계보 권한 부여
<a name="datazone-data-lineage-authorization"></a>

**쓰기 권한** - Amazon DataZone 에 계보 데이터를 게시하려면 `PostLineageEvent` API에 대한 `ALLOW` 작업이 포함된 권한 정책이 있는 IAM 역할이 있어야 합니다. 이 IAM 권한 부여는 API Gateway 계층에서 수행됩니다.

**읽기 권한** - `AmazonDataZoneDomainExecutionRolePolicy` 관리형 정책에 포함된 두 가지 작업, `GetLineageNode` 및 `ListLineageNodeHistory`가 있으므로 Amazon DataZone 도메인의 모든 사용자는 이러한 작업을 간접적으로 호출하여 데이터 계보 그래프를 통과할 수 있습니다.

## Amazon DataZone의 데이터 계보 샘플 경험
<a name="datazone-data-lineage-sample-experience"></a>

데이터 계보 샘플 경험을 사용하여 데이터 계보 그래프의 업스트림 또는 다운스트림 횡단, 버전 및 열 수준 계보 탐색을 포함하여 Amazon DataZone의 데이터 계보를 탐색하고 이해할 수 있습니다.

다음 절차를 완료하여 Amazon DataZone에서 샘플 데이터 계보 환경을 사용해 봅니다.

1. Amazon DataZone 데이터 포털 URL로 이동하여 SSO(Single Sign-On) 또는 자격 AWS 증명을 사용하여 로그인합니다. Amazon DataZone 관리자인 경우 [https://console.aws.amazon.com/datazone](https://console.aws.amazon.com/datazone)에서 Amazon DataZone 콘솔로 이동하여 도메인이 생성된 AWS 계정 으로 로그인한 다음 **데이터 포털 열기**를 선택합니다.

1. 사용 가능한 데이터 자산을 선택하여 자산의 세부 정보 페이지를 엽니다.

1. 자산의 세부 정보 페이지에서 **계보** 탭을 선택한 다음 정보 아이콘 위에 마우스를 놓고 **샘플 계보 사용해 보기**를 선택합니다.

1. 데이터 계보 팝업 창에서 **데이터 계보 가이드 투어 시작**을 선택합니다.

   이 시점에서 계보 정보의 모든 공간을 제공하는 전체 화면 탭이 표시됩니다. 샘플 데이터 계보 그래프는 처음에 업스트림 및 다운스트림의 양쪽 끝에 1-깊이가 있는 기본 노드와 함께 표시됩니다. 그래프 업스트림 또는 다운스트림을 확장할 수 있습니다. 또한 열 정보를 선택하여 계보가 노드를 통해 흐르는 방식을 확인할 수 있습니다.

## 관리 콘솔에서 데이터 계보 활성화
<a name="enable-data-lineage"></a>

기본 데이터 레이크 및 기본 데이터 웨어하우스 블루프린트 구성의 일부로 데이터 계보를 활성화할 수 있습니다.

기본 데이터 레이크 블루프린트에 대해 데이터 계보를 활성화하려면 다음 절차를 완료합니다.

1. [https://console.aws.amazon.com/datazone](https://console.aws.amazon.com/datazone)에서 Amazon DataZone 콘솔로 이동하여 계정 자격 증명으로 로그인합니다.

1. **도메인 보기**를 선택하고 DefaultDataLake 블루프린트에 대한 데이터 계보를 활성화할 도메인을 선택합니다.

1. 도메인 세부 정보 페이지에서 **블루프린트** 탭으로 이동합니다.

1. DefaultDataLake 블루프린트의 세부 정보 페이지에서 **리전** 탭을 선택합니다.

1. DefaultDataLake 블루프린트에 대한 리전을 추가하는 과정에서 데이터 계보를 활성화할 수 있습니다. 따라서 리전이 이미 추가되었지만 해당 리전의 데이터 계보 기능이 활성화되지 않은 경우(**데이터 계보 가져오기** 열에 **아니요**가 표시됨) 먼저 해당 리전을 제거해야 합니다. 데이터 계보를 활성화하려면 **리전 추가**를 선택한 다음 추가할 리전을 선택하고 **리전 추가** 팝업 창에서 **데이터 계보 가져오기 활성화** 확인란을 선택해야 합니다.

DefaultDataWarehouse 블루프린트에 대해 데이터 계보를 활성화하려면 다음 절차를 완료합니다.

1. [https://console.aws.amazon.com/datazone](https://console.aws.amazon.com/datazone)에서 Amazon DataZone 콘솔로 이동하여 계정 자격 증명으로 로그인합니다.

1. **도메인 보기**를 선택하고 DefaultDataWarehouse 블루프린트에 대한 데이터 계보를 활성화할 도메인을 선택합니다.

1. 도메인 세부 정보 페이지에서 **블루프린트** 탭으로 이동합니다.

1. DefaultDataWarehouse 블루프린트의 세부 정보 페이지에서 **파라미터 세트** 탭을 선택합니다.

1. DefaultDataWarehouse 블루프린트에 대한 파라미터 세트를 추가하는 과정에서 데이터 계보를 활성화할 수 있습니다. 이를 수행하려면 **파라미터 세트 생성**을 선택합니다.

1. **파라미터 세트 생성** 페이지에서 다음 항목을 지정한 후 **파라미터 세트 생성**을 선택합니다.
   + 파라미터 세트의 이름
   + 파라미터 세트에 대한 설명
   + AWS 환경을 생성하려는 리전입니다.
   + Amazon DataZone이 Amazon Redshift 클러스터 또는 서버리스 작업 그룹에 연결할 때 이러한 파라미터를 사용할지 여부를 지정합니다.
   +  AWS 보안 암호를 지정합니다.
   + 환경을 생성할 때 사용할 클러스터 또는 서버리스 작업 그룹을 지정합니다.
   + 환경을 생성할 때 사용할 데이터베이스(지정한 클러스터 또는 작업 그룹 내)의 이름을 지정합니다.
   + **데이터 계보 가져오기**에서 **데이터 계보 가져오기 활성화**를 선택합니다.

## 프로그래밍 방식으로 Amazon DataZone 데이터 계보 사용
<a name="datazone-data-lineage-apis"></a>

Amazon DataZone에서 데이터 계보 기능을 사용하기 위해 다음 API를 간접적으로 호출할 수 있습니다.
+ [GetLineageNode](https://docs.aws.amazon.com/datazone/latest/APIReference/API_GetLineageNode.html)
+ [ListLineageNodeHistory](https://docs.aws.amazon.com/datazone/latest/APIReference/API_ListLineageNodeHistory.html)
+ [PostLineageEvent](https://docs.aws.amazon.com/datazone/latest/APIReference/API_PostLineageEvent.html)

## Glue 카탈로그의 AWS 계보 자동화
<a name="datazone-data-lineage-automate"></a>

Glue 데이터베이스 및 테이블이 Amazon DataZone 카탈로그에 추가되면 데이터 소스 실행을 사용하여 해당 테이블에 대한 AWS 계보 추출이 자동화됩니다. 이 소스에 대해 계보를 자동화하는 몇 가지 방법은 다음과 같습니다.
+ 블루프린트 구성 - 블루프린트를 설정하는 관리자는 계보를 자동으로 캡처하도록 블루프린트를 구성할 수 있습니다. 이를 통해 관리자는 데이터 생성자가 데이터를 카탈로그화하는 것에 의존하지 않고, 계보 캡처에 중요한 데이터 소스를 직접 정의할 수 있습니다. 자세한 내용은 [관리 콘솔에서 데이터 계보 활성화](#enable-data-lineage) 단원을 참조하십시오.
+ 데이터 소스 구성 - 데이터 생산자는 AWS Glue 데이터베이스에 대한 데이터 소스 실행을 구성할 때 데이터 품질과 함께 해당 데이터 소스의 자동 데이터 계보에 대한 정보를 제공하는 보기를 제공합니다.
  + 계보 설정은 **데이터 소스 정의** 탭에서 볼 수 있습니다. 데이터 생산자는 이 값을 편집할 수 없습니다.
  + 데이터 소스 실행의 계보 모음은 테이블 메타데이터에서 정보를 가져와 계보를 빌드합니다. AWS Glue 크롤러는 다양한 유형의 소스를 지원하며 데이터 소스 실행의 일부로 계보가 캡처되는 소스에는 Amazon S3, DynamoDB, Catalog, Delta Lake, Iceberg 테이블 및 Amazon S3에 저장된 Hudi 테이블이 포함됩니다. JDBC 및 DocumentDB 또는 MongoDB는 현재 소스로 지원되지 않습니다.
  + 제한 사항 - 테이블 수가 100개를 초과할 경우, 100개 테이블 이후 계보 실행이 실패합니다. Glue AWS 크롤러가 실행에 100개 이상의 테이블을 가져오도록 구성되지 않았는지 확인합니다.
+ AWS Glue(v5.0) 구성 - Glue Studio에서 AWS AWS Glue 작업을 실행하는 동안 작업이 계보 이벤트를 Amazon DataZone 도메인으로 직접 전송하도록 데이터 계보를 구성할 수 있습니다.

  1. https://console.aws.amazon.com/gluestudio AWS Glue 콘솔로 이동하여 계정 자격 증명으로 로그인합니다.

  1. **ETL 작업**을 선택하고 새 작업을 생성하거나 기존 작업을 클릭합니다.

  1. **작업 세부 정보**(ETL 플로우 작업 포함) 탭으로 이동한 후 아래로 스크롤하여 계보 이벤트 생성 섹션으로 이동합니다.

  1. 확인란을 선택하여 계보 이벤트 전송을 활성화하면 확장되어 Amazon DataZone 도메인 ID를 입력할 수 있는 입력 필드가 표시됩니다.
+ AWS Glue(V5.0) 노트북 구성 - 노트북에서 %%configure 매직을 추가하여 Spark 실행 모음을 자동화할 수 있습니다. 이 구성은 Amazon DataZone 도메인으로 이벤트를 전송합니다.

  ```
  %%configure --name project.spark -f
  {
      "--conf":"spark.extraListeners=io.openlineage.spark.agent.OpenLineageSparkListener --conf spark.openlineage.transport.type=amazon_datazone_api --conf spark.openlineage.transport.domainId={DOMAIN_ID}  --conf spark.glue.accountId={ACCOUNT_ID} --conf spark.openlineage.facets.custom_environment_variables=[AWS_DEFAULT_REGION;GLUE_VERSION;GLUE_COMMAND_CRITERIA;GLUE_PYTHON_VERSION; --conf spark.glue.JOB_NAME={JOB_NAME}"
  }
  ```

  파라미터 세부 사항은 다음과 같습니다.
  + `spark.extraListeners=io.openlineage.spark.agent.OpenLineageSparkListener` - OpenLineageSparkListener가 생성되어 Spark의 리스너 버스에 등록됩니다.
  + `spark.openlineage.transport.type=amazon_datazone_api` - DataZone API 전송을 사용하여 DataZone의 PostLineageEvent API로 계보 이벤트를 내보내도록 OpenLineage 플러그인에 지시하는 OpenLineage 사양입니다. 자세한 내용은 [https://openlineage.io/docs/integrations/spark/configuration/spark\$1conf](https://openlineage.io/docs/integrations/spark/configuration/spark_conf)를 참조하세요.
  + `spark.openlineage.transport.domainId={DOMAIN_ID}` - 이 파라미터는 API 전송으로 계보 이벤트를 제출할 도메인을 설정합니다.
  + `spark.openlineage.facets.custom_environment_variables [AWS_DEFAULT_REGION;GLUE_VERSION;GLUE_COMMAND_CRITERIA;GLUE_PYTHON_VERSION;]` - Glue 대화형 세션에서 채우는 다음 환경 변수(AWS\$1DEFAULT\$1REGION , GLUE\$1VERSION , GLUE\$1COMMAND\$1CRITERIA 및 GLUE\$1PYTHON\$1VERSION)가 LineageEvent에 추가됩니다.
  + `spark.glue.accountId=<ACCOUNT_ID>` - 메타데이터가 있는 Glue Data Catalog의 계정 ID입니다. 이 계정 ID는 계보 이벤트에서 Glue ARN을 구성하는 데 사용됩니다.
  + `spark.glue.JOB_NAME` - 계보 이벤트의 작업 이름입니다. 노트북의 작업 이름은 `spark.glue.JOB_NAME: ${projectId}.${pathToNotebook}`으로 설정할 수 있습니다.
+  AWS Glue에서 Amazon DataZone으로의 통신을 구성하기 위한 파라미터 설정

  파라미터 키: --conf

  파라미터 값:

  ```
  spark.extraListeners=io.openlineage.spark.agent.OpenLineageSparkListener 
  --conf spark.openlineage.transport.type=amazon_datazone_api 
  --conf spark.openlineage.transport.domainId=<DOMAIN_ID>
  --conf spark.openlineage.facets.custom_environment_variables=[AWS_DEFAULT_REGION;GLUE_VERSION;GLUE_COMMAND_CRITERIA;GLUE_PYTHON_VERSION;] 
  --conf spark.glue.accountId=<ACCOUNT_ID> (replace <DOMAIN_ID> and <ACCOUNT_ID> with the right values)
  ```

  노트북의 경우 다음과 같은 추가 파라미터를 지정합니다.

  ```
  --conf spark.glue.JobName=<SessionId> --conf spark.glue.JobRunId=<SessionId or NONE?>
  replace <SessionId> and <SessionId> with the right values
  ```

## Amazon Redshift에서 계보 자동화
<a name="datazone-data-lineage-automate-redshift"></a>

관리자가 데이터 웨어하우스 블루프린트 구성을 설정하여 Amazon Redshift 서비스에서 계보를 캡처하면 Amazon DataZone에서 계보를 자동으로 캡처합니다. 계보 실행은 지정된 데이터베이스에 대해 실행된 쿼리를 캡처하고, 계보 이벤트를 생성하여 Amazon DataZone에 저장합니다. 이를 통해 데이터 생산자나 소비자가 특정 자산을 조회할 때 이를 시각화할 수 있습니다.

계보는 다음 구성을 사용하여 자동화할 수 있습니다.
+ 블루프린트 구성: 블루프린트를 설정하는 관리자는 계보를 자동으로 캡처하도록 블루프린트를 구성할 수 있습니다. 이를 통해 관리자는 데이터 생성자가 데이터를 카탈로그화하는 것에 의존하지 않고, 계보 캡처에 중요한 데이터 소스를 직접 정의할 수 있습니다. 설정하려면 [관리 콘솔에서 데이터 계보 활성화](#enable-data-lineage) 섹션으로 이동합니다.
+ 데이터 소스 구성: Amazon Redshift 데이터베이스용 데이터 소스 실행을 구성할 때 데이터 생산자에게 해당 데이터 소스에 대한 자동 데이터 계보 설정이 제공됩니다.

  계보 설정은 **데이터 소스 정의** 탭에서 볼 수 있습니다. 데이터 생산자는 이 값을 편집할 수 없습니다.

# 게시를 위한 메타데이터 적용 규칙
<a name="metadata-rules-publishing"></a>

Amazon DataZone에 게시하기 위한 메타데이터 적용 규칙은 도메인 단위 소유자가 데이터 생산자에 대한 명확한 메타데이터 요구 사항을 설정하고, 액세스 요청을 간소화하며, 데이터 거버넌스를 개선함으로써 데이터 거버넌스를 강화합니다.

이 기능은 현재 Amazon DataZone을 사용할 수 있는 모든 AWS 상용 리전에서 지원됩니다.

도메인 단위 소유자는 다음 절차를 완료하여 Amazon DataZone에서 메타데이터 적용을 구성할 수 있습니다.

1. 데이터 포털 URL을 사용하여 Amazon DataZone 데이터 포털로 이동하고 SSO 또는 AWS 자격 증명을 사용하여 로그인합니다. Amazon DataZone 관리자인 경우 Amazon DataZone 도메인이 생성된 AWS 계정의 https://console.aws.amazon.com/datazone Amazon DataZone 콘솔에 액세스하여 데이터 포털 URL을 얻을 수 있습니다.

1. **도메인**을 선택하고 **도메인 단위** 탭으로 이동하여 작업할 도메인 단위를 선택합니다.

1. **규칙** 탭을 선택한 후 **추가**를 선택합니다.

1. **필수 메타데이터 양식 규칙 생성** 페이지에서 다음을 수행한 후 **규칙 추가**를 선택합니다.
   + 규칙 이름을 지정합니다.
   + **작업**에서 **데이터 자산 및 제품 게시**를 선택합니다.
   + **필수 양식**에서 **메타데이터 양식 추가**를 선택하고 이 규칙에 추가할 도메인/도메인 단위 내의 메타데이터 양식을 선택한 다음 **추가**를 선택합니다. 규칙당 최대 5개의 메타데이터 양식을 추가할 수 있습니다.
   + **범위**에서 이러한 양식과 연결할 데이터 엔터티를 지정합니다. 데이터 제품 및/또는 데이터 자산을 선택할 수 있습니다.
   + **데이터 자산 유형**에서 규칙을 모든 자산 유형에 적용할지 아니면 선택한 자산 유형으로 제한할지 여부를 지정합니다.
   + **프로젝트**에서 필수 양식을 해당 도메인 단위 내 모든 프로젝트 또는 선택된 프로젝트에서 게시한 데이터 제품 및/또는 자산과 연결할 것인지 여부를 지정합니다. 또한 하위 도메인 단위가 이 요구 사항을 상속하도록 하려면 **규칙을 하위 도메인 단위로 캐스케이드**를 선택합니다.