

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Mengelola Katalog Data
<a name="manage-catalog"></a>

 AWS Glue Data Catalog Ini adalah repositori metadata pusat yang menyimpan metadata struktural dan operasional untuk kumpulan data Amazon S3 Anda. Mengelola Katalog Data secara efektif sangat penting untuk menjaga kualitas, kinerja, keamanan, dan tata kelola data.

 Dengan memahami dan menerapkan praktik pengelolaan Katalog Data ini, Anda dapat memastikan metadata Anda tetap akurat, berkinerja, aman, dan diatur dengan baik seiring perkembangan lanskap data Anda. 

Bagian ini mencakup aspek-aspek berikut dari manajemen Katalog Data:
+ *Memperbarui skema tabel dan partisi* Saat data Anda berkembang, Anda mungkin perlu memperbarui skema tabel atau struktur partisi yang ditentukan dalam Katalog Data. Untuk informasi selengkapnya tentang cara membuat pembaruan ini secara terprogram menggunakan AWS Glue ETL, lihat. [Memperbarui skema, dan menambahkan partisi baru di Katalog Data menggunakan AWS Glue pekerjaan ETL](update-from-job.md)
+ *Mengelola statistik kolom*: Statistik kolom yang akurat membantu mengoptimalkan rencana kueri dan meningkatkan kinerja. Untuk informasi selengkapnya tentang cara membuat, memperbarui, dan mengelola statistik kolom, lihat[Mengoptimalkan kinerja kueri menggunakan statistik kolom](column-statistics.md). 
+  *Mengenkripsi Katalog Data* Untuk melindungi metadata sensitif, Anda dapat mengenkripsi Katalog Data Anda menggunakan (). AWS Key Management Service AWS KMS Bagian ini menjelaskan cara mengaktifkan dan mengelola enkripsi untuk Katalog Data Anda. 
+ *Mengamankan Katalog Data dengan AWS Lake Formation* Lake Formation memberikan pendekatan komprehensif untuk keamanan data lake dan kontrol akses. Anda dapat menggunakan Lake Formation untuk mengamankan dan mengatur akses ke Katalog Data dan data yang mendasarinya. 

**Topics**
+ [Memperbarui skema, dan menambahkan partisi baru di Katalog Data menggunakan AWS Glue pekerjaan ETL](update-from-job.md)
+ [Mengoptimalkan kinerja kueri menggunakan statistik kolom](column-statistics.md)
+ [Mengenkripsi Katalog Data Anda](catalog-encryption.md)
+ [Mengamankan Katalog Data Anda menggunakan Lake Formation](secure-catalog.md)
+ [Bekerja dengan AWS Glue Data Catalog pandangan di AWS Glue](catalog-views.md)

# Memperbarui skema, dan menambahkan partisi baru di Katalog Data menggunakan AWS Glue pekerjaan ETL
<a name="update-from-job"></a>

Tugas extract, transform, and load (ETL) Anda mungkin membuat partisi tabel baru di penyimpanan data target. Skema set data Anda dapat berevolusi dan menyimpang dari skema Katalog Data AWS Glue dari waktu ke waktu. AWS Glue Tugas ETL sekarang menyediakan beberapa fitur yang dapat Anda gunakan dalam skrip ETL Anda untuk memperbarui skema dan partisi dalam Katalog Data. Fitur ini memungkinkan Anda untuk melihat hasil tugas ETL Anda di Katalog Data, tanpa harus menjalankan kembali crawler.

## Partisi baru
<a name="update-from-job-partitions"></a>

Jika Anda ingin melihat partisi baru di AWS Glue Data Catalog, Anda dapat melakukan salah satu hal berikut:
+ Setelah tugas selesai, jalankan kembali crawler, dan lihat partisi baru di konsol tersebut saat crawler selesai.
+ Setelah tugas selesai, segera lihat partisi baru di konsol tersebut, tanpa harus menjalankan ulang crawler. Anda dapat mengaktifkan fitur ini dengan menambahkan beberapa baris kode pada skrip ETL Anda, seperti yang ditunjukkan dalam contoh berikut. Kode menggunakan argumen `enableUpdateCatalog` untuk menunjukkan bahwa Katalog Data akan diperbarui selama eksekusi tugas saat partisi baru dibuat.

**Metode 1**  
Berikan `enableUpdateCatalog` dan `partitionKeys` dalam sebuah argumen pilihan.  

```
additionalOptions = {"enableUpdateCatalog": True}
additionalOptions["partitionKeys"] = ["region", "year", "month", "day"]


sink = glueContext.write_dynamic_frame_from_catalog(frame=last_transform, database=<target_db_name>,
                                                    table_name=<target_table_name>, transformation_ctx="write_sink",
                                                    additional_options=additionalOptions)
```

```
val options = JsonOptions(Map(
    "path" -> <S3_output_path>, 
    "partitionKeys" -> Seq("region", "year", "month", "day"), 
    "enableUpdateCatalog" -> true))
val sink = glueContext.getCatalogSink(
    database = <target_db_name>, 
    tableName = <target_table_name>, 
    additionalOptions = options)sink.writeDynamicFrame(df)
```

**Metode 2**  
Berikan `enableUpdateCatalog` dan `partitionKeys` dalam `getSink()`, dan panggil `setCatalogInfo()` di objek `DataSink`.  

```
sink = glueContext.getSink(
    connection_type="s3", 
    path="<S3_output_path>",
    enableUpdateCatalog=True,
    partitionKeys=["region", "year", "month", "day"])
sink.setFormat("json")
sink.setCatalogInfo(catalogDatabase=<target_db_name>, catalogTableName=<target_table_name>)
sink.writeFrame(last_transform)
```

```
val options = JsonOptions(
   Map("path" -> <S3_output_path>, 
       "partitionKeys" -> Seq("region", "year", "month", "day"), 
       "enableUpdateCatalog" -> true))
val sink = glueContext.getSink("s3", options).withFormat("json")
sink.setCatalogInfo(<target_db_name>, <target_table_name>)
sink.writeDynamicFrame(df)
```

Sekarang, Anda dapat membuat tabel katalog baru, memperbarui tabel yang ada dengan skema yang sudah dimodifikasi, dan menambahkan partisi tabel baru dalam Katalog Data dengan menggunakan tugas ETL AWS Glue itu sendiri, tanpa perlu kembali menjalankan crawler.

## Memperbarui skema tabel
<a name="update-from-job-updating-table-schema"></a>

Jika Anda ingin menimpa skema tabel Katalog Data Anda, Anda dapat melakukan salah satu hal berikut:
+ Setelah tugas selesai, jalankan kembali crawler dan pastikan crawler dikonfigurasi untuk memperbarui definisi tabel juga. Lihat partisi baru di konsol tersebut beserta pembaruan skema apa pun, saat crawler selesai. Untuk informasi selengkapnya, lihat [Mengkonfigurasi Crawler Menggunakan API](https://docs.aws.amazon.com/glue/latest/dg/crawler-configuration.html#crawler-configure-changes-api).
+ Setelah tugas selesai, segera lihat skema yang sudah dimodifikasi di konsol tersebut, tanpa harus menjalankan ulang crawler. Anda dapat mengaktifkan fitur ini dengan menambahkan beberapa baris kode pada skrip ETL Anda, seperti yang ditunjukkan dalam contoh berikut. Kode menggunakan `enableUpdateCatalog` yang diatur ke BETUL, dan juga `updateBehavior` yang diatur ke `UPDATE_IN_DATABASE`, yang menunjukkan untuk menimpa skema dan menambahkan partisi baru dalam Katalog Data selama eksekusi tugas.

------
#### [ Python ]

```
additionalOptions = {
    "enableUpdateCatalog": True, 
    "updateBehavior": "UPDATE_IN_DATABASE"}
additionalOptions["partitionKeys"] = ["partition_key0", "partition_key1"]

sink = glueContext.write_dynamic_frame_from_catalog(frame=last_transform, database=<dst_db_name>,
    table_name=<dst_tbl_name>, transformation_ctx="write_sink",
    additional_options=additionalOptions)
job.commit()
```

------
#### [ Scala ]

```
val options = JsonOptions(Map(
    "path" -> outputPath, 
    "partitionKeys" -> Seq("partition_0", "partition_1"), 
    "enableUpdateCatalog" -> true))
val sink = glueContext.getCatalogSink(database = nameSpace, tableName = tableName, additionalOptions = options)
sink.writeDynamicFrame(df)
```

------

Anda juga dapat mengatur nilai `updateBehavior` ke `LOG` jika Anda ingin mencegah skema tabel Anda agar tidak ditimpa, tapi masih ingin menambahkan partisi baru. Nilai default dari `updateBehavior` adalah `UPDATE_IN_DATABASE`, jadi jika Anda tidak secara eksplisit mendefinisikannya, maka skema tabel akan ditimpa.

Jika `enableUpdateCatalog` tidak diatur ke BETUL, terlepas dari mana pilihan yang dipilih untuk `updateBehavior`, tugas ETL tidak akan memperbarui tabel di Katalog Data. 

## Membuat tabel baru
<a name="update-from-job-creating-new-tables"></a>

Anda juga dapat menggunakan opsi yang sama untuk membuat sebuah tabel baru di Katalog Data. Anda dapat menentukan basis data dan nama tabel baru dengan menggunakan `setCatalogInfo`.

------
#### [ Python ]

```
sink = glueContext.getSink(connection_type="s3", path="s3://path/to/data",
    enableUpdateCatalog=True, updateBehavior="UPDATE_IN_DATABASE",
    partitionKeys=["partition_key0", "partition_key1"])
sink.setFormat("<format>")
sink.setCatalogInfo(catalogDatabase=<dst_db_name>, catalogTableName=<dst_tbl_name>)
sink.writeFrame(last_transform)
```

------
#### [ Scala ]

```
val options = JsonOptions(Map(
    "path" -> outputPath, 
    "partitionKeys" -> Seq("<partition_1>", "<partition_2>"), 
    "enableUpdateCatalog" -> true, 
    "updateBehavior" -> "UPDATE_IN_DATABASE"))
val sink = glueContext.getSink(connectionType = "s3", connectionOptions = options).withFormat("<format>")
sink.setCatalogInfo(catalogDatabase = “<dst_db_name>”, catalogTableName = “<dst_tbl_name>”)
sink.writeDynamicFrame(df)
```

------

## Pembatasan
<a name="update-from-job-restrictions"></a>

Perhatikan pembatasan-pembatasan berikut ini:
+ Hanya target Amazon Simple Storage Service (Amazon S3) saja yang didukung.
+ `enableUpdateCatalog`Fitur ini tidak didukung untuk tabel yang diatur.
+ Hanya format berikut ini didukung: `json`, `csv`, `avro`, dan `parquet`.
+ Untuk membuat atau memperbarui tabel dengan `parquet` klasifikasi, Anda harus menggunakan penulis parket yang AWS Glue dioptimalkan untuk. DynamicFrames Ini dapat dicapai dengan salah satu dari yang berikut:
  + Jika Anda memperbarui tabel yang ada dalam katalog dengan `parquet` klasifikasi, tabel harus memiliki properti `"useGlueParquetWriter"` tabel yang disetel ke `true` sebelum Anda memperbaruinya. Anda dapat mengatur properti ini melalui AWS Glue APIs /SDK, melalui konsol atau melalui pernyataan Athena DDL.   
![\[Bidang edit properti tabel katalog di AWS Glue konsol.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/edit-table-property.png)

    Setelah properti tabel katalog diatur, Anda dapat menggunakan cuplikan kode berikut untuk memperbarui tabel katalog dengan data baru:

    ```
    glueContext.write_dynamic_frame.from_catalog(
        frame=frameToWrite,
        database="dbName",
        table_name="tableName",
        additional_options={
            "enableUpdateCatalog": True,
            "updateBehavior": "UPDATE_IN_DATABASE"
        }
    )
    ```
  + Jika tabel belum ada dalam katalog, Anda dapat menggunakan `getSink()` metode dalam skrip Anda `connection_type="s3"` untuk menambahkan tabel dan partisi ke katalog, bersama dengan menulis data ke Amazon S3. Berikan yang sesuai `partitionKeys` dan `compression` untuk alur kerja Anda.

    ```
    s3sink = glueContext.getSink(
        path="s3://bucket/folder/",
        connection_type="s3",
        updateBehavior="UPDATE_IN_DATABASE",
        partitionKeys=[],
        compression="snappy",
        enableUpdateCatalog=True
    )
        
    s3sink.setCatalogInfo(
        catalogDatabase="dbName", catalogTableName="tableName"
    )
        
    s3sink.setFormat("parquet", useGlueParquetWriter=True)
    s3sink.writeFrame(frameToWrite)
    ```
  + Nilai `glueparquet` format adalah metode warisan yang memungkinkan penulis AWS Glue parket.
+ Saat `updateBehavior` diatur ke `LOG`, partisi baru akan ditambahkan hanya jika skema `DynamicFrame` setara dengan atau berisi sebuah subset dari kolom yang didefinisikan dalam skema tabel Katalog Data.
+ Pembaruan skema tidak didukung untuk tabel non-partisi (tidak menggunakan opsi “PartitionKeys”).
+ PartitionKeys Anda harus setara, dan dalam urutan yang sama, antara parameter Anda yang diberikan dalam skrip ETL dan PartitionKeys dalam skema tabel Katalog Data Anda.
+ Fitur ini saat ini belum mendukung updating/creating tabel di mana skema pembaruan bersarang (misalnya, array di dalam struct).

Lihat informasi yang lebih lengkap di [Pemrograman skrip Spark](aws-glue-programming.md).

# Bekerja dengan koneksi MongoDB dalam pekerjaan ETL
<a name="integrate-with-mongo-db"></a>

Anda dapat membuat koneksi untuk MongoDB dan kemudian menggunakan koneksi yang di tugas AWS Glue Anda. Untuk informasi lebih lanjut, lihat [Koneksi MongoDB](aws-glue-programming-etl-connect-mongodb-home.md) di panduan AWS Glue pemrograman. Koneksi `url`, `username` dan `password` disimpan dalam koneksi MongoDB. Pilihan lain dapat ditentukan dalam skrip tugas ETL Anda dengan menggunakan parameter `additionalOptions` dari `glueContext.getCatalogSource`. Pilihan lainnya bisa meliputi:
+ `database`: (Wajib) Basis data MongoDB untuk dibaca.
+ `collection`: (Wajib) Kumpulan MongoDB untuk dibaca.

Dengan menempatkan informasi `database` dan `collection` dalam skrip tugas ETL, Anda dapat menggunakan koneksi yang sama untuk beberapa tugas.

1. Buat AWS Glue Data Catalog koneksi untuk sumber data MongoDB. Lihat ["connectionType": "mongodb"](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-connect.html#aws-glue-programming-etl-connect-mongodb) untuk deskripsi parameter koneksi. Anda dapat membuat koneksi menggunakan konsol, APIs atau CLI.

1. Buat database di AWS Glue Data Catalog untuk menyimpan definisi tabel untuk data MongoDB Anda. Untuk informasi selengkapnya, lihat [Membuat database](define-database.md).

1. Buat crawler yang melakukan perayapan pada data yang ada dalam MongoDB dengan menggunakan informasi dalam koneksi tersebut untuk connect ke MongoDB. Crawler membuat tabel di AWS Glue Data Catalog yang menggambarkan tabel dalam database MongoDB yang Anda gunakan dalam pekerjaan Anda. Untuk informasi selengkapnya, lihat [Menggunakan crawler untuk mengisi Katalog Data](add-crawler.md).

1. Buat tugas dengan sebuah skrip kustom. Anda dapat membuat pekerjaan menggunakan konsol, APIs atau CLI. Untuk informasi selengkapnya, lihat [Menambahkan Tugas di AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/add-job.html).

1. Pilih target data untuk tugas Anda. Tabel yang mewakili target data dapat didefinisikan dalam Katalog Data Anda, atau tugas Anda dapat membuat tabel target ketika ia berjalan. Anda memilih lokasi target ketika Anda menulis tugas. Jika target memerlukan sebuah koneksi, maka koneksi tersebut juga direferensikan dalam tugas Anda. Jika tugas Anda memerlukan beberapa target data, maka Anda dapat menambahkannya nanti dengan mengedit skrip.

1. Sesuaikan lingkungan pemrosesan tugas dengan memberikan argumen untuk tugas Anda dan skrip yang dihasilkan. 

   Berikut adalah contoh membuat `DynamicFrame` dari basis data MongoDB berdasarkan struktur tabel yang ditentukan dalam Katalog Data. Kode menggunakan `additionalOptions` untuk memberikan informasi sumber data tambahan:

------
#### [  Scala  ]

   ```
   val resultFrame: DynamicFrame = glueContext.getCatalogSource(
           database = catalogDB, 
           tableName = catalogTable, 
           additionalOptions = JsonOptions(Map("database" -> DATABASE_NAME, 
                   "collection" -> COLLECTION_NAME))
         ).getDynamicFrame()
   ```

------
#### [  Python  ]

   ```
   glue_context.create_dynamic_frame_from_catalog(
           database = catalogDB,
           table_name = catalogTable,
           additional_options = {"database":"database_name", 
               "collection":"collection_name"})
   ```

------

1. Jalankan tugas, baik sesuai permintaan atau melalui pemicu.

# Mengoptimalkan kinerja kueri menggunakan statistik kolom
<a name="column-statistics"></a>

Anda dapat menghitung statistik tingkat kolom untuk AWS Glue Data Catalog tabel dalam format data seperti Parket, ORC, JSON, ION, CSV, dan XMLtanpa menyiapkan pipeline data tambahan. Statistik kolom membantu Anda memahami profil data dengan mendapatkan wawasan tentang nilai dalam kolom. 

Data Catalog mendukung menghasilkan statistik untuk nilai kolom seperti nilai minimum, nilai maksimum, total nilai nol, total nilai yang berbeda, panjang rata-rata nilai, dan total kemunculan nilai sebenarnya. AWS layanan analisis seperti Amazon Redshift dan Amazon Athena dapat menggunakan statistik kolom ini untuk menghasilkan rencana eksekusi kueri, dan memilih paket optimal yang meningkatkan kinerja kueri.

Ada tiga skenario untuk menghasilkan statistik kolom: 

 **Otomatis**   
AWS Glue mendukung pembuatan statistik kolom otomatis di tingkat katalog sehingga dapat secara otomatis menghasilkan statistik untuk tabel baru di. AWS Glue Data Catalog

**Dijadwalkan**  
AWS Glue mendukung penjadwalan pembuatan statistik kolom sehingga dapat dijalankan secara otomatis pada jadwal berulang.   
Dengan perhitungan statistik terjadwal, tugas statistik kolom memperbarui statistik tingkat tabel secara keseluruhan, seperti min, max, dan avg dengan statistik baru, menyediakan mesin kueri yang akurat dan up-to-date statistik untuk mengoptimalkan eksekusi kueri. 

**Sesuai permintaan**  
Gunakan opsi ini untuk menghasilkan statistik kolom sesuai permintaan kapan pun diperlukan. Ini berguna untuk analisis ad-hoc atau ketika statistik perlu dihitung segera. 

Anda dapat mengonfigurasi untuk menjalankan tugas pembuatan statistik kolom menggunakan AWS Glue konsol, AWS CLI, dan operasi AWS Glue API. Saat Anda memulai proses, AWS Glue mulailah pekerjaan Spark di latar belakang dan perbarui metadata AWS Glue tabel di Katalog Data. Anda dapat melihat statistik kolom menggunakan AWS Glue konsol AWS CLI atau atau dengan memanggil operasi [GetColumnStatisticsForTable](https://docs.aws.amazon.com/glue/latest/webapi/API_GetColumnStatisticsForTable.html)API.

**catatan**  
Jika Anda menggunakan izin Lake Formation untuk mengontrol akses ke tabel, peran yang diasumsikan oleh tugas statistik kolom memerlukan akses tabel penuh untuk menghasilkan statistik.

 Video berikut menunjukkan cara meningkatkan kinerja kueri menggunakan statistik kolom. 

[![AWS Videos](http://img.youtube.com/vi/https://www.youtube.com/embed/zUHEXJdHUxs?si=HjyhpoALR6RXJz2i/0.jpg)](http://www.youtube.com/watch?v=https://www.youtube.com/embed/zUHEXJdHUxs?si=HjyhpoALR6RXJz2i)


**Topics**
+ [Prasyarat untuk menghasilkan statistik kolom](column-stats-prereqs.md)
+ [Pembuatan statistik kolom otomatis](auto-column-stats-generation.md)
+ [Menghasilkan statistik kolom pada jadwal](generate-column-stats.md)
+ [Menghasilkan statistik kolom sesuai permintaan](column-stats-on-demand.md)
+ [Melihat statistik kolom](view-column-stats.md)
+ [Melihat tugas statistik kolom berjalan](view-stats-run.md)
+ [Menghentikan tugas statistik kolom](stop-stats-run.md)
+ [Menghapus statistik kolom](delete-column-stats.md)
+ [Pertimbangan dan batasan](column-stats-notes.md)

# Prasyarat untuk menghasilkan statistik kolom
<a name="column-stats-prereqs"></a>

Untuk menghasilkan atau memperbarui statistik kolom, tugas pembuatan statistik mengasumsikan peran AWS Identity and Access Management (IAM) atas nama Anda. Berdasarkan izin yang diberikan untuk peran tersebut, tugas pembuatan statistik kolom dapat membaca data dari penyimpanan data Amazon S3.

Saat mengonfigurasi tugas pembuatan statistik kolom, Anda AWS Glue dapat membuat peran yang menyertakan kebijakan `AWSGlueServiceRole` AWS terkelola ditambah kebijakan sebaris yang diperlukan untuk sumber data yang ditentukan. 

Jika Anda menentukan peran yang ada untuk menghasilkan statistik kolom, pastikan peran tersebut menyertakan `AWSGlueServiceRole` kebijakan atau yang setara (atau versi bawah cakupan kebijakan ini), ditambah kebijakan sebaris yang diperlukan. Ikuti langkah-langkah ini untuk membuat peran IAM baru:

**catatan**  
 Untuk menghasilkan statistik untuk tabel yang dikelola oleh Lake Formation, peran IAM yang digunakan untuk menghasilkan statistik memerlukan akses tabel penuh. 

Saat mengonfigurasi tugas pembuatan statistik kolom, Anda AWS Glue dapat membuat peran yang menyertakan kebijakan `AWSGlueServiceRole` AWS terkelola ditambah kebijakan sebaris yang diperlukan untuk sumber data yang ditentukan. Anda juga dapat membuat peran dan melampirkan izin yang tercantum dalam kebijakan di bawah ini, dan menambahkan peran tersebut ke tugas pembuatan statistik kolom.

**Untuk membuat peran IAM untuk menghasilkan statistik kolom**

1. Untuk membuat peran IAM, lihat [Membuat peran IAM](https://docs.aws.amazon.com/glue/latest/dg/create-an-iam-role.html) untuk. AWS Glue

1. Untuk memperbarui peran yang ada, di konsol IAM, buka peran IAM yang digunakan oleh proses statistik kolom generate.

1. Di bagian **Tambahkan izin**, pilih **Lampirkan kebijakan**. Di jendela browser yang baru dibuka, pilih kebijakan `AWSGlueServiceRole` AWS terkelola.

1. Anda juga perlu menyertakan izin untuk membaca data dari lokasi data Amazon S3.

   Di bagian **Tambahkan izin**, pilih **Buat kebijakan**. Di jendela browser yang baru dibuka, buat kebijakan baru untuk digunakan dengan peran Anda.

1. Di halaman **Buat kebijakan**, pilih tab **JSON**. Salin `JSON` kode berikut ke kolom editor kebijakan.
**catatan**  
Dalam kebijakan berikut, ganti ID akun dengan yang valid Akun AWS, lalu ganti `region` dengan Wilayah tabel, dan `bucket-name` dengan nama bucket Amazon S3.

------
#### [ JSON ]

****  

   ```
   {
       "Version":"2012-10-17",		 	 	 
       "Statement": [
           {
               "Sid": "S3BucketAccess",
               "Effect": "Allow",
               "Action": [
                   "s3:ListBucket",
                   "s3:GetObject"
               ],
               "Resource": [
               	"arn:aws:s3:::amzn-s3-demo-bucket/*",
   							"arn:aws:s3:::amzn-s3-demo-bucket"
               ]
           }
        ]
   }
   ```

------

1. (Opsional) Jika Anda menggunakan izin Lake Formation untuk menyediakan akses ke data Anda, peran IAM memerlukan `lakeformation:GetDataAccess` izin.

------
#### [ JSON ]

****  

   ```
   {
     "Version":"2012-10-17",		 	 	 
     "Statement": [
       {
         "Sid": "LakeFormationDataAccess",
         "Effect": "Allow",
         "Action": "lakeformation:GetDataAccess",
         "Resource": [
           "*"
         ]
       }
     ]
   }
   ```

------

    Jika lokasi data Amazon S3 terdaftar dengan Lake Formation, dan peran IAM yang diasumsikan oleh tugas pembuatan statistik kolom tidak memiliki izin `IAM_ALLOWED_PRINCIPALS` grup yang diberikan pada tabel, peran tersebut memerlukan Lake Formation `ALTER` dan `DESCRIBE` izin pada tabel. Peran yang digunakan untuk mendaftarkan bucket Amazon S3 memerlukan Lake Formation `INSERT` dan `DELETE` izin di atas meja. 

   Jika lokasi data Amazon S3 tidak terdaftar dengan Lake Formation, dan peran IAM tidak memiliki izin `IAM_ALLOWED_PRINCIPALS` grup yang diberikan pada tabel, peran tersebut memerlukan Lake Formation `ALTER``DESCRIBE`, `INSERT` dan `DELETE` izin pada tabel. 

1. Jika Anda telah mengaktifkan `Automatic statistics generation` opsi tingkat katalog, peran IAM harus memiliki izin atau `glue:UpdateCatalog` izin Lake Formation pada Katalog `ALTER CATALOG` Data default. Anda dapat menggunakan `GetCatalog` operasi untuk memverifikasi properti katalog. 

1. (Opsional) Tugas pembuatan statistik kolom yang menulis terenkripsi Amazon CloudWatch Logs memerlukan izin berikut dalam kebijakan utama.

------
#### [ JSON ]

****  

   ```
   {
     "Version":"2012-10-17",		 	 	 
     "Statement": [
       {
         "Sid": "CWLogsKmsPermissions",
         "Effect": "Allow",
         "Action": [
           "logs:CreateLogGroup",
           "logs:CreateLogStream",
           "logs:PutLogEvents",
           "logs:AssociateKmsKey"
         ],
         "Resource": [
           "arn:aws:logs:us-east-1:111122223333:log-group:/aws-glue:*"
         ]
       },
       {
         "Sid": "KmsPermissions",
         "Effect": "Allow",
         "Action": [
           "kms:GenerateDataKey",
           "kms:Decrypt",
           "kms:Encrypt"
         ],
         "Resource": [
           "arn:aws:kms:us-east-1:111122223333:key/arn of key used for ETL cloudwatch encryption"
         ],
         "Condition": {
           "StringEquals": {
             "kms:ViaService": [
               "glue.us-east-1.amazonaws.com"
             ]
           }
         }
       }
     ]
   }
   ```

------

1. Peran yang Anda gunakan untuk menjalankan statistik kolom harus memiliki `iam:PassRole` izin pada peran tersebut.

------
#### [ JSON ]

****  

   ```
   {
     "Version":"2012-10-17",		 	 	 
     "Statement": [
       {
         "Effect": "Allow",
         "Action": [
           "iam:PassRole"
         ],
         "Resource": [
           "arn:aws:iam::111122223333:role/columnstats-role-name"
         ]
       }
     ]
   }
   ```

------

1. Saat Anda membuat peran IAM untuk menghasilkan statistik kolom, peran tersebut juga harus memiliki kebijakan kepercayaan berikut yang memungkinkan layanan untuk mengambil peran tersebut. 

------
#### [ JSON ]

****  

   ```
   {
     "Version":"2012-10-17",		 	 	 
     "Statement": [
       {
         "Sid": "TrustPolicy",
         "Effect": "Allow",
         "Principal": {
           "Service": "glue.amazonaws.com"
         },
         "Action": "sts:AssumeRole"
       }
     ]
   }
   ```

------

# Pembuatan statistik kolom otomatis
<a name="auto-column-stats-generation"></a>

Pembuatan otomatis statistik kolom memungkinkan Anda untuk menjadwalkan dan secara otomatis menghitung statistik pada tabel baru di AWS Glue Data Catalog. Saat Anda mengaktifkan pembuatan statistik otomatis, Katalog Data akan menemukan tabel baru dengan format data tertentu seperti Parquet, JSON, CSV, XML, ORC, ION, dan Apache Iceberg, beserta jalur bucket masing-masing. Dengan konfigurasi katalog satu kali, Katalog Data menghasilkan statistik untuk tabel ini.

 Administrator data lake dapat mengonfigurasi pembuatan statistik dengan memilih katalog default di konsol Lake Formation, dan mengaktifkan statistik tabel menggunakan opsi. `Optimization configuration` Saat Anda membuat tabel baru atau memperbarui tabel yang ada di Katalog Data, Katalog Data mengumpulkan jumlah nilai berbeda (NDVs) untuk tabel Apache Iceberg, dan statistik tambahan seperti jumlah null, maksimum, minimum, dan panjang rata-rata untuk format file lain yang didukung setiap minggu. 

Jika Anda telah mengonfigurasi pembuatan statistik di tingkat tabel atau jika sebelumnya Anda telah menghapus setelan pembuatan statistik untuk tabel, pengaturan khusus tabel tersebut lebih diutamakan daripada pengaturan katalog default untuk pembuatan statistik kolom otomatis.

 Tugas pembuatan statistik otomatis menganalisis 50% catatan dalam tabel untuk menghitung statistik. Pembuatan statistik kolom otomatis memastikan bahwa Katalog Data mempertahankan metrik mingguan yang dapat digunakan oleh mesin kueri seperti Amazon Athena dan Amazon Redshift Spectrum untuk meningkatkan kinerja kueri dan potensi penghematan biaya. Ini memungkinkan penjadwalan pembuatan statistik menggunakan AWS Glue APIs atau konsol, menyediakan proses otomatis tanpa intervensi manual. 

**Topics**
+ [Mengaktifkan pembuatan statistik otomatis tingkat katalog](enable-auto-column-stats-generation.md)
+ [Melihat pengaturan tingkat tabel otomatis](view-auto-column-stats-settings.md)
+ [Menonaktifkan pembuatan statistik kolom tingkat katalog](disable-auto-column-stats-generation.md)

# Mengaktifkan pembuatan statistik otomatis tingkat katalog
<a name="enable-auto-column-stats-generation"></a>

Anda dapat mengaktifkan pembuatan statistik kolom otomatis untuk semua tabel dan tabel Apache Iceberg baru dalam format tabel non-OTF (Parket, JSON, CSV, XML, ORC, ION) di Katalog Data. Setelah membuat tabel, Anda juga dapat secara eksplisit memperbarui pengaturan statistik kolom secara manual.

 Untuk memperbarui pengaturan Katalog Data untuk mengaktifkan tingkat katalog, peran IAM yang digunakan harus memiliki `glue:UpdateCatalog` izin atau AWS Lake Formation `ALTER CATALOG` izin pada katalog root. Anda dapat menggunakan `GetCatalog` API untuk memverifikasi properti katalog. 

------
#### [ Konsol Manajemen AWS ]

**Untuk mengaktifkan pembuatan statistik kolom otomatis di tingkat akun**

1. Buka konsol Lake Formation di [https://console.aws.amazon.com/lakeformation/](https://console.aws.amazon.com/lakeformation/).

1. Di bilah navigasi kiri, pilih **Katalog**.

1. Pada halaman **ringkasan Katalog**, pilih **Edit** di bawah **konfigurasi Optimasi**.   
![\[Tangkapan layar menunjukkan opsi yang tersedia untuk menghasilkan statistik kolom.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/edit-column-stats-auto.png)

1. Pada halaman **konfigurasi pengoptimalan tabel**, pilih opsi **Aktifkan pembuatan statistik otomatis untuk tabel katalog**.  
![\[Tangkapan layar menunjukkan opsi yang tersedia untuk menghasilkan statistik kolom.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/edit-optimization-option.jpg)

1. Pilih peran IAM yang ada atau buat yang baru yang memiliki izin yang diperlukan untuk menjalankan tugas statistik kolom.

1. Pilih **Kirim**.

------
#### [ AWS CLI ]

Anda juga dapat mengaktifkan pengumpulan statistik tingkat katalog melalui. AWS CLI Untuk mengonfigurasi pengumpulan statistik tingkat tabel menggunakan AWS CLI, jalankan perintah berikut:

```
aws glue update-catalog --cli-input-json '{
    "name": "123456789012",
    "catalogInput": {
        "description": "Updating root catalog with role arn",
        "catalogProperties": {
            "customProperties": {
                "ColumnStatistics.RoleArn": "arn:aws:iam::"123456789012":role/service-role/AWSGlueServiceRole",
                "ColumnStatistics.Enabled": "true"
            }
        }
    }
}'
```

 Perintah di atas memanggil AWS Glue`UpdateCatalog` operasi, yang mengambil `CatalogProperties` struktur dengan pasangan nilai kunci berikut untuk pembuatan statistik tingkat katalog: 
+ ColumnStatistics. RoleArn — ARN peran IAM untuk digunakan untuk semua tugas yang dipicu untuk pembuatan statistik tingkat Katalog
+ ColumnStatistics.Enabled - Boolean menunjukkan apakah pengaturan tingkat katalog diaktifkan atau dinonaktifkan

------

# Melihat pengaturan tingkat tabel otomatis
<a name="view-auto-column-stats-settings"></a>

 Saat pengumpulan statistik tingkat katalog diaktifkan, kapan saja tabel Apache Hive atau tabel Apache Iceberg dibuat atau diperbarui melalui atau melalui Konsol Manajemen AWS, SDK, `CreateTable` atau, `UpdateTable` APIs pengaturan tingkat tabel yang setara dibuat untuk tabel tersebut. Perayap AWS Glue

 Tabel dengan pembuatan statistik otomatis diaktifkan harus mengikuti salah satu properti berikut:
+ Gunakan `InputSerdeLibrary` yang dimulai dengan org.apache.hadoop dan sama `TableType` `EXTERNAL_TABLE`
+ Gunakan `InputSerdeLibrary` yang dimulai dengan `com.amazon.ion` dan `TableType` sama `EXTERNAL_TABLE`
+ Berisi table\$1type: “ICEBERG” dalam struktur parameternya. 

 Setelah membuat atau memperbarui tabel, Anda dapat memverifikasi detail tabel untuk mengonfirmasi pembuatan statistik. `Statistics generation summary`Menunjukkan `Schedule` properti ditetapkan sebagai `AUTO` dan `Statistics configuration` nilai adalah`Inherited from catalog`. Setiap pengaturan tabel dengan pengaturan berikut akan secara otomatis dipicu oleh Glue secara internal. 

![\[Gambar tabel Hive dengan koleksi statistik tingkat katalog telah diterapkan dan statistik telah dikumpulkan.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/auto-stats-summary.png)


# Menonaktifkan pembuatan statistik kolom tingkat katalog
<a name="disable-auto-column-stats-generation"></a>

 Anda dapat menonaktifkan pembuatan statistik kolom otomatis untuk tabel baru menggunakan AWS Lake Formation konsol, `glue:UpdateCatalogSettings` API, atau `glue:DeleteColumnStatisticsTaskSettings` API. 

**Untuk menonaktifkan pembuatan statistik kolom otomatis di tingkat akun**

1. Buka konsol Lake Formation di [https://console.aws.amazon.com/lakeformation/](https://console.aws.amazon.com/lakeformation/).

1. Di bilah navigasi kiri, pilih **Katalog**.

1. Pada halaman **ringkasan Katalog**, pilih **Edit** di bawah **konfigurasi Optimasi**. 

1. Pada halaman **konfigurasi pengoptimalan tabel**, batalkan pilihan **Aktifkan pembuatan statistik otomatis untuk tabel katalog** pilihan.

1. Pilih **Kirim**.

# Menghasilkan statistik kolom pada jadwal
<a name="generate-column-stats"></a>

Ikuti langkah-langkah ini untuk mengonfigurasi jadwal untuk menghasilkan statistik kolom dalam AWS Glue Data Catalog menggunakan AWS Glue konsol, konsol AWS CLI, atau [CreateColumnStatisticsTaskSettings](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-column-statistics.html#aws-glue-api-crawler-column-statistics-CreateColumnStatisticsTaskSettings)operasi.

------
#### [ Console ]

**Untuk menghasilkan statistik kolom menggunakan konsol**

1. Masuk ke AWS Glue konsol di [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/). 

1. Pilih tabel Katalog Data.

1. Pilih tabel dari daftar. 

1. Pilih tab **Statistik kolom** di bagian bawah halaman **Tabel**.

1. Anda juga dapat memilih **Hasilkan sesuai jadwal di** bawah **Statistik kolom** dari **Tindakan**.

1. Pada halaman **Hasilkan statistik pada jadwal**, konfigurasikan jadwal berulang untuk menjalankan tugas statistik kolom dengan memilih frekuensi dan waktu mulai. Anda dapat memilih frekuensi per jam, harian, mingguan, atau menentukan ekspresi cron untuk menentukan jadwal.

   Ekspresi cron adalah string yang mewakili pola jadwal, yang terdiri dari 6 bidang yang dipisahkan oleh spasi: \$1 \$1 \$1 \$1 \$1 <minute><hour><day of month><month><day of week><year>Misalnya, untuk menjalankan tugas setiap hari di tengah malam, ekspresi cron adalah: 0 0 \$1 \$1? \$1

   Untuk informasi selengkapnya, lihat [Ekspresi cron](https://docs.aws.amazon.com/glue/latest/dg/monitor-data-warehouse-schedule.html#CronExpressions).  
![\[Tangkapan layar menunjukkan opsi yang tersedia untuk menghasilkan statistik kolom.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/generate-column-stats-schedule.png)

1. Selanjutnya, pilih opsi kolom untuk menghasilkan statistik.
   + **Semua kolom** - Pilih opsi ini untuk menghasilkan statistik untuk semua kolom dalam tabel.
   + **Kolom yang dipilih** - Pilih opsi ini untuk menghasilkan statistik untuk kolom tertentu. Anda dapat memilih kolom dari daftar drop-down.

1. Pilih peran IAM atau buat peran yang ada yang memiliki izin untuk menghasilkan statistik. AWS Glue mengasumsikan peran ini untuk menghasilkan statistik kolom.

   Pendekatan yang lebih cepat adalah membiarkan AWS Glue konsol membuat peran untuk Anda. Peran yang dibuatnya khusus untuk menghasilkan statistik kolom, dan mencakup kebijakan `AWSGlueServiceRole` AWS terkelola ditambah kebijakan sebaris yang diperlukan untuk sumber data yang ditentukan. 

   Jika Anda menentukan peran yang ada untuk menghasilkan statistik kolom, pastikan peran tersebut menyertakan `AWSGlueServiceRole` kebijakan atau yang setara (atau versi bawah cakupan kebijakan ini), ditambah kebijakan sebaris yang diperlukan. 

1. (Opsional) Selanjutnya, pilih konfigurasi keamanan untuk mengaktifkan enkripsi saat istirahat untuk log.

1. (Opsional) Anda dapat memilih ukuran sampel dengan menunjukkan hanya persentase baris tertentu dari tabel untuk menghasilkan statistik. Defaultnya adalah semua baris. Gunakan panah atas dan bawah untuk menambah atau mengurangi nilai persen. 

   Kami merekomendasikan untuk memasukkan semua baris dalam tabel untuk menghitung statistik yang akurat. Gunakan baris sampel untuk menghasilkan statistik kolom hanya jika nilai perkiraan dapat diterima.

1. Pilih **Hasilkan statistik** untuk menjalankan tugas pembuatan statistik kolom.

------
#### [ AWS CLI ]

Anda dapat menggunakan AWS CLI contoh berikut untuk membuat jadwal pembuatan statistik kolom. Nama database, nama tabel, dan peran adalah parameter yang diperlukan, dan parameter opsional adalah jadwal, id katalog, ukuran sampel column-name-list, dan konfigurasi keamanan.

```
aws glue create-column-statistics-task-settings \ 
 --database-name 'database_name' \ 
 --table-name table_name \ 
 --role 'arn:aws:iam::123456789012:role/stats-role' \ 
 --schedule 'cron(0 0-5 14 * * ?)' \ 
 --column-name-list 'col-1' \  
 --catalog-id '123456789012' \ 
 --sample-size '10.0 ' \
 --security-configuration 'test-security'
```

Anda dapat menghasilkan statistik kolom juga dengan memanggil [StartColumnStatisticsTaskRun](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-column-statistics.html#aws-glue-api-crawler-column-statistics-StartColumnStatisticsTaskRun)operasi.

------

# Mengelola jadwal untuk pembuatan statistik kolom
<a name="manage-column-stats-schedule"></a>

Anda dapat mengelola operasi penjadwalan seperti memperbarui, memulai, menghentikan, dan menghapus jadwal untuk pembuatan statistik kolom. AWS Glue Anda dapat menggunakan [operasi API statistik AWS Glue konsol AWS CLI, atau AWS Glue kolom](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-column-statistics.html) untuk melakukan tugas ini.

**Topics**
+ [Memperbarui jadwal pembuatan statistik kolom](#update-column-stats-shedule)
+ [Menghentikan jadwal untuk pembuatan statistik kolom](#stop-column-stats-schedule)
+ [Melanjutkan jadwal untuk pembuatan statistik kolom](#resume-column-stats-schedule)
+ [Menghapus jadwal pembuatan statistik kolom](#delete-column-stats-schedule)

## Memperbarui jadwal pembuatan statistik kolom
<a name="update-column-stats-shedule"></a>

Anda dapat memperbarui jadwal untuk memicu tugas pembuatan statistik kolom setelah dibuat. Anda dapat menggunakan AWS Glue konsol, AWS CLI, atau menjalankan [UpdateColumnStatisticsTaskSettings](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-column-statistics.html#aws-glue-api-crawler-column-statistics-UpdateColumnStatisticsTaskSettings)operasi untuk memperbarui jadwal untuk tabel. Anda dapat memodifikasi parameter jadwal yang ada, seperti jenis jadwal (sesuai permintaan, atau terjadwal) dan parameter opsional lainnya. 

------
#### [ Konsol Manajemen AWS ]

**Untuk memperbarui pengaturan untuk tugas pembuatan statistik kolom**

1. Masuk ke AWS Glue konsol di [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. Pilih tabel yang ingin Anda perbarui dari daftar tabel.

1. Di bagian bawah halaman detail tabel, pilih **Statistik kolom**. 

1. Di bawah **Tindakan**, pilih **Edit** untuk memperbarui jadwal.

1. Buat perubahan yang diinginkan pada jadwal, dan pilih **Simpan**.

------
#### [ AWS CLI ]

 Jika Anda tidak menggunakan AWS Glue fitur pembuatan statistik di konsol, Anda dapat memperbarui jadwal secara manual menggunakan `update-column-statistics-task-settings` perintah. Contoh berikut menunjukkan cara memperbarui statistik kolom menggunakan AWS CLI. 

```
aws glue update-column-statistics-task-settings \ 
 --database-name 'database_name' \ 
 --table-name 'table_name' \ 
 --role arn:aws:iam::123456789012:role/stats_role \ 
 --schedule 'cron(0 0-5 16 * * ?)' \ 
 --column-name-list 'col-1' \
 --sample-size '20.0' \  
 --catalog-id '123456789012'\
 --security-configuration 'test-security'
```

------

## Menghentikan jadwal untuk pembuatan statistik kolom
<a name="stop-column-stats-schedule"></a>

 Jika Anda tidak lagi membutuhkan statistik tambahan, Anda dapat menghentikan pembuatan yang dijadwalkan untuk menghemat sumber daya dan biaya. Menjeda jadwal tidak memengaruhi statistik yang dihasilkan sebelumnya. Anda dapat melanjutkan jadwal sesuai keinginan Anda. 

------
#### [ Konsol Manajemen AWS ]

**Untuk menghentikan jadwal tugas pembuatan statistik kolom**

1. Di AWS Glue konsol, pilih **Tabel** di bawah Katalog Data.

1. Pilih tabel dengan statistik kolom.

1. Pada halaman **Rincian tabel**, pilih **Statistik kolom**.

1. Di bawah **Tindakan**, pilih **Generasi terjadwal**, **Jeda**.

1. Pilih **Jeda** untuk mengonfirmasi.

------
#### [ AWS CLI ]

Untuk menghentikan jadwal menjalankan tugas statistik kolom menggunakan AWS CLI, Anda dapat menggunakan perintah berikut: 

```
aws glue stop-column-statistics-task-run-schedule \
 --database-name ''database_name' \
 --table-name 'table_name'
```

Ganti `database_name` dan `table_name` dengan nama sebenarnya dari database dan tabel yang ingin Anda hentikan jadwal tugas menjalankan statistik kolom.

------

## Melanjutkan jadwal untuk pembuatan statistik kolom
<a name="resume-column-stats-schedule"></a>

 Jika Anda telah menghentikan sementara jadwal pembuatan statistik, AWS Glue memungkinkan Anda untuk melanjutkan jadwal sesuai keinginan Anda. Anda dapat melanjutkan jadwal menggunakan AWS Glue konsol, AWS CLI, atau [StartColumnStatisticsTaskRunSchedule](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-column-statistics.html#aws-glue-api-crawler-column-statistics-StartColumnStatisticsTaskRunSchedule)operasi. 

------
#### [ Konsol Manajemen AWS ]

**Untuk melanjutkan jadwal pembuatan statistik kolom**

1. Di AWS Glue konsol, pilih **Tabel** di bawah Katalog Data.

1. Pilih tabel dengan statistik kolom.

1. Pada halaman **Rincian tabel**, pilih **Statistik kolom**.

1. Di bawah **Tindakan**, pilih **Generasi terjadwal**, dan pilih **Lanjutkan**.

1. Pilih **Lanjutkan** untuk mengonfirmasi.

------
#### [ AWS CLI ]

Ganti `database_name` dan `table_name` dengan nama sebenarnya dari database dan tabel yang ingin Anda hentikan jadwal tugas menjalankan statistik kolom.

```
aws glue start-column-statistics-task-run-schedule \
 --database-name 'database_name' \
 --table-name 'table_name'
```

------

## Menghapus jadwal pembuatan statistik kolom
<a name="delete-column-stats-schedule"></a>

 Meskipun mempertahankan up-to-date statistik umumnya direkomendasikan untuk kinerja kueri yang optimal, ada kasus penggunaan khusus di mana menghapus jadwal pembuatan otomatis mungkin bermanfaat.
+ Jika data tetap relatif statis, statistik kolom yang ada mungkin tetap akurat untuk waktu yang lama, mengurangi kebutuhan untuk pembaruan yang sering. Menghapus jadwal dapat mencegah konsumsi sumber daya yang tidak perlu dan overhead yang terkait dengan statistik regenerasi pada data yang tidak berubah.
+ Ketika kontrol manual atas pembuatan statistik lebih disukai. Dengan menghapus jadwal otomatis, administrator dapat secara selektif memperbarui statistik kolom pada interval tertentu atau setelah perubahan data yang signifikan, menyelaraskan proses dengan strategi pemeliharaan dan kebutuhan alokasi sumber daya mereka. 

------
#### [ Konsol Manajemen AWS ]

**Untuk menghapus jadwal pembuatan statistik kolom**

1. Di AWS Glue konsol, pilih **Tabel** di bawah Katalog Data.

1. Pilih tabel dengan statistik kolom.

1. Pada halaman **Rincian tabel**, pilih **Statistik kolom**.

1. Di bawah **Tindakan**, pilih **Generasi terjadwal**, **Hapus**.

1. Pilih **Hapus** untuk mengonfirmasi.

------
#### [ AWS CLI ]

Ganti `database_name` dan `table_name` dengan nama sebenarnya dari database dan tabel yang ingin Anda hentikan jadwal tugas menjalankan statistik kolom.

Anda dapat menghapus jadwal statistik kolom menggunakan operasi [DeleteColumnStatisticsTaskSettings](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-column-statistics.html#aws-glue-api-crawler-column-statistics-DeleteColumnStatisticsTaskSettings)API atau AWS CLI. Contoh berikut menunjukkan cara menghapus jadwal untuk menghasilkan statistik kolom menggunakan AWS Command Line Interface (AWS CLI).

```
aws glue delete-column-statistics-task-settings \
    --database-name 'database_name' \
    --table-name 'table_name'
```

------

# Menghasilkan statistik kolom sesuai permintaan
<a name="column-stats-on-demand"></a>

Anda dapat menjalankan tugas statistik kolom untuk tugas AWS Glue Data Catalog tabel sesuai permintaan tanpa jadwal yang ditetapkan. Opsi ini berguna untuk analisis ad-hoc atau ketika statistik perlu segera dihitung.

Ikuti langkah-langkah ini untuk menghasilkan statistik kolom sesuai permintaan untuk tabel Katalog Data menggunakan AWS Glue konsol atau AWS CLI.

------
#### [ Konsol Manajemen AWS ]

**Untuk menghasilkan statistik kolom menggunakan konsol**

1. Masuk ke AWS Glue konsol di [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/). 

1. Pilih tabel Katalog Data.

1.  Pilih tabel dari daftar. 

1. Pilih **Hasilkan statistik** di bawah menu **Tindakan**.

   Anda juga dapat memilih **Menghasilkan****, Menghasilkan sesuai permintaan** opsi di bawah tab **Statistik kolom** di bagian bawah halaman **Tabel**.

1. Ikuti langkah 7 - 11 di [Menghasilkan statistik kolom pada jadwal](generate-column-stats.md) untuk menghasilkan statistik kolom untuk tabel.

1. Pada halaman **Hasilkan statistik**, tentukan opsi berikut:   
![\[Tangkapan layar menunjukkan opsi yang tersedia untuk menghasilkan statistik kolom.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/generate-column-stats.png)
   + **Semua kolom** - Pilih opsi ini untuk menghasilkan statistik untuk semua kolom dalam tabel.
   + **Kolom yang dipilih** - Pilih opsi ini untuk menghasilkan statistik untuk kolom tertentu. Anda dapat memilih kolom dari daftar drop-down.
   + **Peran IAM** —Pilih **Buat peran IAM baru** yang memiliki kebijakan izin yang diperlukan untuk menjalankan tugas pembuatan statistik kolom. Pilih Lihat detail izin untuk meninjau pernyataan kebijakan. Anda juga dapat memilih peran IAM dari daftar. Untuk informasi lebih lanjut tentang izin yang diperlukan, lihat [Prasyarat untuk menghasilkan statistik kolom](column-stats-prereqs.md).

     AWS Glue mengasumsikan izin peran yang Anda tentukan untuk menghasilkan statistik. 

     Untuk informasi selengkapnya tentang penyediaan peran AWS Glue, lihat [Kebijakan berbasis identitas](https://docs.aws.amazon.com/glue/latest/dg/security_iam_service-with-iam.html#security_iam_service-with-iam-id-based-policies) untuk. AWS Glue.
   + (Opsional) Selanjutnya, pilih konfigurasi keamanan untuk mengaktifkan enkripsi saat istirahat untuk log.
   + **Baris sampel** - Pilih hanya persentase baris tertentu dari tabel untuk menghasilkan statistik. Defaultnya adalah semua baris. Gunakan panah atas dan bawah untuk menambah atau mengurangi nilai persen.
**catatan**  
Kami merekomendasikan untuk memasukkan semua baris dalam tabel untuk menghitung statistik yang akurat. Gunakan baris sampel untuk menghasilkan statistik kolom hanya jika nilai perkiraan dapat diterima.

   Pilih **Hasilkan statistik** untuk menjalankan tugas.

------
#### [ AWS CLI ]

Perintah ini akan memicu tugas statistik kolom yang dijalankan untuk tabel yang ditentukan. Anda perlu memberikan nama database, nama tabel, peran IAM dengan izin untuk menghasilkan statistik, dan secara opsional memberikan nama kolom dan persentase ukuran sampel untuk perhitungan statistik.

```
aws glue start-column-statistics-task-run \ 
    --database-name 'database_name \ 
    --table-name 'table_name' \ 
    --role 'arn:aws:iam::123456789012:role/stats-role' \
    --column-name 'col1','col2'  \
    --sample-size 10.0
```

Perintah ini akan memulai tugas untuk menghasilkan statistik kolom untuk tabel yang ditentukan. 

------

## Memperbarui statistik kolom sesuai permintaan
<a name="update-column-stats-on-demand"></a>

 Mempertahankan statistik up-to-date kolom sangat penting bagi pengoptimal kueri untuk menghasilkan rencana eksekusi yang efisien, memastikan peningkatan kinerja kueri, mengurangi konsumsi sumber daya, dan kinerja sistem keseluruhan yang lebih baik. Proses ini sangat penting setelah perubahan data yang signifikan, seperti beban massal atau modifikasi ekstensif, yang dapat membuat statistik yang ada menjadi usang. 

Anda perlu menjalankan tugas **Hasilkan statistik** secara eksplisit dari AWS Glue konsol untuk menyegarkan statistik kolom. Katalog Data tidak secara otomatis menyegarkan statistik.

Jika Anda tidak menggunakan AWS Glue fitur pembuatan statistik di konsol, Anda dapat memperbarui statistik kolom secara manual menggunakan operasi [UpdateColumnStatisticsForTable](https://docs.aws.amazon.com/glue/latest/webapi/API_UpdateColumnStatisticsForTable.html)API atau AWS CLI. Contoh berikut menunjukkan cara memperbarui statistik kolom menggunakan AWS CLI.

```
aws glue update-column-statistics-for-table --cli-input-json:

{
    "CatalogId": "111122223333",
    "DatabaseName": "database_name",
    "TableName": "table_name",
    "ColumnStatisticsList": [
        {
            "ColumnName": "col1",
            "ColumnType": "Boolean",
            "AnalyzedTime": "1970-01-01T00:00:00",
            "StatisticsData": {
                "Type": "BOOLEAN",
                "BooleanColumnStatisticsData": {
                    "NumberOfTrues": 5,
                    "NumberOfFalses": 5,
                    "NumberOfNulls": 0
                }
            }
        }
    ]
}
```

# Melihat statistik kolom
<a name="view-column-stats"></a>

Setelah berhasil menghasilkan statistik, Data Catalog menyimpan informasi ini untuk pengoptimal berbasis biaya di dan Amazon Amazon Athena Redshift untuk membuat pilihan optimal saat menjalankan kueri. Statistik bervariasi berdasarkan jenis kolom.

------
#### [ Konsol Manajemen AWS ]

**Untuk melihat statistik kolom untuk tabel**
+ Setelah menjalankan tugas statistik **kolom, tab Statistik kolom** pada halaman **Rincian tabel** menunjukkan statistik untuk tabel.   
![\[Tangkapan layar menunjukkan kolom yang dihasilkan dari proses terbaru.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/view-column-stats.png)

  Statistik berikut tersedia:
  + Nama kolom: Nama kolom yang digunakan untuk menghasilkan statistik
  + Terakhir diperbarui: Data dan waktu ketika statistik dihasilkan
  + Panjang rata-rata: Panjang rata-rata nilai di kolom
  + Nilai yang berbeda: Jumlah total nilai yang berbeda di kolom. Kami memperkirakan jumlah nilai yang berbeda dalam kolom dengan kesalahan relatif 5%.
  + Nilai maks: Nilai terbesar di kolom.
  + Nilai min: Nilai terkecil di kolom. 
  + Panjang maks: Panjang nilai tertinggi di kolom.
  + Nilai nol: Jumlah total nilai null di kolom.
  + Nilai sebenarnya: Jumlah total nilai sebenarnya di kolom.
  + Nilai palsu: Jumlah total nilai palsu di kolom.
  + NumFiles: Jumlah total file dalam tabel. Nilai ini tersedia di bawah tab **Advanced properties**.

------
#### [ AWS CLI ]

Contoh berikut menunjukkan bagaimana untuk mengambil statistik kolom menggunakan AWS CLI.

```
aws glue get-column-statistics-for-table \
    --database-name database_name \
    --table-name table_name \
    --column-names <column_name>
```

 Anda juga dapat melihat statistik kolom menggunakan operasi [GetColumnStatisticsForTable](https://docs.aws.amazon.com/glue/latest/webapi/API_GetColumnStatisticsForTable.html)API. 

------

# Melihat tugas statistik kolom berjalan
<a name="view-stats-run"></a>

Setelah menjalankan tugas statistik kolom, Anda dapat menjelajahi detail menjalankan tugas untuk tabel menggunakan AWS Glue konsol, AWS CLI atau menggunakan [GetColumnStatisticsTaskRuns](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-column-statistics.html#aws-glue-api-crawler-column-statistics-GetColumnStatisticsTaskRun)operasi.

------
#### [ Console ]

**Untuk melihat rincian tugas statistik kolom**

1. Di AWS Glue konsol, pilih **Tabel** di bawah Katalog Data.

1. Pilih tabel dengan statistik kolom.

1. Pada halaman **Rincian tabel**, pilih **Statistik kolom**.

1. Pilih **Lihat berjalan**.

   Anda dapat melihat informasi tentang semua proses yang terkait dengan tabel yang ditentukan.  
![\[Tangkapan layar menunjukkan opsi yang tersedia untuk menghasilkan statistik kolom.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/view-column-stats-task-runs.png)

------
#### [ AWS CLI ]

Dalam contoh berikut, ganti nilai untuk `DatabaseName` dan `TableName` dengan database dan nama tabel yang sebenarnya.

```
aws glue get-column-statistics-task-runs --input-cli-json file://input.json
{
    "DatabaseName": "database_name",
    "TableName": "table_name"
}
```

------

# Menghentikan tugas statistik kolom
<a name="stop-stats-run"></a>

Anda dapat menghentikan tugas statistik kolom yang dijalankan untuk tabel menggunakan AWS Glue konsol, AWS CLI atau menggunakan [StopColumnStatisticsTaskRun](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-column-statistics.html#aws-glue-api-crawler-column-statistics-StopColumnStatisticsTaskRun)operasi.

------
#### [ Console ]

**Untuk menghentikan tugas statistik kolom, jalankan**

1. Di AWS Glue konsol, pilih **Tabel** di bawah Katalog Data.

1. Pilih tabel dengan tugas statistik kolom yang sedang berjalan.

1. Pada halaman **Rincian tabel**, pilih **Statistik kolom**.

1. Pilih **Berhenti**.

   Jika Anda menghentikan tugas sebelum proses selesai, statistik kolom tidak akan dihasilkan untuk tabel.

------
#### [ AWS CLI ]

Dalam contoh berikut, ganti nilai untuk `DatabaseName` dan `TableName` dengan database dan nama tabel yang sebenarnya.

```
aws glue stop-column-statistics-task-run --input-cli-json file://input.json
{
    "DatabaseName": "database_name",
    "TableName": "table_name"
}
```

------

# Menghapus statistik kolom
<a name="delete-column-stats"></a>

Anda dapat menghapus statistik kolom menggunakan operasi [DeleteColumnStatisticsForTable](https://docs.aws.amazon.com/glue/latest/webapi/API_DeleteColumnStatisticsForTable.html)API atau AWS CLI. Contoh berikut menunjukkan cara menghapus statistik kolom menggunakan AWS Command Line Interface (AWS CLI).

```
aws glue delete-column-statistics-for-table \
    --database-name 'database_name' \
    --table-name 'table_name' \
    --column-name 'column_name'
```

# Pertimbangan dan batasan
<a name="column-stats-notes"></a>

Pertimbangan dan batasan berikut berlaku untuk menghasilkan statistik kolom.

**Pertimbangan-pertimbangan**
+ Menggunakan sampling untuk menghasilkan statistik mengurangi waktu berjalan, tetapi dapat menghasilkan statistik yang tidak akurat.
+ Katalog Data tidak menyimpan versi statistik yang berbeda.
+ Anda hanya dapat menjalankan satu tugas pembuatan statistik pada satu waktu per tabel.
+ Jika tabel dienkripsi menggunakan AWS KMS kunci pelanggan yang terdaftar dengan Katalog Data, AWS Glue gunakan kunci yang sama untuk mengenkripsi statistik.

**Tugas statistik kolom mendukung menghasilkan statistik:**
+ Ketika peran IAM memiliki izin tabel lengkap (IAM atau Lake Formation).
+ Ketika peran IAM memiliki izin di atas meja menggunakan mode akses hibrida Lake Formation.

**Tugas statistik kolom tidak mendukung pembuatan statistik untuk:**
+ Tabel dengan kontrol akses berbasis sel Lake Formation
+ Danau data transaksional - Yayasan Linux Delta Lake, Apache Hudi
+ Tabel dalam database federasi - Hive metastore, datashares Amazon Redshift
+ Kolom bersarang, array, dan tipe data struct.
+ Tabel yang dibagikan dengan Anda dari akun lain

# Mengenkripsi Katalog Data Anda
<a name="catalog-encryption"></a>

 Anda dapat melindungi metadata yang disimpan dalam keadaan diam menggunakan kunci enkripsi yang dikelola oleh AWS Key Management Service ()AWS KMS. AWS Glue Data Catalog Anda dapat mengaktifkan enkripsi Katalog Data untuk Katalog Data baru, dengan menggunakan **pengaturan Katalog Data**. Anda dapat mengaktifkan atau menonaktifkan enkripsi untuk Katalog Data yang ada sesuai kebutuhan. Saat diaktifkan, AWS Glue mengenkripsi semua metadata baru yang ditulis ke katalog, sementara metadata yang ada tetap tidak terenkripsi. 

Untuk informasi rinci tentang mengenkripsi Katalog Data Anda, lihat. [Mengenkripsi Katalog Data Anda](encrypt-glue-data-catalog.md)

# Mengamankan Katalog Data Anda menggunakan Lake Formation
<a name="secure-catalog"></a>

 AWS Lake Formation adalah layanan yang membuatnya lebih mudah untuk mengatur danau data yang aman di AWS. Ini menyediakan tempat sentral untuk membuat dan mengelola danau data Anda dengan aman dengan mendefinisikan izin kontrol akses yang diberikan dengan baik. Lake Formation menggunakan Katalog Data untuk menyimpan dan mengambil metadata tentang data lake Anda, seperti definisi tabel, informasi skema, dan pengaturan kontrol akses data.

Anda dapat mendaftarkan lokasi data Amazon S3 dari tabel metadata atau database dengan Lake Formation dan menggunakannya untuk menentukan izin tingkat metadata pada sumber daya Katalog Data. Anda juga dapat menggunakan Lake Formation untuk mengelola izin akses penyimpanan pada data dasar yang disimpan di Amazon S3 atas nama mesin analitik terintegrasi.

Untuk informasi lebih lanjut lihat [Apa itu AWS Lake Formation?](lake-formation/latest/dg/what-is-lake-formation.html) .

# Bekerja dengan AWS Glue Data Catalog pandangan di AWS Glue
<a name="catalog-views"></a>

 Anda dapat membuat dan mengelola tampilan di AWS Glue Data Catalog, umumnya dikenal sebagai AWS Glue Data Catalog tampilan. Tampilan ini berguna karena mendukung beberapa mesin kueri SQL, memungkinkan Anda mengakses tampilan yang sama di berbagai AWS layanan, seperti Amazon Athena, Amazon Redshift, dan AWS Glue. Anda dapat menggunakan tampilan berdasarkan Apache Iceberg, Apache Hudi, dan Delta Lake. 

 Dengan membuat tampilan di Katalog Data, Anda dapat menggunakan hibah sumber daya dan kontrol akses berbasis tag AWS Lake Formation untuk memberikan akses ke sana. Dengan menggunakan metode kontrol akses ini, Anda tidak perlu mengonfigurasi akses tambahan ke tabel yang direferensikan saat membuat tampilan. Metode pemberian izin ini disebut semantik definer, dan pandangan ini disebut tampilan definer. Untuk informasi selengkapnya tentang kontrol akses AWS Lake Formation, lihat [Memberikan dan mencabut izin pada sumber daya Katalog Data di](https://docs.aws.amazon.com/lake-formation/latest/dg/granting-catalog-permissions.html) Panduan Pengembang. AWS Lake Formation 

 Tampilan Katalog Data berguna untuk kasus penggunaan berikut: 
+  **Kontrol akses granular** — Anda dapat membuat tampilan yang membatasi akses data berdasarkan izin yang dibutuhkan pengguna. Misalnya, Anda dapat menggunakan tampilan di Katalog Data untuk mencegah karyawan yang tidak bekerja di departemen SDM melihat informasi identitas pribadi (PII). 
+  **Definisi tampilan lengkap** — Dengan menerapkan filter pada tampilan Anda di Katalog Data, Anda memastikan bahwa catatan data yang tersedia dalam tampilan selalu lengkap. 
+  **Keamanan yang ditingkatkan** — Definisi kueri yang digunakan untuk membuat tampilan harus lengkap, membuat tampilan Katalog Data kurang rentan terhadap perintah SQL dari aktor jahat. 
+  **Berbagi data sederhana** — Bagikan data dengan AWS akun lain tanpa memindahkan data, menggunakan berbagi data lintas akun. AWS Lake Formation

## Membuat tampilan Katalog Data
<a name="catalog-creating-view"></a>

 Anda dapat membuat tampilan Katalog Data menggunakan skrip AWS CLI dan AWS Glue ETL menggunakan Spark SQL. Sintaks untuk membuat tampilan Katalog Data termasuk menentukan jenis tampilan sebagai dan `MULTI DIALECT` `SECURITY` predikat sebagai`DEFINER`, menunjukkan tampilan definer. 

 Contoh pernyataan SQL untuk membuat tampilan Data Catalog: 

```
CREATE PROTECTED MULTI DIALECT VIEW database_name.catalog_view SECURITY DEFINER
AS SELECT order_date, sum(totalprice) AS price
FROM source_table
GROUP BY order_date;
```

 Setelah membuat tampilan Katalog Data, Anda dapat menggunakan peran IAM dengan izin AWS Lake Formation `SELECT` pada tampilan untuk menanyakannya dari layanan seperti Amazon Athena, Amazon Redshift, atau pekerjaan ETL. AWS Glue Anda tidak perlu memberikan akses ke tabel dasar yang direferensikan dalam tampilan. 

 Untuk informasi selengkapnya tentang membuat dan mengonfigurasi tampilan Katalog Data, lihat [Membangun tampilan Katalog AWS Glue Data](https://docs.aws.amazon.com/lake-formation/latest/dg/working-with-views.html) di Panduan AWS Lake Formation Pengembang. 

## Operasi tampilan yang didukung
<a name="catalog-supported-view-operations"></a>

 Fragmen perintah berikut menunjukkan kepada Anda berbagai cara untuk bekerja dengan tampilan Katalog Data: 

 **BUAT TAMPILAN** 

 Membuat tampilan data-katalog. Berikut ini adalah contoh yang menunjukkan pembuatan tampilan dari tabel yang ada: 

```
CREATE PROTECTED MULTI DIALECT VIEW catalog_view 
SECURITY DEFINER AS SELECT * FROM my_catalog.my_database.source_table
```

 **UBAH TAMPILAN** 

 Sintaks yang tersedia: 

```
ALTER VIEW view_name [FORCE] ADD DIALECT AS query
ALTER VIEW view_name [FORCE] UPDATE DIALECT AS query
ALTER VIEW view_name DROP DIALECT
```

 Anda dapat menggunakan `FORCE ADD DIALECT` opsi untuk memaksa memperbarui skema dan sub objek sesuai dialek mesin baru. Perhatikan bahwa melakukan hal ini dapat mengakibatkan kesalahan kueri jika Anda juga tidak menggunakannya `FORCE` untuk memperbarui dialek mesin lainnya. Berikut ini menunjukkan contoh: 

```
ALTER VIEW catalog_view FORCE ADD DIALECTAS
SELECT order_date, sum(totalprice) AS priceFROM source_tableGROUP BY orderdate;
```

 Berikut ini menunjukkan cara mengubah tampilan untuk memperbarui dialek: 

```
ALTER VIEW catalog_view UPDATE DIALECT AS
SELECT count(*) FROM my_catalog.my_database.source_table;
```

 **JELASKAN TAMPILAN** 

 Sintaks yang tersedia untuk menggambarkan tampilan: 

 `SHOW COLUMNS {FROM|IN} view_name [{FROM|IN} database_name]`— Jika pengguna memiliki persyaratan AWS Glue dan AWS Lake Formation izin untuk menggambarkan tampilan, mereka dapat membuat daftar kolom. Berikut ini menunjukkan beberapa contoh perintah untuk menampilkan kolom: 

```
SHOW COLUMNS FROM my_database.source_table;    
SHOW COLUMNS IN my_database.source_table;
```

 `DESCRIBE view_name`— Jika pengguna memiliki persyaratan AWS Glue dan AWS Lake Formation izin untuk menggambarkan tampilan, mereka dapat mencantumkan kolom dalam tampilan bersama dengan metadatanya. 

 **TAMPILAN DROP** 

 Sintaks yang tersedia: 

```
DROP VIEW [ IF EXISTS ] view_name
```

 Contoh berikut menunjukkan `DROP` pernyataan yang menguji apakah tampilan ada sebelum menjatuhkannya: 

```
DROP VIEW IF EXISTS catalog_view;
```

 `SHOW CREATE VIEW view_name`- Menunjukkan pernyataan SQL yang menciptakan tampilan yang ditentukan. Berikut ini adalah contoh yang menunjukkan pembuatan tampilan data-katalog: 

```
SHOW CREATE TABLE my_database.catalog_view;CREATE PROTECTED MULTI DIALECT VIEW my_catalog.my_database.catalog_view (
  net_profit,
  customer_id,
  item_id,
  sold_date)
TBLPROPERTIES (
  'transient_lastDdlTime' = '1736267222')
SECURITY DEFINER AS SELECT * FROM
my_database.store_sales_partitioned_lf WHERE customer_id IN (SELECT customer_id from source_table limit 10)
```

 **TAMPILKAN TAMPILAN** 

 Daftar semua tampilan dalam katalog, seperti tampilan reguler, tampilan multi-dialek (MDV), dan MDV tanpa dialek Spark. Sintaks yang tersedia adalah sebagai berikut: 

```
SHOW VIEWS [{ FROM | IN } database_name] [LIKE regex_pattern]:
```

 Berikut ini menunjukkan contoh perintah untuk menampilkan tampilan: 

```
SHOW VIEWS IN marketing_analytics LIKE 'catalog_view*';
```

 Untuk informasi selengkapnya tentang membuat dan mengonfigurasi tampilan data-katalog, lihat [Membangun tampilan Katalog AWS Glue Data di Panduan](https://docs.aws.amazon.com/lake-formation/latest/dg/working-with-views.html) Pengembang AWS Lake Formation . 

## Menanyakan tampilan Katalog Data
<a name="catalog-view-query"></a>

 Setelah membuat tampilan Katalog Data, Anda dapat menanyakan tampilan. Peran IAM yang dikonfigurasi dalam AWS Glue pekerjaan Anda harus memiliki izin Lake Formation **SELECT** pada tampilan Katalog Data. Anda tidak perlu memberikan akses ke tabel dasar yang direferensikan dalam tampilan. 

 Setelah semuanya disiapkan, Anda dapat menanyakan tampilan Anda. Misalnya, Anda dapat menjalankan kueri berikut untuk mengakses tampilan. 

```
SELECT * from my_database.catalog_view LIMIT 10;
```

## Batasan
<a name="catalog-view-limitations"></a>

 Pertimbangkan batasan berikut saat Anda menggunakan tampilan Katalog Data. 
+  Anda hanya dapat membuat tampilan Katalog Data dengan AWS Glue 5.0 ke atas. 
+  Penentu tampilan Katalog Data harus memiliki `SELECT` akses ke tabel dasar dasar yang diakses oleh tampilan. Membuat tampilan Katalog Data gagal jika tabel dasar tertentu memiliki filter Lake Formation yang dikenakan pada peran definer. 
+  Tabel dasar tidak boleh memiliki izin `IAMAllowedPrincipals` data lake di AWS Lake Formation. Jika ada, kesalahan **tampilan Multi Dialek mungkin hanya referensi tabel tanpa izin IAMAllowed Prinsipal** terjadi. 
+  Lokasi Amazon S3 tabel harus terdaftar sebagai lokasi danau AWS Lake Formation data. Jika tabel tidak terdaftar, kesalahan `Multi Dialect views may only reference AWS Lake Formation managed tables` terjadi. Untuk informasi tentang cara mendaftarkan lokasi Amazon Amazon S3 di AWS Lake Formation, lihat [Mendaftarkan lokasi Amazon S3](https://docs.aws.amazon.com/lake-formation/latest/dg/register-data-lake.html) di AWS Lake Formation Panduan Pengembang. 
+  Anda hanya dapat membuat tampilan Katalog `PROTECTED` Data. `UNPROTECTED`tampilan tidak didukung. 
+  Anda tidak dapat mereferensikan tabel di AWS akun lain dalam definisi tampilan Katalog Data. Anda juga tidak dapat mereferensikan tabel di akun yang sama yang berada di wilayah terpisah. 
+  Untuk berbagi data di seluruh akun atau wilayah, seluruh tampilan harus dibagikan lintas akun dan lintas wilayah, menggunakan tautan AWS Lake Formation sumber daya. 
+  Fungsi yang ditentukan pengguna (UDFs) tidak didukung. 
+  Anda tidak dapat mereferensikan tampilan lain dalam tampilan Katalog Data. 