

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Pembuatan statistik kolom otomatis
<a name="auto-column-stats-generation"></a>

Pembuatan otomatis statistik kolom memungkinkan Anda untuk menjadwalkan dan secara otomatis menghitung statistik pada tabel baru di AWS Glue Data Catalog. Saat Anda mengaktifkan pembuatan statistik otomatis, Katalog Data akan menemukan tabel baru dengan format data tertentu seperti Parquet, JSON, CSV, XML, ORC, ION, dan Apache Iceberg, beserta jalur bucket masing-masing. Dengan konfigurasi katalog satu kali, Katalog Data menghasilkan statistik untuk tabel ini.

 Administrator data lake dapat mengonfigurasi pembuatan statistik dengan memilih katalog default di konsol Lake Formation, dan mengaktifkan statistik tabel menggunakan opsi. `Optimization configuration` Saat Anda membuat tabel baru atau memperbarui tabel yang ada di Katalog Data, Katalog Data mengumpulkan jumlah nilai berbeda (NDVs) untuk tabel Apache Iceberg, dan statistik tambahan seperti jumlah null, maksimum, minimum, dan panjang rata-rata untuk format file lain yang didukung setiap minggu. 

Jika Anda telah mengonfigurasi pembuatan statistik di tingkat tabel atau jika sebelumnya Anda telah menghapus setelan pembuatan statistik untuk tabel, pengaturan khusus tabel tersebut lebih diutamakan daripada pengaturan katalog default untuk pembuatan statistik kolom otomatis.

 Tugas pembuatan statistik otomatis menganalisis 50% catatan dalam tabel untuk menghitung statistik. Pembuatan statistik kolom otomatis memastikan bahwa Katalog Data mempertahankan metrik mingguan yang dapat digunakan oleh mesin kueri seperti Amazon Athena dan Amazon Redshift Spectrum untuk meningkatkan kinerja kueri dan potensi penghematan biaya. Ini memungkinkan penjadwalan pembuatan statistik menggunakan AWS Glue APIs atau konsol, menyediakan proses otomatis tanpa intervensi manual. 

**Topics**
+ [Mengaktifkan pembuatan statistik otomatis tingkat katalog](enable-auto-column-stats-generation.md)
+ [Melihat pengaturan tingkat tabel otomatis](view-auto-column-stats-settings.md)
+ [Menonaktifkan pembuatan statistik kolom tingkat katalog](disable-auto-column-stats-generation.md)

# Mengaktifkan pembuatan statistik otomatis tingkat katalog
<a name="enable-auto-column-stats-generation"></a>

Anda dapat mengaktifkan pembuatan statistik kolom otomatis untuk semua tabel dan tabel Apache Iceberg baru dalam format tabel non-OTF (Parket, JSON, CSV, XML, ORC, ION) di Katalog Data. Setelah membuat tabel, Anda juga dapat secara eksplisit memperbarui pengaturan statistik kolom secara manual.

 Untuk memperbarui pengaturan Katalog Data untuk mengaktifkan tingkat katalog, peran IAM yang digunakan harus memiliki `glue:UpdateCatalog` izin atau AWS Lake Formation `ALTER CATALOG` izin pada katalog root. Anda dapat menggunakan `GetCatalog` API untuk memverifikasi properti katalog. 

------
#### [ Konsol Manajemen AWS ]

**Untuk mengaktifkan pembuatan statistik kolom otomatis di tingkat akun**

1. Buka konsol Lake Formation di [https://console.aws.amazon.com/lakeformation/](https://console.aws.amazon.com/lakeformation/).

1. Di bilah navigasi kiri, pilih **Katalog**.

1. Pada halaman **ringkasan Katalog**, pilih **Edit** di bawah **konfigurasi Optimasi**.   
![\[Tangkapan layar menunjukkan opsi yang tersedia untuk menghasilkan statistik kolom.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/edit-column-stats-auto.png)

1. Pada halaman **konfigurasi pengoptimalan tabel**, pilih opsi **Aktifkan pembuatan statistik otomatis untuk tabel katalog**.  
![\[Tangkapan layar menunjukkan opsi yang tersedia untuk menghasilkan statistik kolom.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/edit-optimization-option.jpg)

1. Pilih peran IAM yang ada atau buat yang baru yang memiliki izin yang diperlukan untuk menjalankan tugas statistik kolom.

1. Pilih **Kirim**.

------
#### [ AWS CLI ]

Anda juga dapat mengaktifkan pengumpulan statistik tingkat katalog melalui. AWS CLI Untuk mengonfigurasi pengumpulan statistik tingkat tabel menggunakan AWS CLI, jalankan perintah berikut:

```
aws glue update-catalog --cli-input-json '{
    "name": "123456789012",
    "catalogInput": {
        "description": "Updating root catalog with role arn",
        "catalogProperties": {
            "customProperties": {
                "ColumnStatistics.RoleArn": "arn:aws:iam::"123456789012":role/service-role/AWSGlueServiceRole",
                "ColumnStatistics.Enabled": "true"
            }
        }
    }
}'
```

 Perintah di atas memanggil AWS Glue`UpdateCatalog` operasi, yang mengambil `CatalogProperties` struktur dengan pasangan nilai kunci berikut untuk pembuatan statistik tingkat katalog: 
+ ColumnStatistics. RoleArn — ARN peran IAM untuk digunakan untuk semua tugas yang dipicu untuk pembuatan statistik tingkat Katalog
+ ColumnStatistics.Enabled - Boolean menunjukkan apakah pengaturan tingkat katalog diaktifkan atau dinonaktifkan

------

# Melihat pengaturan tingkat tabel otomatis
<a name="view-auto-column-stats-settings"></a>

 Saat pengumpulan statistik tingkat katalog diaktifkan, kapan saja tabel Apache Hive atau tabel Apache Iceberg dibuat atau diperbarui melalui atau melalui Konsol Manajemen AWS, SDK, `CreateTable` atau, `UpdateTable` APIs pengaturan tingkat tabel yang setara dibuat untuk tabel tersebut. Perayap AWS Glue

 Tabel dengan pembuatan statistik otomatis diaktifkan harus mengikuti salah satu properti berikut:
+ Gunakan `InputSerdeLibrary` yang dimulai dengan org.apache.hadoop dan sama `TableType` `EXTERNAL_TABLE`
+ Gunakan `InputSerdeLibrary` yang dimulai dengan `com.amazon.ion` dan `TableType` sama `EXTERNAL_TABLE`
+ Berisi table\$1type: “ICEBERG” dalam struktur parameternya. 

 Setelah membuat atau memperbarui tabel, Anda dapat memverifikasi detail tabel untuk mengonfirmasi pembuatan statistik. `Statistics generation summary`Menunjukkan `Schedule` properti ditetapkan sebagai `AUTO` dan `Statistics configuration` nilai adalah`Inherited from catalog`. Setiap pengaturan tabel dengan pengaturan berikut akan secara otomatis dipicu oleh Glue secara internal. 

![\[Gambar tabel Hive dengan koleksi statistik tingkat katalog telah diterapkan dan statistik telah dikumpulkan.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/auto-stats-summary.png)


# Menonaktifkan pembuatan statistik kolom tingkat katalog
<a name="disable-auto-column-stats-generation"></a>

 Anda dapat menonaktifkan pembuatan statistik kolom otomatis untuk tabel baru menggunakan AWS Lake Formation konsol, `glue:UpdateCatalogSettings` API, atau `glue:DeleteColumnStatisticsTaskSettings` API. 

**Untuk menonaktifkan pembuatan statistik kolom otomatis di tingkat akun**

1. Buka konsol Lake Formation di [https://console.aws.amazon.com/lakeformation/](https://console.aws.amazon.com/lakeformation/).

1. Di bilah navigasi kiri, pilih **Katalog**.

1. Pada halaman **ringkasan Katalog**, pilih **Edit** di bawah **konfigurasi Optimasi**. 

1. Pada halaman **konfigurasi pengoptimalan tabel**, batalkan pilihan **Aktifkan pembuatan statistik otomatis untuk tabel katalog** pilihan.

1. Pilih **Kirim**.