

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Mengoptimalkan kinerja kueri untuk tabel Iceberg
<a name="iceberg-column-statistics"></a>

Apache Iceberg adalah format tabel terbuka berkinerja tinggi untuk kumpulan data analitik yang sangat besar. AWS Glue mendukung penghitungan dan pembaruan jumlah nilai yang berbeda (NDVs) untuk setiap kolom dalam tabel Iceberg. Statistik ini dapat memfasilitasi optimasi kueri, manajemen data, dan efisiensi kinerja yang lebih baik untuk insinyur data dan ilmuwan yang bekerja dengan kumpulan data skala besar.

 AWS Glue memperkirakan jumlah nilai yang berbeda di setiap kolom tabel Iceberg dan menyimpannya dalam file [Puffin di](https://iceberg.apache.org/puffin-spec/) Amazon S3 yang terkait dengan snapshot tabel Iceberg. Puffin adalah format file Iceberg yang dirancang untuk menyimpan metadata seperti indeks, statistik, dan sketsa. Menyimpan sketsa dalam file Puffin yang terkait dengan snapshot memastikan konsistensi transaksional dan kesegaran statistik NDV.

Anda dapat mengonfigurasi untuk menjalankan tugas pembuatan statistik kolom menggunakan AWS Glue konsol atau AWS CLI. Saat Anda memulai proses, AWS Glue mulai pekerjaan Spark di latar belakang dan perbarui metadata AWS Glue tabel di Katalog Data. Anda dapat melihat statistik kolom menggunakan AWS Glue konsol AWS CLI atau atau dengan memanggil operasi [GetColumnStatisticsForTable](https://docs.aws.amazon.com/glue/latest/webapi/API_GetColumnStatisticsForTable.html)API.

**catatan**  
Jika Anda menggunakan AWS Lake Formation izin untuk mengontrol akses ke tabel, peran yang diasumsikan oleh tugas statistik kolom memerlukan akses tabel penuh untuk menghasilkan statistik.

**Topics**
+ [Prasyarat untuk menghasilkan statistik kolom](iceberg-column-stats-prereqs.md)
+ [Menghasilkan statistik kolom untuk tabel Gunung Es](iceberg-generate-column-stats.md)
+ [Lihat juga](#see-also-iceberg-stats)

# Prasyarat untuk menghasilkan statistik kolom
<a name="iceberg-column-stats-prereqs"></a>

Untuk menghasilkan atau memperbarui statistik kolom untuk tabel Iceberg, tugas pembuatan statistik mengasumsikan peran AWS Identity and Access Management (IAM) atas nama Anda. Berdasarkan izin yang diberikan untuk peran tersebut, tugas pembuatan statistik kolom dapat membaca data dari penyimpanan data Amazon S3.

Saat mengonfigurasi tugas pembuatan statistik kolom, Anda AWS Glue dapat membuat peran yang menyertakan kebijakan `AWSGlueServiceRole` AWS terkelola ditambah kebijakan sebaris yang diperlukan untuk sumber data yang ditentukan. 

Jika Anda menentukan peran yang ada untuk menghasilkan statistik kolom, pastikan peran tersebut menyertakan `AWSGlueServiceRole` kebijakan atau yang setara (atau versi bawah cakupan kebijakan ini), dan kebijakan sebaris yang diperlukan.

Untuk informasi lebih lanjut tentang izin yang diperlukan, lihat [Prasyarat untuk menghasilkan statistik kolom](column-stats-prereqs.md). 

# Menghasilkan statistik kolom untuk tabel Gunung Es
<a name="iceberg-generate-column-stats"></a>

Ikuti langkah-langkah ini untuk mengonfigurasi jadwal untuk menghasilkan statistik di Katalog Data menggunakan AWS Glue konsol AWS CLI atau atau atau menjalankan **StartColumnStatisticsTaskRun**operasi.

**Untuk menghasilkan statistik kolom**

1. Masuk ke AWS Glue konsol di [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/). 

1. Pilih **Tabel** di bawah Katalog Data.

1. Pilih tabel Gunung Es dari daftar. 

1. Pilih **Statistik kolom**, **Hasilkan sesuai permintaan**, di bawah menu **Tindakan**.

   Anda juga dapat memilih tombol **Hasilkan statistik** di bawah tab **Statistik kolom** di bagian bawah halaman **Tabel**.

1. Pada halaman **Hasilkan statistik**, berikan detail pembuatan statistik. Ikuti langkah 6-11 di [Menghasilkan statistik kolom pada jadwal](generate-column-stats.md) bagian untuk mengonfigurasi jadwal pembuatan statistik untuk tabel Iceberg. 

   Anda juga dapat memilih untuk menghasilkan statistik kolom sesuai permintaan dengan mengikuti petunjuk di [Menghasilkan statistik kolom sesuai permintaan](column-stats-on-demand.md)
**catatan**  
Opsi pengambilan sampel tidak tersedia untuk tabel Iceberg.

   AWS Glue menghitung jumlah nilai yang berbeda untuk setiap kolom tabel Iceberg ke file Puffin baru yang berkomitmen pada ID snapshot yang ditentukan di lokasi Amazon S3 Anda.

## Lihat juga
<a name="see-also-iceberg-stats"></a>
+ [Melihat statistik kolom](view-column-stats.md)
+ [Melihat tugas statistik kolom berjalan](view-stats-run.md)
+ [Menghentikan tugas statistik kolom](stop-stats-run.md)
+ [Menghapus statistik kolom](delete-column-stats.md)