

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Menghasilkan statistik kolom pada jadwal
<a name="generate-column-stats"></a>

Ikuti langkah-langkah ini untuk mengonfigurasi jadwal untuk menghasilkan statistik kolom dalam AWS Glue Data Catalog menggunakan AWS Glue konsol, konsol AWS CLI, atau [CreateColumnStatisticsTaskSettings](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-column-statistics.html#aws-glue-api-crawler-column-statistics-CreateColumnStatisticsTaskSettings)operasi.

------
#### [ Console ]

**Untuk menghasilkan statistik kolom menggunakan konsol**

1. Masuk ke AWS Glue konsol di [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/). 

1. Pilih tabel Katalog Data.

1. Pilih tabel dari daftar. 

1. Pilih tab **Statistik kolom** di bagian bawah halaman **Tabel**.

1. Anda juga dapat memilih **Hasilkan sesuai jadwal di** bawah **Statistik kolom** dari **Tindakan**.

1. Pada halaman **Hasilkan statistik pada jadwal**, konfigurasikan jadwal berulang untuk menjalankan tugas statistik kolom dengan memilih frekuensi dan waktu mulai. Anda dapat memilih frekuensi per jam, harian, mingguan, atau menentukan ekspresi cron untuk menentukan jadwal.

   Ekspresi cron adalah string yang mewakili pola jadwal, yang terdiri dari 6 bidang yang dipisahkan oleh spasi: \$1 \$1 \$1 \$1 \$1 <minute><hour><day of month><month><day of week><year>Misalnya, untuk menjalankan tugas setiap hari di tengah malam, ekspresi cron adalah: 0 0 \$1 \$1? \$1

   Untuk informasi selengkapnya, lihat [Ekspresi cron](https://docs.aws.amazon.com/glue/latest/dg/monitor-data-warehouse-schedule.html#CronExpressions).  
![\[Tangkapan layar menunjukkan opsi yang tersedia untuk menghasilkan statistik kolom.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/generate-column-stats-schedule.png)

1. Selanjutnya, pilih opsi kolom untuk menghasilkan statistik.
   + **Semua kolom** - Pilih opsi ini untuk menghasilkan statistik untuk semua kolom dalam tabel.
   + **Kolom yang dipilih** - Pilih opsi ini untuk menghasilkan statistik untuk kolom tertentu. Anda dapat memilih kolom dari daftar drop-down.

1. Pilih peran IAM atau buat peran yang ada yang memiliki izin untuk menghasilkan statistik. AWS Glue mengasumsikan peran ini untuk menghasilkan statistik kolom.

   Pendekatan yang lebih cepat adalah membiarkan AWS Glue konsol membuat peran untuk Anda. Peran yang dibuatnya khusus untuk menghasilkan statistik kolom, dan mencakup kebijakan `AWSGlueServiceRole` AWS terkelola ditambah kebijakan sebaris yang diperlukan untuk sumber data yang ditentukan. 

   Jika Anda menentukan peran yang ada untuk menghasilkan statistik kolom, pastikan peran tersebut menyertakan `AWSGlueServiceRole` kebijakan atau yang setara (atau versi bawah cakupan kebijakan ini), ditambah kebijakan sebaris yang diperlukan. 

1. (Opsional) Selanjutnya, pilih konfigurasi keamanan untuk mengaktifkan enkripsi saat istirahat untuk log.

1. (Opsional) Anda dapat memilih ukuran sampel dengan menunjukkan hanya persentase baris tertentu dari tabel untuk menghasilkan statistik. Defaultnya adalah semua baris. Gunakan panah atas dan bawah untuk menambah atau mengurangi nilai persen. 

   Kami merekomendasikan untuk memasukkan semua baris dalam tabel untuk menghitung statistik yang akurat. Gunakan baris sampel untuk menghasilkan statistik kolom hanya jika nilai perkiraan dapat diterima.

1. Pilih **Hasilkan statistik** untuk menjalankan tugas pembuatan statistik kolom.

------
#### [ AWS CLI ]

Anda dapat menggunakan AWS CLI contoh berikut untuk membuat jadwal pembuatan statistik kolom. Nama database, nama tabel, dan peran adalah parameter yang diperlukan, dan parameter opsional adalah jadwal, id katalog, ukuran sampel column-name-list, dan konfigurasi keamanan.

```
aws glue create-column-statistics-task-settings \ 
 --database-name 'database_name' \ 
 --table-name table_name \ 
 --role 'arn:aws:iam::123456789012:role/stats-role' \ 
 --schedule 'cron(0 0-5 14 * * ?)' \ 
 --column-name-list 'col-1' \  
 --catalog-id '123456789012' \ 
 --sample-size '10.0 ' \
 --security-configuration 'test-security'
```

Anda dapat menghasilkan statistik kolom juga dengan memanggil [StartColumnStatisticsTaskRun](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-column-statistics.html#aws-glue-api-crawler-column-statistics-StartColumnStatisticsTaskRun)operasi.

------

# Mengelola jadwal untuk pembuatan statistik kolom
<a name="manage-column-stats-schedule"></a>

Anda dapat mengelola operasi penjadwalan seperti memperbarui, memulai, menghentikan, dan menghapus jadwal untuk pembuatan statistik kolom. AWS Glue Anda dapat menggunakan [operasi API statistik AWS Glue konsol AWS CLI, atau AWS Glue kolom](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-column-statistics.html) untuk melakukan tugas ini.

**Topics**
+ [Memperbarui jadwal pembuatan statistik kolom](#update-column-stats-shedule)
+ [Menghentikan jadwal untuk pembuatan statistik kolom](#stop-column-stats-schedule)
+ [Melanjutkan jadwal untuk pembuatan statistik kolom](#resume-column-stats-schedule)
+ [Menghapus jadwal pembuatan statistik kolom](#delete-column-stats-schedule)

## Memperbarui jadwal pembuatan statistik kolom
<a name="update-column-stats-shedule"></a>

Anda dapat memperbarui jadwal untuk memicu tugas pembuatan statistik kolom setelah dibuat. Anda dapat menggunakan AWS Glue konsol, AWS CLI, atau menjalankan [UpdateColumnStatisticsTaskSettings](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-column-statistics.html#aws-glue-api-crawler-column-statistics-UpdateColumnStatisticsTaskSettings)operasi untuk memperbarui jadwal untuk tabel. Anda dapat memodifikasi parameter jadwal yang ada, seperti jenis jadwal (sesuai permintaan, atau terjadwal) dan parameter opsional lainnya. 

------
#### [ Konsol Manajemen AWS ]

**Untuk memperbarui pengaturan untuk tugas pembuatan statistik kolom**

1. Masuk ke AWS Glue konsol di [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. Pilih tabel yang ingin Anda perbarui dari daftar tabel.

1. Di bagian bawah halaman detail tabel, pilih **Statistik kolom**. 

1. Di bawah **Tindakan**, pilih **Edit** untuk memperbarui jadwal.

1. Buat perubahan yang diinginkan pada jadwal, dan pilih **Simpan**.

------
#### [ AWS CLI ]

 Jika Anda tidak menggunakan AWS Glue fitur pembuatan statistik di konsol, Anda dapat memperbarui jadwal secara manual menggunakan `update-column-statistics-task-settings` perintah. Contoh berikut menunjukkan cara memperbarui statistik kolom menggunakan AWS CLI. 

```
aws glue update-column-statistics-task-settings \ 
 --database-name 'database_name' \ 
 --table-name 'table_name' \ 
 --role arn:aws:iam::123456789012:role/stats_role \ 
 --schedule 'cron(0 0-5 16 * * ?)' \ 
 --column-name-list 'col-1' \
 --sample-size '20.0' \  
 --catalog-id '123456789012'\
 --security-configuration 'test-security'
```

------

## Menghentikan jadwal untuk pembuatan statistik kolom
<a name="stop-column-stats-schedule"></a>

 Jika Anda tidak lagi membutuhkan statistik tambahan, Anda dapat menghentikan pembuatan yang dijadwalkan untuk menghemat sumber daya dan biaya. Menjeda jadwal tidak memengaruhi statistik yang dihasilkan sebelumnya. Anda dapat melanjutkan jadwal sesuai keinginan Anda. 

------
#### [ Konsol Manajemen AWS ]

**Untuk menghentikan jadwal tugas pembuatan statistik kolom**

1. Di AWS Glue konsol, pilih **Tabel** di bawah Katalog Data.

1. Pilih tabel dengan statistik kolom.

1. Pada halaman **Rincian tabel**, pilih **Statistik kolom**.

1. Di bawah **Tindakan**, pilih **Generasi terjadwal**, **Jeda**.

1. Pilih **Jeda** untuk mengonfirmasi.

------
#### [ AWS CLI ]

Untuk menghentikan jadwal menjalankan tugas statistik kolom menggunakan AWS CLI, Anda dapat menggunakan perintah berikut: 

```
aws glue stop-column-statistics-task-run-schedule \
 --database-name ''database_name' \
 --table-name 'table_name'
```

Ganti `database_name` dan `table_name` dengan nama sebenarnya dari database dan tabel yang ingin Anda hentikan jadwal tugas menjalankan statistik kolom.

------

## Melanjutkan jadwal untuk pembuatan statistik kolom
<a name="resume-column-stats-schedule"></a>

 Jika Anda telah menghentikan sementara jadwal pembuatan statistik, AWS Glue memungkinkan Anda untuk melanjutkan jadwal sesuai keinginan Anda. Anda dapat melanjutkan jadwal menggunakan AWS Glue konsol, AWS CLI, atau [StartColumnStatisticsTaskRunSchedule](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-column-statistics.html#aws-glue-api-crawler-column-statistics-StartColumnStatisticsTaskRunSchedule)operasi. 

------
#### [ Konsol Manajemen AWS ]

**Untuk melanjutkan jadwal pembuatan statistik kolom**

1. Di AWS Glue konsol, pilih **Tabel** di bawah Katalog Data.

1. Pilih tabel dengan statistik kolom.

1. Pada halaman **Rincian tabel**, pilih **Statistik kolom**.

1. Di bawah **Tindakan**, pilih **Generasi terjadwal**, dan pilih **Lanjutkan**.

1. Pilih **Lanjutkan** untuk mengonfirmasi.

------
#### [ AWS CLI ]

Ganti `database_name` dan `table_name` dengan nama sebenarnya dari database dan tabel yang ingin Anda hentikan jadwal tugas menjalankan statistik kolom.

```
aws glue start-column-statistics-task-run-schedule \
 --database-name 'database_name' \
 --table-name 'table_name'
```

------

## Menghapus jadwal pembuatan statistik kolom
<a name="delete-column-stats-schedule"></a>

 Meskipun mempertahankan up-to-date statistik umumnya direkomendasikan untuk kinerja kueri yang optimal, ada kasus penggunaan khusus di mana menghapus jadwal pembuatan otomatis mungkin bermanfaat.
+ Jika data tetap relatif statis, statistik kolom yang ada mungkin tetap akurat untuk waktu yang lama, mengurangi kebutuhan untuk pembaruan yang sering. Menghapus jadwal dapat mencegah konsumsi sumber daya yang tidak perlu dan overhead yang terkait dengan statistik regenerasi pada data yang tidak berubah.
+ Ketika kontrol manual atas pembuatan statistik lebih disukai. Dengan menghapus jadwal otomatis, administrator dapat secara selektif memperbarui statistik kolom pada interval tertentu atau setelah perubahan data yang signifikan, menyelaraskan proses dengan strategi pemeliharaan dan kebutuhan alokasi sumber daya mereka. 

------
#### [ Konsol Manajemen AWS ]

**Untuk menghapus jadwal pembuatan statistik kolom**

1. Di AWS Glue konsol, pilih **Tabel** di bawah Katalog Data.

1. Pilih tabel dengan statistik kolom.

1. Pada halaman **Rincian tabel**, pilih **Statistik kolom**.

1. Di bawah **Tindakan**, pilih **Generasi terjadwal**, **Hapus**.

1. Pilih **Hapus** untuk mengonfirmasi.

------
#### [ AWS CLI ]

Ganti `database_name` dan `table_name` dengan nama sebenarnya dari database dan tabel yang ingin Anda hentikan jadwal tugas menjalankan statistik kolom.

Anda dapat menghapus jadwal statistik kolom menggunakan operasi [DeleteColumnStatisticsTaskSettings](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-column-statistics.html#aws-glue-api-crawler-column-statistics-DeleteColumnStatisticsTaskSettings)API atau AWS CLI. Contoh berikut menunjukkan cara menghapus jadwal untuk menghasilkan statistik kolom menggunakan AWS Command Line Interface (AWS CLI).

```
aws glue delete-column-statistics-task-settings \
    --database-name 'database_name' \
    --table-name 'table_name'
```

------