

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Gunakan crawler untuk menambahkan tabel
<a name="schema-crawlers"></a>

AWS Glue crawler membantu menemukan skema untuk kumpulan data dan mendaftarkannya sebagai tabel di Katalog Data. AWS Glue Crawler menelusuri data Anda dan menentukan skema. Selain itu, crawler dapat mendeteksi dan mendaftarkan partisi. Untuk informasi selengkapnya, lihat [Mendefinisikan crawler](https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html) di Panduan *AWS Glue Pengembang*. Tabel dari data yang berhasil dirayapi dapat ditanyakan dari Athena.

**catatan**  
Athena tidak mengenali [pola pengecualian](https://docs.aws.amazon.com/glue/latest/dg/define-crawler.html#crawler-data-stores-exclude) yang Anda tentukan untuk crawler. AWS Glue Misalnya, jika Anda memiliki bucket Amazon S3 yang berisi keduanya`.csv`dan`.json`file dan Anda mengecualikan`.json`file dari crawler, Athena mengkueri kedua grup file. Untuk menghindari hal ini, menempatkan file yang ingin Anda mengecualikan di lokasi yang berbeda. 

## Buat AWS Glue crawler
<a name="data-sources-glue-crawler-setup"></a>

Anda dapat membuat crawler dengan memulai di konsol Athena dan kemudian menggunakan konsol AWS Glue secara terintegrasi. Saat membuat crawler, Anda menentukan lokasi data di Amazon S3 untuk dirayapi.

**Untuk membuat crawler di AWS Glue mulai dari konsol Athena**

1. Buka konsol Athena di [https://console.aws.amazon.com/athena/](https://console.aws.amazon.com/athena/home).

1. Di editor kueri, di samping **Tabel dan tampilan**, pilih **Buat**, lalu pilih **AWS Glue crawler**. 

1. Pada**AWS Glue**Konsol**Tambahkan crawler**, ikuti langkah-langkah untuk membuat crawler. Untuk informasi selengkapnya, lihat [Menggunakan AWS Glue Crawler](#schema-crawlers) dalam panduan ini dan [Mengisi AWS Glue Data Catalog di](https://docs.aws.amazon.com/glue/latest/dg/populate-catalog-methods.html) Panduan *AWS Glue Pengembang*.

**catatan**  
Athena tidak mengenali [pola pengecualian](https://docs.aws.amazon.com/glue/latest/dg/define-crawler.html#crawler-data-stores-exclude) yang Anda tentukan untuk crawler. AWS Glue Misalnya, jika Anda memiliki bucket Amazon S3 yang berisi keduanya`.csv`dan`.json`file dan Anda mengecualikan`.json`file dari crawler, Athena mengkueri kedua grup file. Untuk menghindari hal ini, menempatkan file yang ingin Anda mengecualikan di lokasi yang berbeda.

Setelah crawl, AWS Glue crawler secara otomatis menetapkan metadata tabel tertentu untuk membantu membuatnya kompatibel dengan teknologi eksternal lainnya seperti Apache Hive, Presto, dan Spark. Kadang-kadang, crawler mungkin salah menetapkan properti metadata. Perbaiki properti secara manual AWS Glue sebelum menanyakan tabel menggunakan Athena. Untuk informasi selengkapnya, lihat [Melihat dan mengedit detail tabel](https://docs.aws.amazon.com/glue/latest/dg/console-tables.html#console-tables-details) di *Panduan AWS Glue Pengembang*.

AWS Glue mungkin salah menetapkan metadata ketika file CSV memiliki tanda kutip di sekitar setiap bidang data, membuat properti salah. `serializationLib` Untuk informasi selengkapnya, lihat [Menangani data CSV terlampir dalam tanda kutip](schema-csv.md#schema-csv-quotes).

# Menggunakan beberapa sumber data dengan crawler
<a name="schema-crawlers-data-sources"></a>

Ketika AWS Glue crawler memindai Amazon S3 dan mendeteksi beberapa direktori, ia menggunakan heuristik untuk menentukan di mana root untuk tabel berada dalam struktur direktori, dan direktori mana yang merupakan partisi untuk tabel. Dalam beberapa kasus, tempat skema yang terdeteksi dalam dua atau lebih direktori serupa, crawler dapat memperlakukannya sebagai partisi dan bukan tabel terpisah. Salah satu cara untuk membantu crawler menemukan tabel individu adalah dengan menambahkan direktori root setiap tabel sebagai penyimpanan data untuk crawler.

Partisi berikut di Amazon S3 adalah contoh:

```
s3://amzn-s3-demo-bucket/folder1/table1/partition1/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition2/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition3/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition4/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition5/file.txt
```

Jika skema untuk `table1` dan serupa, dan `table2` satu sumber data diatur ke `s3://amzn-s3-demo-bucket/folder1/` dalam AWS Glue, crawler dapat membuat tabel tunggal dengan dua kolom partisi: satu kolom partisi yang berisi `table1` dan`table2`, dan kolom partisi kedua yang berisi `partition1` melalui. `partition5`

Agar AWS Glue crawler membuat dua tabel terpisah, atur crawler untuk memiliki dua sumber data, `s3://amzn-s3-demo-bucket/folder1/table1/` dan`s3://amzn-s3-demo-bucket/folder1/table2`, seperti yang ditunjukkan dalam prosedur berikut.

**Untuk menambahkan penyimpanan data S3 ke crawler yang ada di AWS Glue**

1. Masuk ke Konsol Manajemen AWS dan buka AWS Glue konsol di [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. Di panel navigasi, pilih **Perayap**.

1. Pilih tautan ke crawler Anda, lalu pilih **Edit**. 

1. Untuk **Langkah 2: Pilih sumber data dan pengklasifikasi**, pilih **Edit**. 

1. Untuk **sumber data dan katalog**, pilih **Tambahkan sumber data**.

1. Dalam kotak dialog **Tambahkan sumber data**, untuk **jalur S3**, pilih **Jelajahi**. 

1. Pilih bucket yang ingin Anda gunakan, lalu pilih **Pilih**.

   Sumber data yang Anda tambahkan muncul di daftar **Sumber data**.

1. Pilih **Berikutnya**.

1. **Pada halaman **Konfigurasi pengaturan keamanan**, buat atau pilih peran IAM untuk crawler, lalu pilih Berikutnya.**

1. Pastikan bahwa jalur S3 berakhir dengan garis miring, lalu pilih **Tambahkan sumber data S3**.

1. Pada halaman **Set output dan penjadwalan**, untuk **konfigurasi Output**, pilih database target.

1. Pilih **Berikutnya**.

1. Pada halaman **Tinjau dan perbarui**, tinjau pilihan yang Anda buat. Untuk mengedit langkah, pilih **Edit**.

1.  Pilih **Perbarui**.

# Jadwalkan crawler agar tetap sinkron AWS Glue Data Catalog dan Amazon S3
<a name="schema-crawlers-schedule"></a>

AWS Glue crawler dapat diatur untuk berjalan sesuai jadwal atau sesuai permintaan. *Untuk informasi selengkapnya, lihat [Jadwal berbasis waktu untuk pekerjaan dan crawler di Panduan Pengembang](https://docs.aws.amazon.com/glue/latest/dg/monitor-data-warehouse-schedule.html).AWS Glue *

Jika Anda memiliki data yang tiba untuk tabel yang dipartisi pada waktu yang tetap, Anda dapat mengatur AWS Glue crawler agar berjalan sesuai jadwal untuk mendeteksi dan memperbarui partisi tabel. Ini dapat menghilangkan kebutuhan untuk menjalankan berpotensi panjang dan mahal`MSCK REPAIR`perintah atau secara manual menjalankan`ALTER TABLE ADD PARTITION`Perintah. Untuk informasi selengkapnya, lihat [Partisi tabel](https://docs.aws.amazon.com/glue/latest/dg/tables-described.html#tables-partition) di *Panduan AWS Glue Pengembang*.