

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# AWS Glue Data Catalog
<a name="aws-glue-data-catalog"></a>

[AWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/catalog-and-crawler.html)Ini adalah repositori metadata terpusat untuk semua aset data Anda di berbagai sumber data. Ini menyediakan antarmuka terpadu untuk menyimpan dan menanyakan informasi tentang format data, skema, dan sumber. Ketika pekerjaan AWS Glue ETL berjalan, ia menggunakan katalog ini untuk memahami informasi tentang data dan memastikan bahwa itu diubah dengan benar.

[AWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/catalog-and-crawler.html)Ini terdiri dari komponen-komponen berikut:
+ Database dan tabel
+ Crawler dan pengklasifikasi
+ Koneksi
+ Registri Skema

## AWS Glue database dan tabel
<a name="databases-tables"></a>

[AWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/catalog-and-crawler.html)Ini diatur ke dalam [database dan tabel](https://docs.aws.amazon.com/glue/latest/dg/tables-described.html) untuk menyediakan struktur logis untuk menyimpan dan mengelola metadata. Struktur ini mendukung kontrol akses data yang tepat pada tingkat tabel atau database dengan menggunakan [kebijakan AWS Identity and Access Management (IAM)](https://docs.aws.amazon.com/glue/latest/dg/security-iam.html).

 AWS Glue Database dapat berisi banyak tabel, dan setiap tabel harus dikaitkan dengan database tunggal. Tabel ini berisi referensi ke data aktual, yang dapat disimpan di salah satu dari berbagai sumber data yang AWS Glue mendukung. AWS Glue tabel juga menyimpan metadata penting seperti nama kolom, tipe data, dan kunci partisi.

Ada beberapa metode berbeda untuk membuat tabel di AWS Glue:
+ AWS Glue perayap
+ AWS Glue Pekerjaan ETL
+ AWS Glue konsol
+ `CreateTable`operasi di [AWS Glue API](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api.html)
+ AWS CloudFormation Template
+ AWS Cloud Development Kit (AWS CDK)
+ Metastore Apache Hive yang bermigrasi

## AWS Glue crawler dan pengklasifikasi
<a name="crawlers-classifiers"></a>

 AWS Glue Crawler secara otomatis menemukan dan mengekstrak metadata dari penyimpanan data, dan kemudian memperbarui yang sesuai. AWS Glue Data Catalog Crawler terhubung ke penyimpanan data untuk menyimpulkan skema data. Kemudian membuat atau memperbarui tabel dalam Katalog Data dengan informasi skema yang ditemukannya. Crawler dapat merayapi penyimpanan data berbasis file dan berbasis tabel. Untuk mempelajari lebih lanjut tentang penyimpanan data yang didukung, lihat [Penyimpanan data mana yang dapat saya jelajahi?](https://docs.aws.amazon.com/glue/latest/dg/crawler-data-stores.html)

Crawler menggunakan [pengklasifikasi](https://docs.aws.amazon.com/glue/latest/dg/add-classifier.html#classifier-when-used) untuk mengenali format data secara akurat dan menentukan bagaimana seharusnya diproses. Secara default, crawler menggunakan satu set [pengklasifikasi bawaan](https://docs.aws.amazon.com/glue/latest/dg/add-classifier.html#classifier-built-in) umum yang disediakan oleh AWS Glue, tetapi Anda juga dapat [menulis pengklasifikasi khusus](https://docs.aws.amazon.com/glue/latest/dg/custom-classifier.html) untuk menangani kasus penggunaan tertentu.

## AWS Glue koneksi
<a name="connections"></a>

Anda dapat menggunakan AWS Glue [koneksi](https://docs.aws.amazon.com/glue/latest/dg/console-connections.html) untuk menentukan parameter koneksi yang memungkinkan AWS Glue untuk terhubung ke berbagai sumber data. Menambahkan koneksi memusatkan dan menyederhanakan konfigurasi yang diperlukan untuk terhubung ke sumber-sumber ini.

Saat [menentukan koneksi, Anda menentukan jenis koneksi](https://docs.aws.amazon.com/glue/latest/dg/glue-connections.html), titik akhir koneksi, dan kredensi apa pun yang diperlukan. Setelah koneksi didefinisikan, itu dapat digunakan kembali oleh beberapa AWS Glue pekerjaan dan crawler. Menggunakan koneksi dengan AWS Glue mengurangi kebutuhan untuk berulang kali memasukkan informasi koneksi yang sama, seperti kredensi login atau virtual private cloud (VPC). IDs

## AWS Glue Registri Skema
<a name="schema-registry"></a>

[Registri AWS Glue Skema](https://docs.aws.amazon.com/glue/latest/dg/schema-registry-gs.html) menyediakan lokasi terpusat untuk mengelola dan menegakkan skema aliran data. Ini memungkinkan sistem yang berbeda, seperti produsen data dan konsumen, untuk berbagi skema untuk serialisasi dan deserialisasi. Berbagi skema membantu sistem ini untuk berkomunikasi secara efektif dan menghindari kesalahan selama transformasi.

Registri Skema memastikan bahwa konsumen data hilir dapat menangani perubahan yang dilakukan di hulu, karena mereka mengetahui skema yang diharapkan. Ini mendukung evolusi skema, sehingga skema dapat berubah dari waktu ke waktu sambil mempertahankan kompatibilitas dengan versi skema sebelumnya.

Registri Skema terintegrasi dengan banyak AWS layanan, termasuk Amazon Kinesis Data Streams, Firehose, dan Amazon Managed Streaming untuk Apache Kafka. Untuk contoh kasus penggunaan dan integrasi, lihat [Mengintegrasikan dengan Registri AWS Glue Skema](https://docs.aws.amazon.com/glue/latest/dg/schema-registry-integrations.html#schema-registry-integrations-amazon-msk).