

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Mengimpor data menggunakan alur kerja di Lake Formation
<a name="workflows"></a>

Dengan AWS Lake Formation, Anda dapat mengimpor data menggunakan *alur kerja*. Alur kerja menentukan sumber data dan jadwal untuk mengimpor data ke danau data Anda. Ini adalah wadah untuk AWS Glue crawler, pekerjaan, dan pemicu yang digunakan untuk mengatur proses untuk memuat dan memperbarui data lake. 

**Topics**
+ [

# Cetak biru dan alur kerja di Lake Formation
](workflows-about.md)
+ [

# Membuat alur kerja
](workflows-creating.md)
+ [

# Menjalankan alur kerja
](workflows-running.md)

# Cetak biru dan alur kerja di Lake Formation
<a name="workflows-about"></a>

Alur kerja merangkum aktivitas multi-job extract, transform, and load (ETL) yang kompleks. Alur kerja menghasilkan AWS Glue crawler, pekerjaan, dan pemicu untuk mengatur pemuatan dan pembaruan data. Lake Formation mengeksekusi dan melacak alur kerja sebagai satu entitas. Anda dapat mengonfigurasi alur kerja agar berjalan sesuai permintaan atau sesuai jadwal.

**catatan**  
Penulis parket Spark tidak mendukung karakter khusus dalam nama kolom. Ini adalah batasan teknis dari penulis itu sendiri, bukan masalah konfigurasi.

Alur kerja yang Anda buat di Lake Formation terlihat di AWS Glue konsol sebagai grafik asiklik terarah (DAG). Setiap node DAG adalah job, crawler, atau trigger. Untuk memantau kemajuan dan pemecahan masalah, Anda dapat melacak status setiap node dalam alur kerja.

Ketika alur kerja Lake Formation telah selesai, pengguna yang menjalankan alur kerja diberikan `SELECT` izin Lake Formation pada tabel Katalog Data yang dibuat oleh alur kerja. 

Anda juga dapat membuat alur kerja diAWS Glue. Namun, karena Lake Formation memungkinkan Anda membuat alur kerja dari cetak biru, membuat alur kerja jauh lebih sederhana dan lebih otomatis di Lake Formation. Lake Formation menyediakan jenis cetak biru berikut:
+ **Snapshot database** — Memuat atau memuat ulang data dari semua tabel ke dalam data lake dari sumber JDBC. Anda dapat mengecualikan beberapa data dari sumber berdasarkan pola pengecualian.
+ **Database tambahan** — Memuat hanya data baru ke dalam data lake dari sumber JDBC, berdasarkan bookmark yang ditetapkan sebelumnya. Anda menentukan tabel individual dalam database sumber JDBC untuk disertakan. Untuk setiap tabel, Anda memilih kolom bookmark dan urutan sortir bookmark untuk melacak data yang sebelumnya telah dimuat. Pertama kali Anda menjalankan cetak biru database inkremental terhadap sekumpulan tabel, alur kerja memuat semua data dari tabel dan menetapkan bookmark untuk menjalankan cetak biru database inkremental berikutnya. Oleh karena itu, Anda dapat menggunakan cetak biru database tambahan alih-alih cetak biru snapshot database untuk memuat semua data, asalkan Anda menentukan setiap tabel di sumber data sebagai parameter.
+ **File log** - memuat data massal dari sumber file log, termasuk AWS CloudTrail, log Elastic Load Balancing, dan log Application Load Balancer.

Gunakan tabel berikut untuk membantu memutuskan apakah akan menggunakan snapshot database atau cetak biru database inkremental.


| Gunakan snapshot database saat... | Gunakan database inkremental saat... | 
| --- | --- | 
|  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/lake-formation/latest/dg/workflows-about.html)  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/lake-formation/latest/dg/workflows-about.html)  | 

**catatan**  
Pengguna tidak dapat mengedit cetakan biru dan alur kerja yang dibuat oleh Lake Formation. 

# Membuat alur kerja
<a name="workflows-creating"></a>

Sebelum memulai, pastikan bahwa Anda telah memberikan izin data yang diperlukan dan izin lokasi data untuk peran tersebut. `LakeFormationWorkflowRole` Ini agar alur kerja dapat membuat tabel metadata di Katalog Data dan menulis data ke lokasi target di Amazon S3. Untuk informasi selengkapnya, lihat [(Opsional) Buat peran IAM untuk alur kerja](initial-lf-config.md#iam-create-blueprint-role) dan [Ikhtisar izin Lake Formation](lf-permissions-overview.md).

**catatan**  
Lake Formation menggunakan`GetTemplateInstance`,`GetTemplateInstances`, dan `InstantiateTemplate` operasi untuk membuat alur kerja dari cetak biru. Operasi ini tidak tersedia untuk umum, dan hanya digunakan secara internal untuk membuat sumber daya atas nama Anda. Anda menerima CloudTrail acara untuk membuat alur kerja.

**Untuk membuat alur kerja dari cetak biru**

1. Buka AWS Lake Formation konsol di [https://console.aws.amazon.com/lakeformation/](https://console.aws.amazon.com/lakeformation/). Masuk sebagai administrator data lake atau sebagai pengguna yang memiliki izin insinyur data. Untuk informasi selengkapnya, lihat [Referensi personas Lake Formation dan izin IAM](permissions-reference.md).

1. **Di panel navigasi, pilih **Blueprints, lalu pilih Use blueprint**.**

1. Pada halaman **Gunakan cetak biru**, pilih ubin untuk memilih jenis cetak biru.

1. Di bawah **Impor sumber**, tentukan sumber data. 

   Jika Anda mengimpor dari sumber JDBC, tentukan yang berikut ini:
   + ****Koneksi database**** —Pilih koneksi dari daftar. Buat koneksi tambahan menggunakan AWS Glue konsol. Nama pengguna dan kata sandi JDBC dalam koneksi menentukan objek database yang dapat diakses oleh alur kerja.
   + ****Jalur data sumber**** —Masukkan*<database>*/*<schema>*/*<table>*atau*<database>*/*<table>*, tergantung pada produk database. Basis Data Oracle dan MySQL tidak mendukung skema dalam path. Anda dapat mengganti persen (%) karakter untuk *<schema>* atau*<table>*. Misalnya, untuk database Oracle dengan pengenal sistem (SID) dari`orcl`, masukkan `orcl/%` untuk mengimpor semua tabel yang pengguna nama dalam koneksi memiliki akses ke.
**penting**  
Bidang ini peka huruf besar/kecil. Alur kerja akan gagal jika ada ketidakcocokan kasus untuk salah satu komponen.

     Jika Anda menentukan database MySQL AWS Glue , ETL menggunakan driver Mysql5 JDBC secara default, jadi My tidak didukung secara native. SQL8 Anda dapat mengedit skrip pekerjaan ETL untuk menggunakan `customJdbcDriverS3Path` parameter seperti yang dijelaskan dalam Nilai [ConnectionType JDBC](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-connect.html#aws-glue-programming-etl-connect-jdbc) di Panduan *AWS Glue Pengembang* untuk menggunakan driver JDBC berbeda yang mendukung My. SQL8

   Jika Anda mengimpor dari file log, pastikan bahwa peran yang Anda tentukan untuk alur kerja (“peran alur kerja”) memiliki izin IAM yang diperlukan untuk mengakses sumber data. Misalnya, untuk mengimpor AWS CloudTrail log, pengguna harus memiliki `cloudtrail:LookupEvents` izin `cloudtrail:DescribeTrails` dan untuk melihat daftar CloudTrail log saat membuat alur kerja, dan peran alur kerja harus memiliki izin pada lokasi di CloudTrail Amazon S3.

1. Lakukan salah satu tindakan berikut:
   + Untuk jenis cetak biru **snapshot Database**, identifikasi subset data yang akan diimpor secara opsional dengan menentukan satu atau beberapa pola pengecualian. Pola pengecualian ini adalah pola gaya Unix`glob`. Mereka disimpan sebagai properti dari tabel yang dibuat oleh alur kerja.

     Untuk detail tentang pola pengecualian yang tersedia, lihat [Menyertakan dan Mengecualikan Pola](https://docs.aws.amazon.com/glue/latest/dg/define-crawler.html#crawler-data-stores-exclude) di *Panduan AWS Glue Pengembang*.
   + Untuk jenis cetak biru **database Incremental**, tentukan bidang berikut. Tambahkan baris untuk setiap tabel untuk diimpor.  
**Nama tabel**  
Tabel untuk mengimpor. Harus semua huruf kecil.  
**Tombol bookmark**  
Daftar nama kolom yang dibatasi koma yang menentukan kunci bookmark. Jika kosong, kunci utama digunakan untuk menentukan data baru. Kasus untuk setiap kolom harus cocok dengan kasus seperti yang didefinisikan dalam sumber data.  
Kunci primer memenuhi syarat sebagai kunci bookmark default hanya jika secara berurutan meningkat atau menurun (tanpa celah). Jika Anda ingin menggunakan kunci primer sebagai kunci bookmark dan memiliki celah, Anda harus memberi nama kolom kunci utama sebagai kunci bookmark.  
**Urutan bookmark**  
Saat Anda memilih **Ascending**, baris dengan nilai lebih besar dari nilai yang ditandai diidentifikasi sebagai baris baru. Saat Anda memilih **Menurun**, baris dengan nilai kurang dari nilai yang ditandai diidentifikasi sebagai baris baru.  
**Skema pembagian**  
(Opsional) Daftar kolom kunci partisi, dibatasi oleh garis miring (/). Contoh:` year/month/day`.  
![\[Bagian data tambahan konsol mencakup bidang-bidang ini: Nama tabel, Tombol bookmark, Urutan bookmark, Skema partisi. Anda dapat menambah atau menghapus baris, di mana setiap baris adalah untuk tabel yang berbeda.\]](http://docs.aws.amazon.com/id_id/lake-formation/latest/dg/images/incremental-data.png)

     Untuk informasi selengkapnya, lihat [Melacak Data yang Diproses Menggunakan Bookmark Job](https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html) di *Panduan AWS Glue Pengembang*.

1. Di bawah **Impor target**, tentukan database target, target lokasi Amazon S3, dan format data.

   Pastikan bahwa peran alur kerja memiliki izin Lake Formation yang diperlukan pada database dan lokasi target Amazon S3.
**catatan**  
Saat ini, cetak biru tidak mendukung enkripsi data pada target.

1. Pilih frekuensi impor.

   Anda dapat menentukan `cron` ekspresi dengan opsi **Kustom**.

1. Di bawah **opsi Impor**:

   1. Masukkan nama alur kerja.

   1. Untuk peran, pilih peran`LakeFormationWorkflowRole`, yang Anda buat[(Opsional) Buat peran IAM untuk alur kerja](initial-lf-config.md#iam-create-blueprint-role). 

   1. Secara opsional menentukan awalan tabel. Awalan ditambahkan ke nama tabel Katalog Data yang dibuat alur kerja.

1. Pilih **Buat**, dan tunggu konsol melaporkan bahwa alur kerja berhasil dibuat.
**Tip**  
Apakah Anda mendapatkan pesan kesalahan berikut?  
`User: arn:aws:iam::<account-id>:user/<username> is not authorized to perform: iam:PassRole on resource:arn:aws:iam::<account-id>:role/<rolename>...`  
Jika demikian, periksa apakah Anda mengganti *<account-id>* dengan nomor AWS akun yang valid di semua kebijakan.

**Lihat juga:**  
[Cetak biru dan alur kerja di Lake Formation](workflows-about.md)

# Menjalankan alur kerja
<a name="workflows-running"></a>

Anda dapat menjalankan alur kerja menggunakan konsol Lake Formation, AWS Glue konsol, atau AWS Glue Command Line Interface (AWS CLI), atau API.

**Untuk menjalankan alur kerja (konsol Lake Formation)**

1. Buka AWS Lake Formation konsol di [https://console.aws.amazon.com/lakeformation/](https://console.aws.amazon.com/lakeformation/). Masuk sebagai administrator data lake atau sebagai pengguna yang memiliki izin insinyur data. Untuk informasi selengkapnya, lihat [Referensi personas Lake Formation dan izin IAM](permissions-reference.md).

1. Di panel navigasi, pilih **Cetak biru**.

1. Pada halaman **Blueprints**, pilih alur kerja. Kemudian pada menu **Tindakan**, pilih **Mulai**.

1. Saat alur kerja berjalan, lihat kemajuannya di kolom **Status Last run**. Pilih tombol refresh sesekali.

   **Status berubah dari **RUNNING**, ke **Discovering**, ke **Importing**, ke COMPLETED.** 

   Saat alur kerja selesai:
   + Katalog Data memiliki tabel metadata baru.
   + Data Anda tertelan ke danau data.

   Jika alur kerja gagal, lakukan hal berikut:

   1. Pilih alur kerja. Pilih **Tindakan**, lalu pilih **Lihat grafik**.

      Alur kerja terbuka di AWS Glue konsol.

   1. Pastikan bahwa alur kerja sudah dipilih, dan pilih tab **Riwayat**.

   1. Di bawah **Riwayat**, pilih proses terbaru dan pilih **Lihat detail jalankan**.

   1. Pilih job atau crawler yang gagal dalam grafik dinamis (runtime), dan tinjau pesan galatnya. Node yang gagal berwarna merah atau kuning.

**Lihat juga:**  
[Cetak biru dan alur kerja di Lake Formation](workflows-about.md)