

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Mempercepat crawl menggunakan notifikasi acara Amazon S3
<a name="crawler-s3-event-notifications"></a>

Alih-alih mencantumkan objek dari target Amazon S3 atau Katalog Data, Anda dapat mengonfigurasi crawler untuk menggunakan peristiwa Amazon S3 untuk menemukan perubahan apa pun. Fitur ini meningkatkan waktu rawl ulang dengan menggunakan peristiwa Amazon S3 untuk mengidentifikasi perubahan antara dua crawl dengan mencantumkan semua file dari subfolder yang memicu peristiwa alih-alih mencantumkan target Amazon S3 atau Katalog Data lengkap.

Crawl pertama mencantumkan semua objek Amazon S3 dari target. Setelah crawl pertama berhasil, Anda dapat memilih untuk meng-rawl ulang secara manual atau pada jadwal yang ditetapkan. Crawler hanya akan mencantumkan objek dari peristiwa tersebut alih-alih mencantumkan semua objek.

Jika targetnya adalah tabel Katalog Data, crawler memperbarui tabel yang ada di Katalog Data dengan perubahan (misalnya, partisi tambahan dalam tabel).

Keuntungan pindah ke crawler berbasis acara Amazon S3 adalah:
+ Recrawl lebih cepat karena daftar semua objek dari target tidak diperlukan, alih-alih daftar folder tertentu dilakukan di mana objek ditambahkan atau dihapus.
+ Pengurangan biaya crawl keseluruhan karena daftar folder tertentu dilakukan di mana objek ditambahkan atau dihapus.

Crawl peristiwa Amazon S3 berjalan dengan menggunakan peristiwa Amazon S3 dari antrean SQS berdasarkan jadwal crawler. Tidak akan ada biaya jika tidak ada acara dalam antrian. Acara Amazon S3 dapat dikonfigurasi untuk langsung masuk ke antrian SQS atau dalam kasus di mana beberapa konsumen memerlukan acara yang sama, kombinasi SNS dan SQS. Untuk informasi selengkapnya, lihat [Menyiapkan akun Anda untuk pemberitahuan acara Amazon S3](#crawler-s3-event-notifications-setup).

Setelah membuat dan mengonfigurasi crawler dalam mode peristiwa, crawl pertama berjalan dalam mode daftar dengan melakukan daftar lengkap target Amazon S3 atau Katalog Data. Log berikut mengonfirmasi pengoperasian crawl dengan menggunakan peristiwa Amazon S3 setelah perayapan pertama yang berhasil: “Perayapan berjalan dengan menggunakan peristiwa Amazon S3.”

Setelah membuat crawl peristiwa Amazon S3 dan memperbarui properti crawler yang dapat memengaruhi perayapan, crawl beroperasi dalam mode daftar dan log berikut ditambahkan: “Perayapan tidak berjalan dalam mode peristiwa S3”.

**catatan**  
Jumlah maksimum pesan yang akan dikonsumsi adalah 100.000 pesan per crawl.

## Pertimbangan dan batasan
<a name="s3event-crawler-limitations"></a>

Pertimbangan dan batasan berikut berlaku saat Anda mengonfigurasi crawler untuk menggunakan notifikasi peristiwa Amazon S3 untuk menemukan perubahan apa pun. 
+  **Perilaku penting dengan partisi yang dihapus** 

  Saat menggunakan crawler peristiwa Amazon S3 dengan tabel Katalog Data:
  +  Jika Anda menghapus partisi menggunakan panggilan `DeletePartition` API, Anda juga harus menghapus semua objek S3 di bawah partisi itu, dan memilih **Semua peristiwa penghapusan objek** saat Anda mengonfigurasi pemberitahuan acara S3 Anda. Jika peristiwa penghapusan tidak dikonfigurasi, crawler membuat ulang partisi yang dihapus selama proses berikutnya. 
+ Hanya satu target yang didukung oleh crawler, baik untuk target Amazon S3 atau Katalog Data.
+ SQS pada VPC pribadi tidak didukung.
+ Pengambilan sampel Amazon S3 tidak didukung.
+ Target crawler harus berupa folder untuk target Amazon S3, atau satu atau AWS Glue beberapa tabel Katalog Data untuk target Katalog Data.
+ Wildcard jalur 'semuanya' tidak didukung: s3: //%
+ Untuk target Katalog Data, semua tabel katalog harus mengarah ke bucket Amazon S3 yang sama untuk mode acara Amazon S3.
+ Untuk target Katalog Data, tabel katalog tidak boleh mengarah ke lokasi Amazon S3 dalam format Delta Lake (berisi folder \$1symlink, atau memeriksa tabel katalog). `InputFormat`

**Topics**
+ [Pertimbangan dan batasan](#s3event-crawler-limitations)
+ [Menyiapkan akun Anda untuk pemberitahuan acara Amazon S3](#crawler-s3-event-notifications-setup)
+ [Menyiapkan crawler untuk notifikasi peristiwa Amazon S3 untuk target Amazon S3](crawler-s3-event-notifications-setup-console-s3-target.md)
+ [Menyiapkan crawler untuk pemberitahuan peristiwa Amazon S3 untuk tabel Katalog Data](crawler-s3-event-notifications-setup-console-catalog-target.md)

## Menyiapkan akun Anda untuk pemberitahuan acara Amazon S3
<a name="crawler-s3-event-notifications-setup"></a>

Selesaikan tugas pengaturan berikut. Perhatikan nilai dalam tanda kurung merujuk pengaturan yang dapat dikonfigurasi dari skrip.

1. Anda perlu menyiapkan notifikasi acara untuk bucket Amazon S3 Anda.

   Untuk informasi selengkapnya, lihat [pemberitahuan acara Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/EventNotifications.html).

1. Untuk menggunakan crawler berbasis peristiwa Amazon S3, Anda harus mengaktifkan pemberitahuan peristiwa di bucket Amazon S3 dengan peristiwa yang difilter dari awalan yang sama dengan target S3 dan penyimpanan di SQS. Anda dapat mengatur SQS dan pemberitahuan acara melalui konsol dengan mengikuti langkah-langkah di [Walkthrough: Mengonfigurasi](https://docs.aws.amazon.com/AmazonS3/latest/userguide/ways-to-add-notification-config-to-bucket.html) bucket untuk notifikasi.

1. Tambahkan kebijakan SQS berikut ke peran yang digunakan oleh crawler. 

------
#### [ JSON ]

****  

   ```
   {
     "Version":"2012-10-17",		 	 	 
     "Statement": [
       {
         "Sid": "VisualEditor0",
         "Effect": "Allow",
         "Action": [
           "sqs:DeleteMessage",
           "sqs:GetQueueUrl",
           "sqs:ListDeadLetterSourceQueues",
           "sqs:ReceiveMessage",
           "sqs:GetQueueAttributes",
           "sqs:ListQueueTags",
           "sqs:SetQueueAttributes",
           "sqs:PurgeQueue"
         ],
         "Resource": "arn:aws:sqs:us-east-1:111122223333:cfn-sqs-queue"
       }
     ]
   }
   ```

------

# Menyiapkan crawler untuk notifikasi peristiwa Amazon S3 untuk target Amazon S3
<a name="crawler-s3-event-notifications-setup-console-s3-target"></a>

Ikuti langkah-langkah berikut untuk menyiapkan crawler untuk notifikasi peristiwa Amazon S3 untuk target Amazon S3 menggunakan atau. Konsol Manajemen AWS AWS CLI

------
#### [ Konsol Manajemen AWS ]

1. Masuk ke Konsol Manajemen AWS dan buka GuardDuty konsol di [https://console.aws.amazon.com/guardduty/](https://console.aws.amazon.com/guardduty/).

1.  Tetapkan properti crawler Anda. Untuk informasi selengkapnya, lihat [Menyetel Opsi Konfigurasi Crawler di AWS Glue konsol](https://docs.aws.amazon.com/glue/latest/dg/crawler-configuration.html#crawler-configure-changes-console). 

1.  Di bagian **Konfigurasi sumber data**, Anda ditanya *Apakah data Anda sudah dipetakan ke AWS Glue tabel?* 

    Secara default **Belum** dipilih. Biarkan ini sebagai default karena Anda menggunakan sumber data Amazon S3 dan data belum dipetakan ke tabel. AWS Glue 

1.  Di bagian **Sumber data**, pilih **Tambahkan sumber data**.   
![\[Data source configuration interface with options to select or add data sources for crawling.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/crawler-s3-event-console1.png)

1.  Dalam modal **Tambah sumber data**, konfigurasikan sumber data Amazon S3: 
   +  **Sumber data**: Secara default, Amazon S3 dipilih. 
   +  **Koneksi jaringan** (Opsional): Pilih **Tambahkan koneksi baru**. 
   +  **Lokasi data Amazon S3**: Secara default, **Di akun ini dipilih**. 
   +  Jalur **Amazon S3: Tentukan jalur** Amazon S3 tempat folder dan file dirayapi. 
   +  **Perayap berikutnya berjalan**: Pilih **Crawl berdasarkan peristiwa** untuk menggunakan notifikasi peristiwa Amazon S3 untuk crawler Anda. 
   +  **Sertakan SQS ARN**: Tentukan parameter penyimpanan data termasuk SQS ARN yang valid. (Misalnya,`arn:aws:sqs:region:account:sqs`). 
   +  **Sertakan SQS ARN huruf mati** (Opsional): Tentukan SQS ARN surat mati Amazon yang valid. (Misalnya,`arn:aws:sqs:region:account:deadLetterQueue`). 
   +  Pilih **Tambahkan sumber data Amazon S3**.   
![\[Add data source dialog for S3, showing options for network connection and crawl settings.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/crawler-s3-event-console2.png)

------
#### [ AWS CLI ]

 Berikut ini adalah contoh AWS CLI panggilan Amazon S3 untuk mengonfigurasi crawler agar menggunakan notifikasi peristiwa guna meng-crawl bucket target Amazon S3. 

```
Create Crawler:
aws glue update-crawler \
    --name myCrawler \
    --recrawl-policy RecrawlBehavior=CRAWL_EVENT_MODE \
    --schema-change-policy UpdateBehavior=UPDATE_IN_DATABASE,DeleteBehavior=LOG
    --targets '{"S3Targets":[{"Path":"s3://amzn-s3-demo-bucket/", "EventQueueArn": "arn:aws:sqs:us-east-1:012345678910:MyQueue"}]}'
```

------

# Menyiapkan crawler untuk pemberitahuan peristiwa Amazon S3 untuk tabel Katalog Data
<a name="crawler-s3-event-notifications-setup-console-catalog-target"></a>

Jika Anda memiliki tabel Katalog Data, siapkan crawler untuk notifikasi peristiwa Amazon S3 menggunakan AWS Glue konsol:

1.  Tetapkan properti crawler Anda. Untuk informasi selengkapnya, lihat [Menyetel Opsi Konfigurasi Crawler di AWS Glue konsol](https://docs.aws.amazon.com/glue/latest/dg/crawler-configuration.html#crawler-configure-changes-console). 

1.  Di bagian **Konfigurasi sumber data**, Anda ditanya *Apakah data Anda sudah dipetakan ke AWS Glue tabel?* 

    Pilih **Ya** untuk memilih tabel yang ada dari Katalog Data Anda sebagai sumber data Anda. 

1.  Di bagian **Glue tables**, pilih **Add tables**.   
![\[Data source configuration interface with options to select existing Glue tables or add new ones.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/crawler-s3-event-console1-cat.png)

1.  Dalam modal **Tambahkan tabel**, konfigurasikan database dan tabel: 
   +  **Koneksi jaringan** (Opsional): Pilih **Tambahkan koneksi baru**. 
   +  **Database**: Pilih database di Katalog Data. 
   +  **Tabel**: Pilih satu atau beberapa tabel dari database tersebut di Katalog Data. 
   +  **Perayap berikutnya berjalan**: Pilih **Crawl berdasarkan peristiwa** untuk menggunakan notifikasi peristiwa Amazon S3 untuk crawler Anda. 
   +  **Sertakan SQS ARN**: Tentukan parameter penyimpanan data termasuk SQS ARN yang valid. (Misalnya,`arn:aws:sqs:region:account:sqs`). 
   +  **Sertakan SQS ARN huruf mati** (Opsional): Tentukan SQS ARN surat mati Amazon yang valid. (Misalnya,`arn:aws:sqs:region:account:deadLetterQueue`). 
   +  Pilih **Konfirmasi**.   
![\[Add Glue tables dialog with network, database, tables, and crawler options.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/crawler-s3-event-console2-cat.png)