

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Beschleunigung von Crawls mithilfe von Amazon S3-Ereignisbenachrichtigungen
<a name="crawler-s3-event-notifications"></a>

Anstatt die Objekte aus einem Amazon S3- oder Data Catalog-Ziel aufzulisten, können Sie den Crawler so konfigurieren, dass er Amazon S3-Ereignisse verwendet, um Änderungen zu finden. Dieses Feature verbessert die Recrawl-Zeit, indem Amazon S3-Ereignisse verwendet werden, um die Änderungen zwischen zwei Crawls zu identifizieren, indem alle Dateien aus dem Unterordner aufgeführt werden, der das Ereignis ausgelöst hat, anstatt das vollständige Amazon S3- oder Data Calatog-Ziel aufzulisten.

Der erste Crawl listet alle Amazon S3-Objekte aus dem Ziel auf. Nach dem ersten erfolgreichen Crawl können Sie wählen, ob Sie manuell oder nach einem festgelegten Zeitplan recrawlen möchten. Der Crawler listet nur die Objekte dieser Ereignisse auf, anstatt alle Objekte aufzulisten.

Wenn das Ziel eine Datenkatalogtabelle ist, aktualisiert der Crawler die vorhandenen Tabellen im Datenkatalog mit Änderungen (z. B. zusätzliche Partitionen in einer Tabelle).

Die Vorteile eines Umstiegs zu einem ereignisbasierten Crawler auf Amazon S3 sind:
+ Ein schnelleres Recrawl, da die Auflistung aller Objekte aus dem Ziel nicht erforderlich ist, stattdessen erfolgt die Auflistung bestimmter Ordner, in denen Objekte hinzugefügt oder gelöscht werden.
+ Eine Senkung der Gesamtdurchforstungskosten, da die Auflistung bestimmter Ordner erfolgt, in denen Objekte hinzugefügt oder gelöscht werden.

Die Amazon S3-Ereignisdurchforstung wird ausgeführt, indem Amazon S3-Ereignisse aus der SQS-Warteschlange basierend auf dem Crawler-Zeitplan verwendet werden. Es fallen keine Kosten an, wenn keine Ereignisse in der Warteschlange vorhanden sind. Amazon S3-Ereignisse können so konfiguriert werden, dass sie direkt in die SQS-Warteschlange bzw. in Fällen, in denen mehrere Verbraucher dasselbe Ereignis benötigen, in eine Kombination aus SNS und SQS gelangen. Weitere Informationen finden Sie unter [Einrichten eines Kontos für Amazon S3-Ereignisbenachrichtigungen](#crawler-s3-event-notifications-setup).

Nach dem Erstellen und Konfigurieren des Crawlers im Ereignismodus wird das erste Crawl im Listing-Modus ausgeführt, indem eine vollständige Auflistung des Amazon S3- oder Data Catalog-Ziels ausgeführt wird. Das folgende Protokoll bestätigt den Crawl-Vorgang durch den Verbrauch von Amazon S3-Ereignissen nach dem ersten erfolgreichen Crawl: „Der Crawl wird durch den Verbrauch von Amazon S3-Ereignissen ausgeführt.“

Nach dem Erstellen des Amazon S3-Ereigniscrawls und dem Aktualisieren der Crawler-Eigenschaften, die sich auf das Crawl auswirken können, wird das Crawl im List-Modus ausgeführt und das folgende Protokoll wird hinzugefügt: „Crawl läuft nicht im S3-Ereignismodus“.

**Anmerkung**  
Die maximale Anzahl der zu verarbeitenden Nachrichten beträgt 100 000 Nachrichten pro Crawl.

## Überlegungen und Einschränkungen
<a name="s3event-crawler-limitations"></a>

Die folgenden Überlegungen und Einschränkungen gelten, wenn Sie einen Crawler so konfigurieren, dass er Amazon-S3-Ereignisbenachrichtigungen verwendet, um Änderungen zu finden. 
+  **Wichtiges Verhalten bei gelöschten Partitionen** 

  Bei Verwendung von Amazon-S3-Ereigniscrawlern mit Datenkatalogtabellen:
  +  Wenn Sie eine Partition mit dem API-Aufruf `DeletePartition` löschen, müssen Sie auch alle S3-Objekte unter dieser Partition löschen und bei der Konfiguration Ihrer S3-Ereignisbenachrichtigungen **Alle Objektentfernungsereignisse** auswählen. Wenn keine Löschereignisse konfiguriert sind, erstellt der Crawler die gelöschte Partition bei seiner nächsten Ausführung neu. 
+ Nur ein einziges Ziel wird vom Crawler unterstützt, unabhängig davon, ob es sich um Amazon S3- oder Data Catalog-Ziele handelt.
+ SQS auf privater VPC wird nicht unterstützt.
+ Amazon S3-Probenahme wird nicht unterstützt.
+ Das Crawlerziel sollte ein Ordner für ein Amazon S3-Ziel oder eine oder mehrereAWS Glue Data Catalog-Tabellen für ein Data Catalog-Ziel sein.
+ Der Pfad-Platzhalter „alles“ wird nicht unterstützt: s3://%
+ Bei einem Data Catalog-Ziel sollten alle Katalogtabellen auf denselben Amazon S3-Bucket für den Amazon S3-Ereignismodus verweisen.
+ Bei einem Data Catalog-Ziel sollte eine Katalogtabelle nicht auf einen Amazon S3-Speicherort im Delta Lake-Format verweisen (der Ordner \$1symlink enthält oder das `InputFormat` der Katalogtabelle überprüft).

**Topics**
+ [Überlegungen und Einschränkungen](#s3event-crawler-limitations)
+ [Einrichten eines Kontos für Amazon S3-Ereignisbenachrichtigungen](#crawler-s3-event-notifications-setup)
+ [Einrichten eines Crawlers für Amazon-S3-Ereignisbenachrichtigungen für ein Amazon-S3-Ziel:](crawler-s3-event-notifications-setup-console-s3-target.md)
+ [Einrichten eines Crawlers für Amazon-S3-Ereignisbenachrichtigungen für eine Datenkatalogtabelle](crawler-s3-event-notifications-setup-console-catalog-target.md)

## Einrichten eines Kontos für Amazon S3-Ereignisbenachrichtigungen
<a name="crawler-s3-event-notifications-setup"></a>

Führen Sie die folgenden Einrichtungsaufgaben aus. Beachten Sie, dass die Werte in Klammern auf die konfigurierbaren Einstellungen aus dem Skript verweisen.

1. Sie müssen Ereignisbenachrichtigungen für Ihren Amazon S3-Bucket einrichten.

   Weitere Informationen finden Sie unter [Amazon-S3-Ereignisbenachrichtigungen](https://docs.aws.amazon.com/AmazonS3/latest/userguide/EventNotifications.html).

1. Um den ereignisbasierten Amazon S3-Crawler zu verwenden, müssen Sie die Ereignisbenachrichtigung auf für den Amazon-S3-Bucket aktivieren, wobei Ereignisse aus dem Präfix gefiltert werden, was dem S3-Ziel und dem Speicher in SQS entspricht. Sie können SQS und Ereignisbenachrichtigungen über die Konsole einrichten, indem Sie die Schritte unter [Exemplarische Vorgehensweise: Konfigurieren eines Buckets für Benachrichtigungen](https://docs.aws.amazon.com/AmazonS3/latest/userguide/ways-to-add-notification-config-to-bucket.html) befolgen.

1. Fügen Sie die folgende SQS-Richtlinie der vom Crawler verwendeten Rolle hinzu. 

------
#### [ JSON ]

****  

   ```
   {
     "Version":"2012-10-17",		 	 	 
     "Statement": [
       {
         "Sid": "VisualEditor0",
         "Effect": "Allow",
         "Action": [
           "sqs:DeleteMessage",
           "sqs:GetQueueUrl",
           "sqs:ListDeadLetterSourceQueues",
           "sqs:ReceiveMessage",
           "sqs:GetQueueAttributes",
           "sqs:ListQueueTags",
           "sqs:SetQueueAttributes",
           "sqs:PurgeQueue"
         ],
         "Resource": "arn:aws:sqs:us-east-1:111122223333:cfn-sqs-queue"
       }
     ]
   }
   ```

------

# Einrichten eines Crawlers für Amazon-S3-Ereignisbenachrichtigungen für ein Amazon-S3-Ziel:
<a name="crawler-s3-event-notifications-setup-console-s3-target"></a>

Gehen Sie wie folgt vor, um einen Crawler für Amazon S3 S3-Ereignisbenachrichtigungen für ein Amazon S3 S3-Ziel einzurichten, indem Sie die Option AWS-Managementkonsole oder AWS CLI verwenden.

------
#### [ AWS-Managementkonsole ]

1. Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die GuardDuty Konsole unter [https://console.aws.amazon.com/guardduty/](https://console.aws.amazon.com/guardduty/).

1.  Legen Sie Ihre Crawler-Eigenschaften fest. Weitere Informationen finden Sie unter [Festlegen von Crawler-Konfigurationsoptionen auf der AWS Glue-Konsole](https://docs.aws.amazon.com/glue/latest/dg/crawler-configuration.html#crawler-configure-changes-console). 

1.  Im Abschnitt **Data source configuration** (Datenquellenkonfiguration) werden Sie Folgendes gefragt: *Sind Ihre Daten bereits AWS Glue-Tabellen zugeordnet?* 

    Standardmäßig ist **Not yet** (Noch nicht) ausgewählt. Behalten Sie bei diesem die Standardeinstellungen bei, da Sie eine Amazon-S3-Datenquelle verwenden und die Daten noch keinen AWS Glue-Tabellen zugeordnet sind. 

1.  Wählen Sie im Abschnitt **Data sources** (Datenquellen) **Add a data source** (Datenquelle hinzufügen) aus.   
![\[Data source configuration interface with options to select or add data sources for crawling.\]](http://docs.aws.amazon.com/de_de/glue/latest/dg/images/crawler-s3-event-console1.png)

1.  Konfigurieren Sie im Modal **Add a data source** (Datenquelle hinzufügen) die Amazon-S3-Datenquelle: 
   +  **Data source** (Datenquelle): Standardmäßig ist Amazon S3 ausgewählt. 
   +  **Network connection** (Netzwerkverbindung) (Optional): Wählen Sie **Add new connection** (Neue Verbindung hinzufügen). 
   +  **Location of Amazon S3 data** (Speicherort der Amazon-S3-Daten): Standardmäßig ist **In this account** (In diesem Konto) ausgewählt. 
   +  **Amazon S3 path** (Amazon-S3-Pfad): Geben Sie den Amazon-S3-Pfad an, wo Ordner und Dateien gecrawlt werden. 
   +  **Subsequent crawler runs** (Nachfolgende Crawler-Ausführungen): Wählen Sie **Crawl based on events** (Crawling basierend auf Ereignissen) aus, um Amazon-S3-Ereignisbenachrichtigungen für Ihren Crawler zu verwenden. 
   +  **SQS ARN hinzufügen**: Geben Sie die Datenspeicherparameter einschließlich eines gültigen SQS ARN an. (Beispiel: `arn:aws:sqs:region:account:sqs`). 
   +  **Dead-Letter SQS ARN hinzufügen** (Optional): Geben Sie einen gültigen Amazon Dead-Letter SQS ARN an. (Beispiel: `arn:aws:sqs:region:account:deadLetterQueue`). 
   +  Wählen Sie **Add an Amazon S3 data source** (Amazon-S3-Datenquelle hinzufügen) aus.   
![\[Add data source dialog for S3, showing options for network connection and crawl settings.\]](http://docs.aws.amazon.com/de_de/glue/latest/dg/images/crawler-s3-event-console2.png)

------
#### [ AWS CLI ]

 Im Folgenden finden Sie ein Beispiel für einen Amazon S3 AWS CLI S3-Aufruf, um einen Crawler so zu konfigurieren, dass er Ereignisbenachrichtigungen verwendet, um einen Amazon S3 S3-Ziel-Bucket zu crawlen. 

```
Create Crawler:
aws glue update-crawler \
    --name myCrawler \
    --recrawl-policy RecrawlBehavior=CRAWL_EVENT_MODE \
    --schema-change-policy UpdateBehavior=UPDATE_IN_DATABASE,DeleteBehavior=LOG
    --targets '{"S3Targets":[{"Path":"s3://amzn-s3-demo-bucket/", "EventQueueArn": "arn:aws:sqs:us-east-1:012345678910:MyQueue"}]}'
```

------

# Einrichten eines Crawlers für Amazon-S3-Ereignisbenachrichtigungen für eine Datenkatalogtabelle
<a name="crawler-s3-event-notifications-setup-console-catalog-target"></a>

Wenn Sie ein Datenkatalogziel haben, richten Sie einen Crawler für Amazon-S3-Ereignisbenachrichtigungen mit der AWS Glue-Konsole ein:

1.  Legen Sie Ihre Crawler-Eigenschaften fest. Weitere Informationen finden Sie unter [Festlegen von Crawler-Konfigurationsoptionen auf der AWS Glue-Konsole](https://docs.aws.amazon.com/glue/latest/dg/crawler-configuration.html#crawler-configure-changes-console). 

1.  Im Abschnitt **Data source configuration** (Datenquellenkonfiguration) werden Sie Folgendes gefragt: *Sind Ihre Daten bereits AWS Glue-Tabellen zugeordnet?* 

    Wählen Sie **Ja**, um vorhandene Tabellen aus Ihrem Data Catalog als Datenquelle auszuwählen. 

1.  Wählen Sie im Abschnitt **Glue-Tabellen** die Option **Tabellen hinzufügen**.   
![\[Data source configuration interface with options to select existing Glue tables or add new ones.\]](http://docs.aws.amazon.com/de_de/glue/latest/dg/images/crawler-s3-event-console1-cat.png)

1.  Konfigurieren Sie im Modal **Tabelle hinzufügen** die Datenbank und die Tabellen: 
   +  **Network connection** (Netzwerkverbindung) (Optional): Wählen Sie **Add new connection** (Neue Verbindung hinzufügen). 
   +  **Datenbank**: Wählen Sie eine Datenbank im Data Catalog. 
   +  **Tabellen**: Wählen Sie eine oder mehrere Tabellen aus dieser Datenbank im Data Catalog aus. 
   +  **Subsequent crawler runs** (Nachfolgende Crawler-Ausführungen): Wählen Sie **Crawl based on events** (Crawling basierend auf Ereignissen) aus, um Amazon-S3-Ereignisbenachrichtigungen für Ihren Crawler zu verwenden. 
   +  **SQS ARN hinzufügen**: Geben Sie die Datenspeicherparameter einschließlich eines gültigen SQS ARN an. (Beispiel: `arn:aws:sqs:region:account:sqs`). 
   +  **Dead-Letter SQS ARN hinzufügen** (Optional): Geben Sie einen gültigen Amazon Dead-Letter SQS ARN an. (Beispiel: `arn:aws:sqs:region:account:deadLetterQueue`). 
   +  Wählen Sie **Bestätigen** aus.   
![\[Add Glue tables dialog with network, database, tables, and crawler options.\]](http://docs.aws.amazon.com/de_de/glue/latest/dg/images/crawler-s3-event-console2-cat.png)