

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Accelerazione del crawling con le notifiche eventi Amazon S3
<a name="crawler-s3-event-notifications"></a>

Invece di elencare gli oggetti da una destinazione Amazon S3 o catalogo dati, puoi configurare il crawler in modo che utilizzi gli eventi Amazon S3 per trovare eventuali modifiche. Questa caratteristica migliora il tempo di recupero utilizzando gli eventi Amazon S3 per identificare le modifiche tra due ricerche per indicizzazione elencando tutti i file della sottocartella che ha attivato l'evento invece che elencare l'intera destinazione Amazon S3 o catalogo dati.

Il primo crawling elenca tutti gli oggetti Amazon S3 dalla destinazione. Dopo il primo crawling riuscito, è possibile scegliere di effettuare una ricerca manualmente o in base a una pianificazione prestabilita. Il crawler elencherà solo gli oggetti di tali eventi invece di elencare tutti gli oggetti.

Quando la destinazione è una tabella del Catalogo dati, il crawler aggiorna le tabelle esistenti al suo interno con le modifiche (ad esempio, partizioni aggiuntive in una tabella).

I vantaggi di passare a un crawler basato su eventi Amazon S3 sono:
+ Non è necessario un nuovo crawling più rapido, poiché non è necessario l'elenco di tutti gli oggetti della destinazione, invece l'elenco di cartelle specifiche viene eseguito dove gli oggetti vengono aggiunti o eliminati.
+ Si ha una riduzione del costo complessivo del crawling man mano che vengono elencate le cartelle specifiche nelle quali gli oggetti vengono aggiunti o eliminati.

Il crawling degli eventi Amazon S3 viene eseguito consumando gli eventi Amazon S3 dalla coda SQS in base alla pianificazione del crawler. Non ci saranno costi se non ci sono eventi nella coda. Gli eventi Amazon S3 possono essere configurati in modo che passino direttamente alla coda SQS o, nei casi in cui più utenti hanno bisogno dello stesso evento, verso una combinazione di SNS e SQS. Per ulteriori informazioni, consulta [Impostazione dell'account per le notifiche eventi Amazon S3](#crawler-s3-event-notifications-setup).

Dopo aver creato e configurato il crawler in modalità evento, il primo crawling viene eseguito in modalità elenco eseguendo un elenco completo della destinazione Amazon S3 o catalogo dati. Il seguente log conferma il funzionamento del crawling consumando gli eventi Amazon S3 dopo la prima scansione riuscita: "il crawling è in esecuzione consumando eventi Amazon S3".

Dopo aver creato la ricerca per indicizzazione degli eventi Amazon S3 e aver aggiornato le proprietà del crawler che potrebbero influire sul crawling, quest'ultima funziona in modalità elenco e viene aggiunto il seguente log: "Il crawling non è in esecuzione in modalità evento S3".

**Nota**  
Il numero massimo di messaggi da consumare è 100.000 messaggi per ogni crawling.

## Considerazioni e limitazioni
<a name="s3event-crawler-limitations"></a>

Le seguenti considerazioni e limitazioni si applicano quando si configura un crawler in modo che usi le notifiche degli eventi Amazon S3 per individuare eventuali modifiche. 
+  **Comportamento importante con partizioni eliminate** 

  Quando usi i crawler di eventi Amazon S3 con tabelle del Catalogo dati:
  +  Se elimini una partizione usando la chiamata API `DeletePartition`, devi anche eliminare tutti gli oggetti S3 sotto quella partizione e selezionare **Tutti gli eventi di rimozione oggetti** quando configuri le notifiche degli eventi S3. Se gli eventi di eliminazione non sono configurati, il crawler ricrea la partizione eliminata durante l'esecuzione successiva. 
+ Il crawler di destinazione ne supporta una sola, sia per quanto riguarda le destinazioni Amazon S3 che per le destinazioni Amazon S3.
+ L'SQS su VPC privato non è supportato.
+ Il campionamento Amazon S3 non è supportato.
+ La destinazione del crawler deve essere una cartella per una destinazione Amazon S3 o una o più tabelle di catalogo dati di AWS Glue per una destinazione catalogo dati.
+ Il carattere jolly del percorso “tutto” non è supportato: s3: //%
+ Per una destinazione catalogo dati, tutte le tabelle del catalogo devono puntare allo stesso bucket Amazon S3 per la modalità evento di Amazon S3.
+ Per una destinazione catalogo dati, una tabella di catalogo non deve indicare una posizione Amazon S3 nel formato Delta Lake (contenente cartelle \$1symlink o controllando le tabelle del catalogo `InputFormat`).

**Topics**
+ [Considerazioni e limitazioni](#s3event-crawler-limitations)
+ [Impostazione dell'account per le notifiche eventi Amazon S3](#crawler-s3-event-notifications-setup)
+ [Configurare un crawler per le notifiche eventi Amazon S3 per una destinazione Amazon S3](crawler-s3-event-notifications-setup-console-s3-target.md)
+ [Configurazione di un crawler per le notifiche degli eventi Amazon S3 per una tabella del Catalogo dati](crawler-s3-event-notifications-setup-console-catalog-target.md)

## Impostazione dell'account per le notifiche eventi Amazon S3
<a name="crawler-s3-event-notifications-setup"></a>

Completa i seguenti processi di configurazione. Nota che i valori tra parentesi fanno riferimento alle impostazioni configurabili dello script.

1. Occorre configurare le notifiche degli eventi per il bucket Amazon S3.

   Per ulteriori informazioni, consulta [Notifiche degli eventi di Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/EventNotifications.html).

1. Per utilizzare il crawler basato su eventi Amazon S3, è necessario abilitare la notifica degli eventi sul bucket Amazon S3 con eventi filtrati dal prefisso uguale alla destinazione S3 e archiviarlo in SQS. È possibile configurare SQS e la notifica degli eventi tramite la console seguendo la procedura descritta in [Spiegazione passo per passo: come configurare un bucket per le notifiche](https://docs.aws.amazon.com/AmazonS3/latest/userguide/ways-to-add-notification-config-to-bucket.html).

1. Aggiungi la seguente policy SQS al ruolo utilizzato dal crawler. 

------
#### [ JSON ]

****  

   ```
   {
     "Version":"2012-10-17",		 	 	 
     "Statement": [
       {
         "Sid": "VisualEditor0",
         "Effect": "Allow",
         "Action": [
           "sqs:DeleteMessage",
           "sqs:GetQueueUrl",
           "sqs:ListDeadLetterSourceQueues",
           "sqs:ReceiveMessage",
           "sqs:GetQueueAttributes",
           "sqs:ListQueueTags",
           "sqs:SetQueueAttributes",
           "sqs:PurgeQueue"
         ],
         "Resource": "arn:aws:sqs:us-east-1:111122223333:cfn-sqs-queue"
       }
     ]
   }
   ```

------

# Configurare un crawler per le notifiche eventi Amazon S3 per una destinazione Amazon S3
<a name="crawler-s3-event-notifications-setup-console-s3-target"></a>

Segui questi passaggi per configurare un crawler per le notifiche degli eventi di Amazon S3 per un target Amazon S3 utilizzando o. Console di gestione AWS AWS CLI

------
#### [ Console di gestione AWS ]

1. Accedi a Console di gestione AWS e apri la console all'indirizzo. GuardDuty [https://console.aws.amazon.com/guardduty/](https://console.aws.amazon.com/guardduty/)

1.  Imposta le proprietà del crawler. Per ulteriori informazioni, consulta la pagina [Impostazione delle opzioni di configurazione del crawler nella console AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/crawler-configuration.html#crawler-configure-changes-console). 

1.  Nella sezione **Data source configuration** (Configurazione origine dei dati) viene chiesto *Is your data already mapped to AWS Glue tables? *. 

    Per impostazione predefinita, la risposta **Not yet** (Non ancora) è già selezionata. Lascia questa impostazione come predefinita poiché stai utilizzando un'origine dei dati Amazon S3 e i dati non sono ancora mappati su tabelle AWS Glue. 

1.  Nella sezione **Data sources** (Origini dei dati), scegli **Add a data source** (Aggiungi un'origine dei dati).   
![\[Data source configuration interface with options to select or add data sources for crawling.\]](http://docs.aws.amazon.com/it_it/glue/latest/dg/images/crawler-s3-event-console1.png)

1.  Nella modalità **Add data source** (Aggiungi origine dei dati), configura l'origine dati di Amazon S3: 
   +  **Data source** (Origine dei dati): per impostazione predefinita, è selezionato Amazon S3. 
   +  **Network connection** (Connessione di rete) (Facoltativo): seleziona **Add new connection** (Aggiungi una nuova connessione). 
   +  **Location of Amazon S3 data** (Posizione dei dati Amazon S3): per impostazione predefinita, è selezionata l'opzione **In this account** (In questo account). 
   +  **Amazon S3 path** (Percorso Amazon S3): specifica il percorso Amazon S3 in cui effettuare il crawling in cartelle e file. 
   +  **Subsequent crawler runs** (Esecuzione successiva del crawler): seleziona **Crawl based on events** (Crawling in base agli eventi) per utilizzare le notifiche degli eventi di Amazon S3 per il crawler. 
   +  **Include SQS ARN** (Includi ARN SQS): specifica i parametri del datastore, incluso un ARN SQS valido. Ad esempio, `arn:aws:sqs:region:account:sqs`. 
   +  **Include dead-letter SQS ARN** (Includi ARN SQS non recapitabili): specifica un ARN SQS non recapitabile di Amazon valido. Ad esempio, `arn:aws:sqs:region:account:deadLetterQueue`. 
   +  Scegli **Add an Amazon S3 data source** (Aggiungi un'origine dei dati Amazon S3).   
![\[Add data source dialog for S3, showing options for network connection and crawl settings.\]](http://docs.aws.amazon.com/it_it/glue/latest/dg/images/crawler-s3-event-console2.png)

------
#### [ AWS CLI ]

 Di seguito è riportato un esempio di AWS CLI chiamata Amazon S3 per configurare un crawler per utilizzare le notifiche di eventi per eseguire la scansione di un bucket di destinazione Amazon S3. 

```
Create Crawler:
aws glue update-crawler \
    --name myCrawler \
    --recrawl-policy RecrawlBehavior=CRAWL_EVENT_MODE \
    --schema-change-policy UpdateBehavior=UPDATE_IN_DATABASE,DeleteBehavior=LOG
    --targets '{"S3Targets":[{"Path":"s3://amzn-s3-demo-bucket/", "EventQueueArn": "arn:aws:sqs:us-east-1:012345678910:MyQueue"}]}'
```

------

# Configurazione di un crawler per le notifiche degli eventi Amazon S3 per una tabella del Catalogo dati
<a name="crawler-s3-event-notifications-setup-console-catalog-target"></a>

In presenza di una tabella del Catalogo dati, configura un crawler per le notifiche eventi Amazon S3 utilizzando la console AWS Glue:

1.  Imposta le proprietà del crawler. Per ulteriori informazioni, consulta la pagina [Impostazione delle opzioni di configurazione del crawler nella console AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/crawler-configuration.html#crawler-configure-changes-console). 

1.  Nella sezione **Data source configuration** (Configurazione origine dei dati) viene chiesto *Is your data already mapped to AWS Glue tables? *. 

    Seleziona **Yes** (Sì) per selezionare le tabelle esistenti dal catalogo dati come origine dati. 

1.  Nella sezione **Glue tables**, (tabelle Glue) scegli **Add tables** (aggiungi tabelle).   
![\[Data source configuration interface with options to select existing Glue tables or add new ones.\]](http://docs.aws.amazon.com/it_it/glue/latest/dg/images/crawler-s3-event-console1-cat.png)

1.  Nella modalità **Add table** (aggiungi tabella), configura il database e le tabelle: 
   +  **Network connection** (Connessione di rete) (Facoltativo): seleziona **Add new connection** (Aggiungi una nuova connessione). 
   +  **Database**: selezionare un database nel catalogo dati. 
   +  **Tabelle**: seleziona una o più tabelle da quel database nel catalogo dati. 
   +  **Subsequent crawler runs** (Esecuzione successiva del crawler): seleziona **Crawl based on events** (Crawling in base agli eventi) per utilizzare le notifiche degli eventi di Amazon S3 per il crawler. 
   +  **Include SQS ARN** (Includi ARN SQS): specifica i parametri del datastore, incluso un ARN SQS valido. Ad esempio, `arn:aws:sqs:region:account:sqs`. 
   +  **Include dead-letter SQS ARN** (Includi ARN SQS non recapitabili): specifica un ARN SQS non recapitabile di Amazon valido. Ad esempio, `arn:aws:sqs:region:account:deadLetterQueue`. 
   +  Scegli **Conferma**.   
![\[Add Glue tables dialog with network, database, tables, and crawler options.\]](http://docs.aws.amazon.com/it_it/glue/latest/dg/images/crawler-s3-event-console2-cat.png)