

# Programar crawls incrementais para adicionar novas partições
<a name="incremental-crawls"></a>

É possível configurar crawls incrementais de uma execução do Crawler do AWS Glue para adicionar somente novas partições ao esquema da tabela. Quando o crawler é executado pela primeira vez, ele executa um crawl completo para processar toda a fonte de dados para registrar o esquema completo e todas as partições existentes no AWS Glue Data Catalog.

Os crawls subsequentes após o crawl completo inicial serão incrementais, em que o crawler identifica e adiciona somente as novas partições que foram introduzidas desde o crawl anterior. Essa abordagem resulta em tempos de crawl mais rápidos, pois o crawler não precisa mais processar toda a fonte de dados para cada execução, mas se concentra apenas nas novas partições. 

**nota**  
Os crawls incrementais não detectam modificações ou exclusões de partições existentes. Essa configuração é mais adequada para fontes de dados com um esquema estável. Se ocorrer uma única alteração importante no esquema, é recomendável configurar temporariamente o crawler para realizar um crawl completo a fim de capturar o novo esquema com precisão e, em seguida, voltar ao modo de crawling incremental. 

O diagrama a seguir mostra que, com a configuração de crawl incremental ativada, o crawler detectará e adicionará somente a pasta recém-adicionada, month=March, ao catálogo.

![O diagrama a seguir mostra que os arquivos do mês de março foram adicionados.](http://docs.aws.amazon.com/pt_br/glue/latest/dg/images/crawlers-s3-folders-new.png)


Siga estas etapas para atualizar seu crawler para realizar crawls incrementais:

------
#### [ Console de gerenciamento da AWS ]

1. Faça login no Console de gerenciamento da AWS e abra o console do AWS Glue em [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. Escolha **Crawlers** no **Catálogo de dados**.

1. Escolha um crawler que você deseja configurar para fazer o crawl incrementalmente.

1. Escolha **Editar**.

1. Escolha a **Etapa 2. Escolha as fontes de dados e os classificadores**.

1. Escolha a fonte de dados em que você deseja fazer o crawl incrementalmente. 

1. Escolha **Editar**.

1. Escolha **Fazer crawl somente em novas subpastas** em **Execuções subsequentes do crawler**.

1. Selecione **Atualizar**.

Para criar uma programação para um crawler, consulte [Programar um crawler](schedule-crawler.md).

------
#### [ AWS CLI ]

```
aws glue update-crawler \
 --name myCrawler \
 --recrawl-policy RecrawlBehavior=CRAWL_NEW_FOLDERS_ONLY \
 --schema-change-policy UpdateBehavior=LOG,DeleteBehavior=LOG
```

------

**Notas e restrições**  
Quando essa opção está ativada, não é possível alterar os armazenamentos de dados de destino do Amazon S3 ao editar o crawler. Essa opção afeta determinadas definições de configuração do crawler. Quando ativada, ela força o comportamento de atualização e de exclusão do crawler para `LOG`. Isto significa que:
+ Se descobrir objetos nos quais os esquemas não são compatíveis, o crawler não adicionará os objetos no Catálogo de Dados e adicionará esse detalhe como um log no CloudWatch Logs.
+ Ele não atualizará objetos excluídos no Catálogo de dados.