

# Localizar correspondências incrementais
<a name="machine-learning-incremental-matches"></a>

O recurso Find matches permite identificar registros duplicados ou correspondentes no seu conjunto de dados, mesmo quando os registros não tenham um identificador exclusivo comum e quando não houver campos com uma correspondência exata. A versão inicial da transformação Find matches identificava registros correspondentes em um único conjunto de dados. Quando você adiciona novos dados ao conjunto de dados, você precisava mesclá-los com o conjunto de dados limpo existente e executar novamente a correspondência com o conjunto de dados mesclado completo.

O recurso de correspondência incremental facilita a correspondência com registros incrementais em relação a conjuntos de dados correspondentes existentes. Vamos supor que você queira combinar dados de clientes potenciais com conjuntos de dados de clientes existentes. O recurso de correspondência incremental oferece a flexibilidade de combinar centenas de milhares de novos clientes potenciais com um banco de dados existente de clientes potenciais e clientes, mesclando os resultados em um único banco de dados ou tabela. Ao fazer a correspondência somente entre os conjuntos de dados novos e existentes, a otimização da localização de correspondências incrementais reduz o tempo de computação, o que também reduz o custo.

O uso de correspondência incremental é semelhante a Find matches conforme descrito em [Tutorial: como criar uma transformação de machine learning com o AWS Glue](machine-learning-transform-tutorial.md). Este tópico identifica apenas as diferenças com correspondência incremental.

Para obter mais informações, consulte a postagem do blog em [Correspondências de dados incrementais](https://aws.amazon.com/blogs/big-data/incremental-data-matching-using-aws-lake-formation/).

## Execução de um trabalho de correspondência incremental
<a name="machine-learning-incremental-matches-add"></a>

Para o procedimento a seguir, suponha o seguinte: 
+ Você rastreou o conjunto de dados existente até a tabela *first\$1records*. O conjunto de dados *first\$1records* deve ser um conjunto de dados correspondente ou a saída do trabalho correspondente.
+ Você criou e treinou uma transformação de Find matches com o AWS Glue versão 2.0. Essa é a única versão do AWS Glue com suporte a correspondências incrementais.
+ A linguagem de ETL é Scala. Observe que também há suporte para Python.
+ O modelo já gerado é chamado de `demo-xform`.

1. Rastreie o conjunto de dados incremental até a tabela *second\$1records*.

1. No console do AWS Glue, no painel de navegação, escolha **Jobs (Trabalhos)**.

1. Escolha **Add job (Adicionar trabalho)**, e siga as etapas do assistente para criar um trabalho de ETL do Spark com um script gerado. Escolha os seguintes valores de propriedade para sua transformação:

   1. Em **Name** (Nome), escolha**demo-etl**.

   1. Em **IAM role** (Função do IAM), escolha uma função do IAM com permissão para os dados de fonte do Amazon S3, o arquivo de rotulagem e as [operações de API do AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/create-an-iam-role.html).

   1. Em **ETL language (Linguagem de ETL)**, escolha **Scala**.

   1. Em **Script file name** (Nome do arquivo de script), escolha **demo-etl**. Esse é o nome do arquivo do script Scala.

   1. Em **Data source** (Fonte de dados), escolha **first\$1records**. A fonte de dados que você escolher deve corresponder ao esquema da fonte de dados da transformação de machine learning.

   1. Em **Transform type (Tipo de transformação)**, escolha **Find matching records (Encontrar registros correspondentes)** para criar um trabalho usando uma transformação de machine learning.

   1. Selecione a opção de correspondência incremental e para **Data Source** (Fonte de dados), selecione a tabela chamada **second\$1records**.

   1. Em **Transform** (Transformação), escolha **demo-xform**, a transformação de machine learning usada pelo trabalho.

   1. Escolha **Create tables in your data target** (Criar tabelas em seu destino de dados) ou **Use tables in the data catalog and update your data target** (Usar tabelas no catálogo de dados e atualizar seu destino de dados).

1. Escolha **Save job and edit script (Salvar trabalho e editar script)** para exibir a página do editor de script.

1. Escolha **Run job (Executar trabalho)** para iniciar a execução do trabalho.