

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Recherche de correspondances progressives
<a name="machine-learning-incremental-matches"></a>

La fonction Recherche de correspondances vous permet d'identifier les registres en double ou correspondants dans votre jeu de données, même lorsque les registres n'ont pas un identifiant unique commun et qu'aucun champ ne correspond exactement. La version initiale de la recherche de correspondances transforme les registres correspondants identifiés au sein d'un même jeu de données. Lorsque vous ajoutez de nouvelles données au jeu de données, vous deviez les fusionner avec le jeu de données propre existant et exécuter à nouveau la correspondance avec le jeu de données fusionné complet.

La fonction de correspondance progressive facilite la correspondance avec des registres progressifs en comparaison aux jeux de données appariés existants. Supposons que vous souhaitiez associer les données de prospects aux jeux de données clients existants. La fonctionnalité de correspondance progressive vous offre la flexibilité nécessaire pour associer des centaines de milliers de nouveaux prospects à une base de données existante de prospects et de clients en fusionnant les résultats en une seule base de données ou table. En faisant correspondre uniquement les jeux de données nouveaux et existants, l'optimisation de recherche de correspondances progressives réduit le temps de calcul, ce qui réduit également les coûts.

L'utilisation de la correspondance progressive est similaire à celle de la Recherche de correspondances décrite dans [Tutoriel : Création d'une transformation de machine learning avec AWS Glue](machine-learning-transform-tutorial.md). Cette rubrique identifie uniquement les différences avec la correspondance progressive.

Pour en savoir plus, consultez l'article de blog sur [Correspondance progressive des données](https://aws.amazon.com/blogs/big-data/incremental-data-matching-using-aws-lake-formation/).

## Exécution d'une tâche de correspondance progressive
<a name="machine-learning-incremental-matches-add"></a>

Pour la procédure suivante, supposons la situation suivante : 
+ Vous avez exploré le jeu de données existant dans la table *first\$1records*. Le jeu de données *first\$1records* doit être un jeu de données correspondant, ou la sortie de la tâche correspondante.
+ Vous avez créé et entraîné une transformation Recherche de correspondances avec AWS Glue version 2.0. Il s'agit de la seule version de AWS Glue qui prend en charge les correspondances progressives.
+ Le langage ETL est Scala. Notez que Python est également pris en charge.
+ Le modèle déjà généré s'appelle `demo-xform`.

1. Analyse du jeu de données progressif vers la table *second\$1records*.

1. Sur la console AWS Glue, dans le panneau de navigation, sélectionnez **Jobs (Tâches)**.

1. Choisissez **Ajouter une tâche**, et suivez les étapes de l'assistant pour créer une tâche ETL Spark avec un script généré. Choisissez les valeurs de propriété suivantes pour votre transformation :

   1. Pour **Nom**, choisissez **demo-etl**.

   1. Pour **Rôle IAM**, choisissez un rôle IAM disposant d'une autorisation sur les données source Amazon S3, le fichier d'étiquetage et les [ opérations d'APIAWS Glue](https://docs.aws.amazon.com/glue/latest/dg/create-an-iam-role.html).

   1. Pour **Langage ETL**, choisissez **Scala**.

   1. Pour **Nom du fichier script**, choisissez **demo-etl**. Il s'agit du nom de fichier du script Scala.

   1. Pour **Source de données**, choisissez **first\$1records**. La source de données que vous choisissez doit correspondre au schéma de source de données de la transformation Machine Learning.

   1. Pour **Type de transformation**, choisissez **Find matching records Rechercher des enregistrements correspondants** pour créer une tâche à l'aide d'une transformation Machine Learning.

   1. Sélectionnez l'option de correspondance progressive, et pour **Source de données** sélectionnez la table nommée **second\$1records**.

   1. Pour **Transformation**, choisissez **demo-xform**, la transformation de machine learning utilisée par la tâche.

   1. Choisissez **Créer des tables dans votre cible de données** ou **Utiliser les tables du catalogue de données et mettre à jour votre cible de données**.

1. Choisissez **Enregistrer la tâche et modifier le script** pour afficher la page de l'éditeur de script.

1. Choisissez **Exécuter la tâche** pour démarrer l'exécution de la tâche.