

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Utilisation d’un robot pour ajouter une table
<a name="schema-crawlers"></a>

AWS Glue les robots d'exploration aident à découvrir le schéma des ensembles de données et à les enregistrer sous forme de tables dans le catalogue de AWS Glue données. Les Crawlers explorent vos données et en déterminent le schéma. De plus, le Crawler peut détecter et enregistrer des partitions. Pour plus d'informations, consultez [Définition des Crawlers](https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html) dans le *Guide du développeur AWS Glue *. Les tables de données dont l'analyse a abouti peuvent être interrogées à partir d'Athena.

**Note**  
Athena ne reconnaît pas les [modèles d'exclusion](https://docs.aws.amazon.com/glue/latest/dg/define-crawler.html#crawler-data-stores-exclude) que vous spécifiez pour un AWS Glue robot d'exploration. Par exemple, si vous disposez d'un compartiment Simple Storage Service (Amazon S3) contenant à la fois des fichiers `.csv` et `.json` et que vous excluez les fichiers `.json` du Crawler, Athena interroge les deux groupes de fichiers. Pour éviter cela, placez les fichiers que vous voulez exclure dans un autre emplacement. 

## Création d'un AWS Glue crawler
<a name="data-sources-glue-crawler-setup"></a>

Vous pouvez créer un crawler en commençant dans la console Athena, puis en utilisant la console AWS Glue de manière intégrée. Lorsque vous créez le crawler, vous spécifiez un emplacement de données à analyser dans Simple Storage Service (Amazon S3).

**Pour créer un robot d'exploration à AWS Glue partir de la console Athena**

1. Ouvrez la console à l'adresse [https://console.aws.amazon.com/athena/](https://console.aws.amazon.com/athena/home).

1. Dans l'éditeur de requêtes, à côté de **Tables and views (Tables et vues)**, choisissez **Create** (Créer) puis choisissez le **crawler AWS Glue **. 

1. Sur la page **Add crawler** (Ajouter un crawler) de la console **AWS Glue**, procédez comme suit pour créer un crawler. Pour plus d'informations, consultez les [sections Utilisation AWS Glue des robots](#schema-crawlers) d'exploration dans ce guide et [Remplissage du AWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-catalog-methods.html) manuel du *AWS Glue développeur*.

**Note**  
Athena ne reconnaît pas les [modèles d'exclusion](https://docs.aws.amazon.com/glue/latest/dg/define-crawler.html#crawler-data-stores-exclude) que vous spécifiez pour un AWS Glue robot d'exploration. Par exemple, si vous disposez d'un compartiment Simple Storage Service (Amazon S3) contenant à la fois des fichiers `.csv` et `.json` et que vous excluez les fichiers `.json` du Crawler, Athena interroge les deux groupes de fichiers. Pour éviter cela, placez les fichiers que vous voulez exclure dans un autre emplacement.

Après un crawl, le AWS Glue robot attribue automatiquement certaines métadonnées aux tables afin de les rendre compatibles avec d'autres technologies externes telles qu'Apache Hive, Presto et Spark. De temps en temps, le Crawler peut attribuer de manière incorrecte les propriétés des métadonnées. Corrigez manuellement les propriétés AWS Glue avant d'interroger la table à l'aide d'Athena. Pour en savoir plus, consultez [Affichage et modification des détails de table](https://docs.aws.amazon.com/glue/latest/dg/console-tables.html#console-tables-details) dans le *Guide du développeur AWS Glue *.

AWS Glue peut mal affecter les métadonnées lorsqu'un fichier CSV contient des guillemets autour de chaque champ de données, ce qui entraîne une erreur de `serializationLib` propriété. Pour de plus amples informations, veuillez consulter [Gestion des données CSV entre guillemets](schema-csv.md#schema-csv-quotes).

# Utilisation de plusieurs sources de données avec un robot
<a name="schema-crawlers-data-sources"></a>

Lorsqu'un AWS Glue robot d'exploration analyse Amazon S3 et détecte plusieurs répertoires, il utilise une heuristique pour déterminer où se trouve la racine d'une table dans la structure du répertoire et quels répertoires sont des partitions de la table. Dans certains cas, si le schéma détecté dans deux ou plusieurs répertoires est similaire, le Crawler peut les traiter comme des partitions et pas comme des tables distinctes. L'une des solutions pour aider le Crawler à découvrir les tables individuelles consiste à ajouter le répertoire racine de chaque table comme magasin de données du analyseur.

Les partitions suivantes dans Simple Storage Service (Amazon S3) constituent un example :

```
s3://amzn-s3-demo-bucket/folder1/table1/partition1/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition2/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition3/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition4/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition5/file.txt
```

Si le schéma pour `table1` et `table2` est similaire, et si une seule source de données est définie sur `s3://amzn-s3-demo-bucket/folder1/` in AWS Glue, le robot d'exploration peut créer une table unique avec deux colonnes de partition : une colonne de partition contenant `table1` et`table2`, et une seconde colonne de partition contenant `partition1` des `partition5`

Pour que le AWS Glue robot crée deux tables distinctes, configurez le robot de manière à ce qu'il dispose de deux sources de données`s3://amzn-s3-demo-bucket/folder1/table2`, `s3://amzn-s3-demo-bucket/folder1/table1/` et comme indiqué dans la procédure suivante.

**Pour ajouter un magasin de données S3 à un robot d'exploration existant dans AWS Glue**

1. Connectez-vous à la AWS Glue console AWS Management Console et ouvrez-la à l'adresse [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. Dans le panneau de navigation, sélectionnez **Crawlers**. (Analyseurs)

1. Choisissez le lien vers votre crawler, puis choisissez **Modification**. 

1. **Étape 2 : Choisir des sources de données et des classificateurs**, choisissez **Modification**. 

1. Dans **Sources de données et catalogues**, sélectionnez **Ajouter une source de données**.

1. Dans la boite de dialogue **Ajouter une source de données** pour le **Chemin S3**, choisissez **Parcourir**. 

1. Choisissez le compartiment que vous souhaitez utiliser, ensuite choisissez **Sélectionner un plan**.

   La source de données que vous avez ajoutée apparaît dans la liste **Sources de données**.

1. Choisissez **Suivant**.

1. Sur la page **Configurer les paramètres de sécurité**, ou créez ou choisissez un rôle IAM pour le crawler, puis sélectionnez **Suivant**.

1. Assurez-vous que le chemin S3 se termine par une barre oblique, avant de choisir ensuite **Ajouter une source de données S3**.

1. Sur la page **Régler la sortie et la planification**, pour la **Configuration de sortie**, sélectionnez la base de données cible.

1. Choisissez **Suivant**.

1. Sur la page **Vérifier et mettre à jour**, passez en revue les choix que vous avez effectués. Pour modifier une étape, sélectionnez **Modification**.

1.  Choisissez **Mettre à jour**.

# Planifiez un robot d'exploration pour synchroniser Amazon S3 AWS Glue Data Catalog et Amazon S3
<a name="schema-crawlers-schedule"></a>

AWS Glue les robots d'exploration peuvent être configurés pour fonctionner selon un calendrier ou à la demande. Pour en savoir plus, consultez [Planifications temporelles pour les tâches et les Crawlers](https://docs.aws.amazon.com/glue/latest/dg/monitor-data-warehouse-schedule.html) dans le *Guide du développeur AWS Glue *.

Si des données arrivent pour une table partitionnée à une heure fixe, vous pouvez configurer un AWS Glue robot d'exploration pour qu'il s'exécute selon le calendrier prévu afin de détecter et de mettre à jour les partitions de table. Cela peut éliminer la nécessité d'exécuter une commande `MSCK REPAIR` potentiellement longue et coûteuse ou d'exécuter manuellement une commande `ALTER TABLE ADD PARTITION`. Pour en savoir plus, consultez [Partitions de table](https://docs.aws.amazon.com/glue/latest/dg/tables-described.html#tables-partition) dans le *Guide du développeur AWS Glue *.