

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Génération automatique de statistiques de colonne
<a name="auto-column-stats-generation"></a>

La génération automatique de statistiques de colonne vous permet de planifier et de calculer automatiquement les statistiques sur les nouvelles tables de l’ AWS Glue Data Catalog. Lorsque vous activez la génération automatique de statistiques, le catalogue de données découvre de nouvelles tables avec des formats de données spécifiques tels que Parquet, JSON, CSV, XML, ORC, ION et Apache Iceberg, ainsi que leurs chemins d’accès aux compartiments individuels. Avec une configuration de catalogue unique, le catalogue de données génère des statistiques pour ces tables.

 Les administrateurs de lac de données peuvent configurer la génération de statistiques en sélectionnant le catalogue par défaut dans la console Lake Formation et en activant les statistiques des tables à l’aide de l’option `Optimization configuration`. Lorsque vous créez de nouvelles tables ou que vous mettez à jour des tables existantes dans le catalogue de données, le catalogue de données collecte le nombre de valeurs distinctes (NDVs) pour les tables Apache Iceberg, ainsi que des statistiques supplémentaires telles que le nombre de valeurs nulles, la longueur maximale, minimale et moyenne pour les autres formats de fichiers pris en charge sur une base hebdomadaire. 

Si vous avez configuré la génération de statistiques au niveau de la table ou si vous avez précédemment supprimé les paramètres de génération de statistiques d’une table, ces paramètres propres à la table ont priorité sur les paramètres de catalogue par défaut pour la génération automatique de statistiques de colonne.

 La tâche de génération automatique de statistiques analyse 50 % des enregistrements des tables pour calculer les statistiques. La génération automatique de statistiques de colonne garantit que le catalogue de données conserve des métriques hebdomadaires qui peuvent être utilisées par les moteurs de requêtes tels qu’Amazon Athena et Amazon Redshift Spectrum pour améliorer les performances des requêtes et réaliser des économies potentielles. Il permet de planifier la génération de statistiques à l'aide AWS Glue APIs de la console, fournissant ainsi un processus automatisé sans intervention manuelle. 

**Topics**
+ [Activation de la génération automatique de statistiques au niveau du catalogue](enable-auto-column-stats-generation.md)
+ [Affichage des paramètres au niveau de la table automatisés](view-auto-column-stats-settings.md)
+ [Désactivation de la génération de statistiques de colonne au niveau du catalogue](disable-auto-column-stats-generation.md)

# Activation de la génération automatique de statistiques au niveau du catalogue
<a name="enable-auto-column-stats-generation"></a>

Vous pouvez activer la génération automatique de statistiques de colonne pour toutes les nouvelles tables Apache Iceberg et les tables dans des formats de table autres que OTF (Parquet, JSON, CSV, XML, ORC, ION) dans le catalogue de données. Après avoir créé la table, vous pouvez également mettre à jour manuellement de manière explicite les paramètres des statistiques de colonne.

 Pour mettre à jour les paramètres du catalogue de données afin de les activer au niveau du catalogue, le rôle IAM utilisé doit disposer de l'`glue:UpdateCatalog`autorisation ou de l' AWS Lake Formation `ALTER CATALOG`autorisation sur le catalogue racine. Vous pouvez utiliser l’API `GetCatalog` pour vérifier les propriétés du catalogue. 

------
#### [ AWS Management Console ]

**Pour activer la génération automatique de statistiques de colonne au niveau du compte**

1. Ouvrez la console Lake Formation à l'adresse [https://console.aws.amazon.com/lakeformation/](https://console.aws.amazon.com/lakeformation/).

1. Dans la barre de navigation de gauche, choisissez **Catalogues**.

1. Sur la page **Résumé du catalogue**, choisissez **Modifier** sous **Configuration de l’optimisation**.   
![\[La capture d'écran montre les options disponibles pour générer des statistiques de colonne.\]](http://docs.aws.amazon.com/fr_fr/glue/latest/dg/images/edit-column-stats-auto.png)

1. Sur la page de **Configuration de l’optimisation des tables**, choisissez l’option **Activer la génération automatique de statistiques pour les tables du catalogue**.  
![\[La capture d'écran montre les options disponibles pour générer des statistiques de colonne.\]](http://docs.aws.amazon.com/fr_fr/glue/latest/dg/images/edit-optimization-option.jpg)

1. Choisissez un rôle IAM existant ou créez-en un autre avec les autorisations nécessaires pour exécuter la tâche de statistiques de colonne.

1. Sélectionnez **Soumettre**.

------
#### [ AWS CLI ]

Vous pouvez également activer la collecte de statistiques au niveau du catalogue via l’ AWS CLI. Pour configurer la collecte de statistiques au niveau des tables à l'aide de AWS CLI, exécutez la commande suivante :

```
aws glue update-catalog --cli-input-json '{
    "name": "123456789012",
    "catalogInput": {
        "description": "Updating root catalog with role arn",
        "catalogProperties": {
            "customProperties": {
                "ColumnStatistics.RoleArn": "arn:aws:iam::"123456789012":role/service-role/AWSGlueServiceRole",
                "ColumnStatistics.Enabled": "true"
            }
        }
    }
}'
```

 La commande ci-dessus appelle AWS Glue l'`UpdateCatalog`opération, qui prend en compte une `CatalogProperties` structure avec les paires clé-valeur suivantes pour la génération de statistiques au niveau du catalogue : 
+ ColumnStatistics. RoleArn — L'ARN du rôle IAM doit être utilisé pour toutes les tâches déclenchées pour la génération de statistiques au niveau du catalogue
+ ColumnStatistics.Enabled — Booléen indiquant si les paramètres au niveau du catalogue sont activés ou désactivés

------

# Affichage des paramètres au niveau de la table automatisés
<a name="view-auto-column-stats-settings"></a>

 Lorsque la collecte de statistiques au niveau du catalogue est activée, chaque fois qu'une table Apache Hive ou Apache Iceberg est créée ou mise à jour via le SDK `CreateTable` ou `UpdateTable` APIs qu'un paramètre de niveau de table équivalent est créé pour cette table. AWS Management Console AWS Glue crawler

 Les tables pour lesquelles la génération automatique de statistiques est activée doivent respecter l’une des propriétés suivantes :
+ Utiliser une `InputSerdeLibrary` qui commence par org.apache.hadoop et `TableType` égal à `EXTERNAL_TABLE`
+ Utiliser une `InputSerdeLibrary` qui commence par `com.amazon.ion` et `TableType` égal à `EXTERNAL_TABLE`
+ Contenir table\$1type : « ICEBERG » dans sa structure de paramètres 

 Après avoir créé ou mis à jour une table, vous pouvez vérifier ses détails pour confirmer la génération de statistiques. `Statistics generation summary` affiche la propriété `Schedule` définie comme `AUTO` et la valeur `Statistics configuration` est `Inherited from catalog`. Tout paramètre de table avec le paramètre suivant serait automatiquement déclenché par Glue en interne. 

![\[Une image d’une table Hive avec collecte de statistiques au niveau du catalogue a été appliquée et des statistiques ont été collectées.\]](http://docs.aws.amazon.com/fr_fr/glue/latest/dg/images/auto-stats-summary.png)


# Désactivation de la génération de statistiques de colonne au niveau du catalogue
<a name="disable-auto-column-stats-generation"></a>

 Vous pouvez désactiver la génération automatique de statistiques de colonne pour les nouvelles tables à l'aide de la AWS Lake Formation console, de l'`glue:UpdateCatalogSettings`API ou de l'`glue:DeleteColumnStatisticsTaskSettings`API. 

**Pour désactiver la génération automatique de statistiques de colonne au niveau du compte**

1. Ouvrez la console Lake Formation à l'adresse [https://console.aws.amazon.com/lakeformation/](https://console.aws.amazon.com/lakeformation/).

1. Dans la barre de navigation de gauche, choisissez **Catalogues**.

1. Sur la page **Résumé du catalogue**, choisissez **Modifier** sous **Configuration de l’optimisation**. 

1. Sur la page de **Configuration de l’optimisation des tables**, désélectionnez l’option **Activer la génération automatique de statistiques pour les tables du catalogue**.

1. Sélectionnez **Soumettre**.