

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Optimisation des performances des requêtes pour les tables Iceberg
<a name="iceberg-column-statistics"></a>

Apache Iceberg est un format de table ouverte très performant pour de grands ensembles de données analytiques. AWS Glue prend en charge le calcul et la mise à jour du nombre de valeurs distinctes (NDVs) pour chaque colonne des tables Iceberg. Ces statistiques peuvent améliorer l’optimisation des requêtes, la gestion des données et l’efficacité des performances pour les ingénieurs et les scientifiques de données travaillant avec des jeux de données à grande échelle.

 AWS Glue estime le nombre de valeurs distinctes dans chaque colonne de la table Iceberg et les stocke dans des fichiers [Puffin](https://iceberg.apache.org/puffin-spec/) sur Amazon S3 associés à des instantanés de table Iceberg. Puffin est un format de fichier Iceberg conçu pour stocker des métadonnées telles que des index, des statistiques et des croquis. Le stockage de croquis dans des fichiers Puffin liés à des instantanés garantit la cohérence transactionnelle et l’actualité des statistiques NDV.

Vous pouvez configurer pour exécuter la tâche de génération de statistiques de colonne à l'aide de AWS Glue la console ou AWS CLI. Lorsque vous lancez le processus, AWS Glue démarre une tâche Spark en arrière-plan et met à jour les métadonnées de la AWS Glue table dans le catalogue de données. Vous pouvez consulter les statistiques des colonnes à l'aide de la AWS Glue console AWS CLI ou en appelant l'opération [GetColumnStatisticsForTable](https://docs.aws.amazon.com/glue/latest/webapi/API_GetColumnStatisticsForTable.html)API.

**Note**  
Si vous utilisez AWS Lake Formation des autorisations pour contrôler l'accès à la table, le rôle assumé par la tâche de statistiques sur les colonnes nécessite un accès complet à la table pour générer des statistiques.

**Topics**
+ [Conditions préalables à la génération de statistiques de colonne](iceberg-column-stats-prereqs.md)
+ [Génération de statistiques de colonne pour les tables Iceberg](iceberg-generate-column-stats.md)
+ [Consultez aussi](#see-also-iceberg-stats)

# Conditions préalables à la génération de statistiques de colonne
<a name="iceberg-column-stats-prereqs"></a>

Pour générer ou mettre à jour des statistiques de colonne pour les tables Iceberg, la tâche de génération de statistiques assume un rôle Gestion des identités et des accès AWS (IAM) en votre nom. Sur la base des autorisations accordées au rôle, la tâche de génération de statistiques de colonne peut lire les données à partir du magasin de données Amazon S3.

Lorsque vous configurez la tâche de génération de statistiques de AWS Glue colonne, vous pouvez créer un rôle qui inclut la politique `AWSGlueServiceRole` AWS gérée ainsi que la politique en ligne requise pour la source de données spécifiée. 

Si vous spécifiez un rôle existant pour la génération de statistiques de colonne, assurez-vous qu’il inclut la politique `AWSGlueServiceRole` ou l’équivalent (ou une version limitée de cette politique), ainsi que les politiques en ligne requises.

Pour plus d’informations sur les autorisations requises, consultez [Conditions préalables à la génération de statistiques de colonne](column-stats-prereqs.md). 

# Génération de statistiques de colonne pour les tables Iceberg
<a name="iceberg-generate-column-stats"></a>

Procédez comme suit pour configurer un calendrier de génération de statistiques dans le catalogue de données à l'aide de la AWS Glue console AWS CLI ou de l'opération ou exécutez l'**StartColumnStatisticsTaskRun**opération.

**Pour générer des statistiques de colonne**

1. Connectez-vous à la AWS Glue console à l'adresse [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/). 

1. Sélectionnez **Tables** sous Catalogue de données.

1. Choisissez une table Iceberg dans la liste. 

1. Choisissez **Statistiques de colonne**, **Générer à la demande** dans le menu **Actions**.

   Vous pouvez également choisir le bouton **Générer des statistiques** sous l'onglet **Statistiques de colonne** dans la section inférieure de la page **Tables**.

1. Sur la page **Générer des statistiques**, fournissez les détails relatifs à la génération des statistiques. Suivez les étapes 6 à 11 de la section [Génération de statistiques de colonne selon un calendrier](generate-column-stats.md) pour configurer un calendrier de génération de statistiques pour les tables Iceberg. 

   Vous pouvez également choisir de générer des statistiques de colonnes à la demande en suivant les instructions de [Génération de statistiques de colonne à la demande](column-stats-on-demand.md).
**Note**  
L’option d’échantillonnage n’est pas disponible pour les tables Iceberg.

   AWS Glue calcule le nombre de valeurs distinctes pour chaque colonne de la table Iceberg dans un nouveau fichier Puffin validé avec l'ID de snapshot spécifié dans votre emplacement Amazon S3.

## Consultez aussi
<a name="see-also-iceberg-stats"></a>
+ [Affichage des statistiques de colonne](view-column-stats.md)
+ [Affichage des exécutions de tâches de statistiques de colonne](view-stats-run.md)
+ [Arrêt d'exécution de la tâche de statistiques de colonne](stop-stats-run.md)
+ [Supprimer les statistiques de colonne](delete-column-stats.md)