

# Optimización del rendimiento de las consultas en tablas de Iceberg
<a name="iceberg-column-statistics"></a>

Apache Iceberg es un formato de tabla abierto de alto rendimiento para conjuntos de datos de análisis de gran tamaño. AWS Glue permite calcular y actualizar el número de valores distintos (NDV) para cada columna de las tablas de Iceberg. Estas estadísticas pueden facilitar una mejor optimización de las consultas, administración de los datos y eficiencia del rendimiento para los ingenieros y científicos de datos que trabajan con conjuntos de datos a gran escala.

 AWS Glue calcula el número de valores distintos de cada columna de la tabla de Iceberg y los almacena en archivos [Puffin](https://iceberg.apache.org/puffin-spec/) de Amazon S3 asociados a las instantáneas de la tabla de Iceberg. Puffin es un formato de archivo de Iceberg diseñado para almacenar metadatos como índices, estadísticas y bocetos. El almacenamiento de bocetos en archivos Puffin vinculados a instantáneas garantiza la coherencia de las transacciones y la actualización de las estadísticas de NDV.

Puede configurarlo para ejecutar la tarea de generación de estadísticas de columnas mediante la consola AWS Glue o AWS CLI. Al iniciar el proceso, AWS Glue inicia un trabajo de Spark en segundo plano y actualiza los metadatos de la tabla AWS Glue en el catálogo de datos. Puede ver las estadísticas de las columnas mediante la consola AWS Glue o AWS CLI, o llamando a la operación de la API [GetColumnStatisticsForTable](https://docs.aws.amazon.com/glue/latest/webapi/API_GetColumnStatisticsForTable.html).

**nota**  
Si utiliza los permisos de AWS Lake Formation para controlar el acceso a la tabla, el rol que asume la tarea de estadísticas de columnas requiere acceso total a la tabla para generar estadísticas.

**Topics**
+ [Requisitos previos para generar estadísticas de columnas](iceberg-column-stats-prereqs.md)
+ [Generación de estadísticas de las columnas de las tablas de Iceberg](iceberg-generate-column-stats.md)
+ [Véase también](#see-also-iceberg-stats)

# Requisitos previos para generar estadísticas de columnas
<a name="iceberg-column-stats-prereqs"></a>

Para generar o actualizar las estadísticas de las columnas de tablas de Iceberg, la tarea de generación de estadísticas adopta un rol de AWS Identity and Access Management (IAM) en su nombre. Según los permisos concedidos al rol, la tarea de generación de estadísticas de columnas puede leer los datos del almacén de datos de Amazon S3.

Al configurar la tarea de generación de estadísticas de la columna, AWS Glue le permite crear un rol que incluye la política administrada de AWS `AWSGlueServiceRole`, más la política insertada necesaria para el origen de datos especificado. 

Si especifica un rol existente para generar estadísticas de las columnas, asegúrese de que incluya la política `AWSGlueServiceRole` o equivalente (o una versión reducida de esta política), además de las políticas insertadas requeridas.

Para obtener más información sobre los permisos fr necesarios, consulte . [Requisitos previos para generar estadísticas de columnas](column-stats-prereqs.md). 

# Generación de estadísticas de las columnas de las tablas de Iceberg
<a name="iceberg-generate-column-stats"></a>

Siga estos pasos para configurar una programación para generar estadísticas en el Catálogo de datos mediante la consola de AWS Glue o la AWS CLI, o ejecute la operación **StartColumnStatisticsTaskRun**.

**Generación de estadísticas de columnas**

1. Inicie sesión en la consola de AWS Glue en [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/). 

1. Seleccione **Tablas** en el Catálogo de datos.

1. Seleccione una tabla de Iceberg de la lista. 

1. Seleccione **Generar estadísticas**, **Generar bajo demanda** en el menú **Acciones**.

   También puede pulsar el botón **Generar estadísticas** en la pestaña **Estadísticas de columnas**, en la sección inferior de la página de **Tablas**.

1. En la página **Generar estadísticas**, proporcione los detalles de generación de estadísticas. Siga los pasos 6 a 11 de la sección [Generación de estadísticas de columnas según una programación](generate-column-stats.md) a fin de configurar una programación para la generación de estadísticas de las tablas de Iceberg. 

   También puede optar por generar estadísticas de columnas bajo demanda si sigue las instrucciones en [Generación de estadísticas de columnas bajo demanda](column-stats-on-demand.md)
**nota**  
La opción de muestreo no está disponible para las tablas de Iceberg.

   AWS Glue calcula el número de valores distintos de cada columna de la tabla de Iceberg en un nuevo archivo Puffin asignado al ID de instantánea especificado en la ubicación de su instancia de Amazon S3.

## Véase también
<a name="see-also-iceberg-stats"></a>
+ [Visualización de estadísticas de columnas](view-column-stats.md)
+ [Visualización de las ejecuciones de tareas de estadísticas de columnas](view-stats-run.md)
+ [Detener la ejecución de la tarea de estadísticas de columnas](stop-stats-run.md)
+ [Eliminar estadísticas de columnas](delete-column-stats.md)