

# Otimizar a performance da consulta para tabelas Iceberg
<a name="iceberg-column-statistics"></a>

Apache Iceberg é um formato de tabela aberta de alta performance para grandes conjuntos de dados analíticos. O AWS Glue é compatível com o cálculo e a atualização do número de valores distintos (NDVs) para cada coluna nas tabelas Iceberg. Essas estatísticas podem facilitar uma melhor otimização de consultas, gerenciamento de dados e eficiência de performance para cientistas e engenheiros de dados que trabalham com conjuntos de dados em grande escala.

 O AWS Glue estima o número de valores distintos em cada coluna da tabela Iceberg e os armazena em arquivos [Puffin](https://iceberg.apache.org/puffin-spec/) no Amazon S3 associados aos snapshots da tabela Iceberg. Puffin é um formato de arquivo Iceberg projetado para armazenar metadados como índices, estatísticas e esboços. Armazenar esboços em arquivos Puffin vinculados a snapshots garante a consistência transacional e a atualização das estatísticas do NDV.

Você pode configurar para executar a tarefa de geração de estatísticas de coluna usando o console do AWS Glue ou a AWS CLI. Quando você inicia o processo, o AWS Glue inicia um trabalho do Spark em segundo plano e atualiza os metadados da tabela AWS Glue no Catálogo de Dados. Você pode visualizar as estatísticas da coluna usando o console do AWS Glue ou a AWS CLI ou chamando a operação da API [GetColumnStatisticsForTable](https://docs.aws.amazon.com/glue/latest/webapi/API_GetColumnStatisticsForTable.html).

**nota**  
Se você estiver usando as permissões do AWS Lake Formation para controlar o acesso à tabela, o perfil assumido pela tarefa de estatísticas da coluna exigirá acesso total à tabela para gerar estatísticas.

**Topics**
+ [Pré-requisitos para gerar estatísticas de colunas](iceberg-column-stats-prereqs.md)
+ [Gerar estatísticas de colunas para tabelas Iceberg](iceberg-generate-column-stats.md)
+ [Consulte também](#see-also-iceberg-stats)

# Pré-requisitos para gerar estatísticas de colunas
<a name="iceberg-column-stats-prereqs"></a>

Para gerar ou atualizar as estatísticas de colunas para tabelas Iceberg, a tarefa de geração de estatísticas assume um perfil do AWS Identity and Access Management (IAM) em seu nome. Com base nas permissões concedidas ao perfil, a tarefa de geração de estatísticas de colunas pode ler os dados do datastore do Amazon S3.

Ao configurar a tarefa de geração de estatísticas de colunas, o AWS Glue permite que você crie um perfil que inclua a política `AWSGlueServiceRole` gerenciada pela AWS, além da política em linha necessária para a fonte de dados especificada. 

Se você especificar um perfil existente para a geração de estatísticas de colunas, certifique-se de que ele inclua a política `AWSGlueServiceRole` ou equivalente (ou uma versão dessa política com um escopo reduzido), além das políticas em linha necessárias.

Para obter mais informações sobre as permissões do necessárias, consulte [Pré-requisitos para gerar estatísticas de colunas](column-stats-prereqs.md). 

# Gerar estatísticas de colunas para tabelas Iceberg
<a name="iceberg-generate-column-stats"></a>

Siga estas etapas para configurar um cronograma para gerar estatísticas no Catálogo de Dados usando o console do AWS Glue ou a AWS CLI, ou execute a operação **StartColumnStatisticsTaskRun**.

**Para gerar estatísticas de colunas**

1. Faça login no console do AWS Glue em [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/). 

1. Escolha **Tabelas** em Catálogo de Dados.

1. Escolha uma tabela Iceberg na lista. 

1. Escolha **Estatísticas de colunas**, **Gerar sob demanda** no menu **Ações**.

   Você também pode escolher o botão **Gerar estatísticas** na guia **Estatísticas de colunas** na seção inferior da página **Tabelas**.

1. Na página **Gerar estatísticas**, forneça os detalhes da geração de estatísticas. Siga as etapas de 6 a 11 na seção [Gerar estatísticas de colunas em uma programação](generate-column-stats.md) para configurar a geração de estatísticas para tabelas do Iceberg. 

   Você também pode optar por gerar estatísticas de colunas sob demanda seguindo as instruções na [Gerar estatísticas de colunas sob demanda](column-stats-on-demand.md).
**nota**  
A opção de amostragem não está disponível para tabelas Iceberg.

   O AWS Glue calcula o número de valores distintos de cada coluna da tabela Iceberg para um novo arquivo Puffin comprometido com o ID de snapshot especificado em sua localização no Amazon S3.

## Consulte também
<a name="see-also-iceberg-stats"></a>
+ [Visualizar estatísticas de colunas](view-column-stats.md)
+ [Visualizar as execuções de tarefas de estatísticas de colunas](view-stats-run.md)
+ [Interromper a execução da tarefa de estatísticas de coluna](stop-stats-run.md)
+ [Excluir estatísticas de colunas](delete-column-stats.md)