

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Ottimizzazione delle prestazioni delle query per le tabelle Iceberg
<a name="iceberg-column-statistics"></a>

Apache Iceberg è un formato di tabella aperta ad alte prestazioni per enormi set di dati analitici. AWS Glue supporta il calcolo e l'aggiornamento del numero di valori distinti (NDVs) per ogni colonna nelle tabelle Iceberg. Queste statistiche possono facilitare una migliore ottimizzazione delle query, la gestione dei dati e l'efficienza delle prestazioni per gli ingegneri e gli scienziati che lavorano con set di dati su larga scala.

 AWS Glue stima il numero di valori distinti in ogni colonna della tabella Iceberg e li memorizza in file [Puffin](https://iceberg.apache.org/puffin-spec/) su Amazon S3 associati agli snapshot delle tabelle Iceberg. Puffin è un formato di file Iceberg progettato per archiviare metadati come indici, statistiche e schizzi. L'archiviazione degli schizzi in file Puffin collegati alle istantanee garantisce la coerenza transazionale e l'aggiornamento delle statistiche NDV.

Puoi configurare l'esecuzione di un'attività di generazione di statistiche sulle colonne utilizzando la console o. AWS Glue AWS CLI Quando avvii il processo, AWS Glue avvia un job Spark in background e aggiorna i metadati della AWS Glue tabella nel Data Catalog. Puoi visualizzare le statistiche delle colonne utilizzando la AWS Glue console AWS CLI o chiamando l'[GetColumnStatisticsForTable](https://docs.aws.amazon.com/glue/latest/webapi/API_GetColumnStatisticsForTable.html)operazione API.

**Nota**  
Se utilizzi AWS Lake Formation le autorizzazioni per controllare l'accesso alla tabella, il ruolo assunto dall'attività di statistica delle colonne richiede l'accesso completo alla tabella per generare statistiche.

**Topics**
+ [Prerequisiti per la generazione delle statistiche delle colonne](iceberg-column-stats-prereqs.md)
+ [Generazione delle statistiche delle colonne delle tabelle Iceberg](iceberg-generate-column-stats.md)
+ [Consulta anche](#see-also-iceberg-stats)

# Prerequisiti per la generazione delle statistiche delle colonne
<a name="iceberg-column-stats-prereqs"></a>

Per generare o aggiornare le statistiche delle colonne per le tabelle Iceberg, l'attività di generazione delle statistiche assume un ruolo AWS Identity and Access Management (IAM) per conto dell'utente. In base alle autorizzazioni concesse al ruolo, l'attività di generazione delle statistiche delle colonne può leggere i dati dal datastore di Amazon S3.

Quando si configura l'attività di generazione delle statistiche sulle colonne, AWS Glue consente di creare un ruolo che include la politica `AWSGlueServiceRole` AWS gestita più la politica in linea richiesta per l'origine dati specificata. 

Se si specifica un ruolo esistente per la generazione di statistiche delle colonne, bisogna assicurarsi che includa la policy `AWSGlueServiceRole` o equivalente (o una versione ridotta di questa policy), oltre alle policy inline richieste.

Per ulteriori informazioni sulle autorizzazioni richieste, consulta [Prerequisiti per la generazione delle statistiche delle colonne](column-stats-prereqs.md). 

# Generazione delle statistiche delle colonne delle tabelle Iceberg
<a name="iceberg-generate-column-stats"></a>

Segui questi passaggi per configurare una pianificazione per la generazione di statistiche nel Data Catalog utilizzando la AWS Glue console AWS CLI o o esegui l'**StartColumnStatisticsTaskRun**operazione.

**Per generare statistiche sulle colonne**

1. Accedi alla AWS Glue console all'indirizzo [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/). 

1. Scegli **Tabelle** nel Catalogo dati.

1. Scegli una tabella Iceberg dall'elenco. 

1. Scegli **Statistiche colonna**, **Genera su richiesta**, nel menu **Azioni**.

   Puoi anche scegliere il pulsante **Genera statistiche** nella scheda **Statistiche di colonna** nella sezione inferiore della pagina **Tabelle**.

1. Nella pagina **Genera statistiche**, fornisci i dettagli sulla generazione delle statistiche. Segui i passaggi 6-11 della sezione [Generazione di statistiche a colonne in base a una pianificazione](generate-column-stats.md) per configurare una pianificazione per la generazione di statistiche per le tabelle Iceberg. 

   Puoi anche scegliere di generare statistiche sulle colonne su richiesta seguendo le istruzioni contenute in [Generazione di statistiche delle colonne on demand](column-stats-on-demand.md)
**Nota**  
L'opzione di campionamento non è disponibile per le tabelle Iceberg.

   AWS Glue calcola il numero di valori distinti per ogni colonna della tabella Iceberg in un nuovo file Puffin salvato nell'ID snapshot specificato nella tua posizione Amazon S3.

## Consulta anche
<a name="see-also-iceberg-stats"></a>
+ [Visualizzazione delle statistiche delle colonne](view-column-stats.md)
+ [Visualizzazione dell'attività relativa alle statistiche delle colonne](view-stats-run.md)
+ [Interruzione dell'esecuzione relativa alle statistiche delle colonne](stop-stats-run.md)
+ [Eliminazione delle statistiche delle colonne](delete-column-stats.md)