

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 最佳化 Iceberg 資料表的查詢效能
<a name="iceberg-column-statistics"></a>

Apache Iceberg 是適用於大型分析資料集的高效能開放資料表格式。 AWS Glue 支援計算和更新 Iceberg 資料表中每個資料欄的不同值 (NDV) 數目。這些統計資料可為使用大規模資料集的資料工程師和科學家提供更好的查詢最佳化、資料管理和效能效率。

 AWS Glue 估計 Iceberg 資料表每一欄中的不同值數目，並將其存放在與 Iceberg 資料表快照相關聯的 Amazon S3 上的 [Puffin ](https://iceberg.apache.org/puffin-spec/)檔案中。Puffin 是一種 Iceberg 檔案格式，旨在存放諸如索引、統計資料和草圖等中繼資料。將草圖存放在與快照關聯的 Puffin 檔案中，可確保 NDV 統計資料的交易一致性和新鮮度。

您可以將 設定為使用 AWS Glue 主控台或 執行資料欄統計資料產生任務 AWS CLI。當您啟動程序時， 會在背景 AWS Glue 啟動 Spark 任務，並更新 Data Catalog 中的 AWS Glue 資料表中繼資料。您可以使用 AWS Glue 主控台 AWS CLI 或 或呼叫 [GetColumnStatisticsForTable](https://docs.aws.amazon.com/glue/latest/webapi/API_GetColumnStatisticsForTable.html) API 操作來檢視資料欄統計資料。

**注意**  
如果您使用 AWS Lake Formation 許可來控制對資料表的存取，資料欄統計資料任務擔任的角色需要完整資料表存取權才能產生統計資料。

**Topics**
+ [產生資料欄統計資料的先決條件](iceberg-column-stats-prereqs.md)
+ [為 Iceberg 資料表產生資料欄統計資料](iceberg-generate-column-stats.md)
+ [另請參閱](#see-also-iceberg-stats)

# 產生資料欄統計資料的先決條件
<a name="iceberg-column-stats-prereqs"></a>

若要產生或更新 Iceberg 資料表的資料欄統計資料，統計資料產生任務會代表您擔任 AWS Identity and Access Management (IAM) 角色。根據授與角色的權限，資料欄統計資料產生任務可以從 Amazon S3 資料存放區讀取資料。

當您設定資料欄統計資料產生任務時， AWS Glue 可讓您建立包含`AWSGlueServiceRole` AWS 受管政策加上指定資料來源所需內嵌政策的角色。

如果指定現有角色來產生資料欄統計資料，請確定其包含 `AWSGlueServiceRole` 政策或同等政策 (或此政策的縮減版本)，以及必要的內嵌政策。

如需所需許可的詳細資訊，請參閱[產生資料欄統計資料的先決條件](column-stats-prereqs.md)。

# 為 Iceberg 資料表產生資料欄統計資料
<a name="iceberg-generate-column-stats"></a>

請依照下列步驟，使用 AWS Glue 主控台或 AWS CLI 或 或執行 **StartColumnStatisticsTaskRun** 操作，在 Data Catalog 中設定產生統計資料的排程。

**若要產生資料欄統計資料**

1. 在 https：//[https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/) 登入 AWS Glue 主控台。

1. 選擇 Data Catalog 下方的**資料表**。

1. 從清單中選擇 Iceberg 資料表。

1. 選擇**動作**功能表下方的**資料欄統計資料**、**隨需產生**。

   您也可選擇**資料表**頁面下半區段之**資料欄統計資料**索引標籤下的**產生統計資料**按鈕。

1. 在**產生統計資料**頁面中，提供統計資料產生詳細資訊。請遵循 [根據排程產生資料欄統計資料](generate-column-stats.md) 部分中的步驟 6-11，為 Iceberg 資料表設定統計資料產生排程。

   也可以遵循 [隨需產生資料欄統計資料](column-stats-on-demand.md) 中的說明，選擇隨需產生資料欄統計資料
**注意**  
取樣選項不適用於 Iceberg 資料表。

   AWS Glue 會將 Iceberg 資料表每個資料欄的不同值數目，計算為遞交至 Amazon S3 位置中指定快照 ID 的新 Puffin 檔案。

## 另請參閱
<a name="see-also-iceberg-stats"></a>
+ [檢視資料欄統計資料](view-column-stats.md)
+ [檢視資料欄統計資料任務執行](view-stats-run.md)
+ [停止資料欄統計資料任務執行](stop-stats-run.md)
+ [刪除資料欄統計資料](delete-column-stats.md)