

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# AWS Lake Formation 搭配 使用 AWS Glue
<a name="glue-features-lf"></a>

資料工程師和 DevOps 專業人員使用 AWS Glue 搭配擷取、轉換和載入 (ETL) 搭配 Apache Spark，在 Amazon S3 中的資料集上執行轉換，並將轉換的資料載入資料湖和資料倉儲，以進行分析、機器學習和應用程式開發。對於在 Amazon S3 中存取相同資料集的不同團隊，必須根據其角色授予和限制許可。

AWS Lake Formation 以 為基礎 AWS Glue，服務會以下列方式互動：
+ Lake Formation 和AWS Glue共用相同的資料目錄。
+ 下列 Lake Formation 主控台功能會叫用AWS Glue主控台：
  + 任務 – 如需詳細資訊，請參閱《 *AWS Glue 開發人員指南*》中的[新增任務](https://docs.aws.amazon.com/glue/latest/dg/add-job.html)。
  + 爬蟲程式 – 如需詳細資訊，請參閱《 *AWS Glue 開發人員指南*》中的[使用爬蟲程式編目資料表](https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html)。
+ 使用 Lake Formation 藍圖時產生的工作流程是AWS Glue工作流程。您可以在 Lake Formation 主控台和AWS Glue主控台中檢視和管理這些工作流程。
+ Lake Formation 提供機器學習轉換，並建置在 AWS Glue API 操作上。您可以在 AWS Glue主控台上建立和管理機器學習轉換。如需詳細資訊，請參閱《 *AWS Glue 開發人員指南*》中的[Machine Learning轉換](https://docs.aws.amazon.com/glue/latest/dg/machine-learning.html)。

 可以使用 Lake Formation 精細存取控制來管理現有的 Data Catalog 資源和 Amazon S3 資料位置。

**注意**  
AWS Glue 5.0 或更高版本支援對由 S3 支援的 Iceberg 和 Hive 資料表進行精細存取控制。此功能可讓您設定 Apache Spark 任務中讀取查詢 AWS Glue 的資料表、資料列、資料欄和儲存格層級存取控制。

## 支援交易資料表類型
<a name="tables.glue"></a>

套用 Lake Formation 許可可讓您保護 Amazon S3 型資料湖中的交易資料。下表列出 AWS Glue 和 Lake Formation 許可中支援的交易資料表格式。Lake Formation 會強制執行這些 AWS Glue 操作許可。


**支援的資料表格式**  

| 資料表格式 | 描述和允許的操作 | 中支援的 Lake Formation 許可 AWS Glue | 
| --- | --- | --- | 
|  Apache Hudi  |  用於簡化增量資料處理和資料管道開發的開放資料表格式。 如需範例，請參閱[在 中使用 Hudi 架構 AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-format-hudi.html)。  |  資料表層級許可可用於 Hudi 資料表。 如需詳細資訊，請參閱[限制](https://docs.aws.amazon.com/glue/latest/dg/security-lf-enable.html)。  | 
|  Apache Iceberg  |  以資料表形式管理大型檔案集合的開放資料表格式。 如需範例，請參閱[在 中使用 Iceberg 架構 AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-format-iceberg.html)。  |  AWS Glue 5.0 版和更新版本可讓您為 Iceberg 資料表 AWS Glue 的 Apache Spark 任務中的讀取查詢設定資料表、資料列、資料欄和儲存格層級存取控制。 如需詳細資訊，請參閱[限制](https://docs.aws.amazon.com/glue/latest/dg/security-lf-enable.html)。  | 
|  Linux Foundation Delta Lake  |  Delta Lake 是一項開放原始碼專案，可協助實作常見於 Amazon S3 或 Hadoop 分散式檔案系統 (HDFS) 的現代資料湖架構。 如需範例，請參閱[在 中使用 Delta Lake 架構 AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-format-delta-lake.html)。  |  資料表層級許可可用於 Delta Lake 資料表。 如需詳細資訊，請參閱[限制](https://docs.aws.amazon.com/glue/latest/dg/security-lf-enable-considerations.html)。  | 

## 其他資源
<a name="add-resources-glue"></a>

**部落格文章和儲存庫**
+ [ 使用 AWS Glue 連接器透過 ACID 交易讀取和寫入 Apache Iceberg 資料表，並執行時間歷程](https://aws.amazon.com/blogs/big-data/use-the-aws-glue-connector-to-read-and-write-apache-iceberg-tables-with-acid-transactions-and-perform-time-travel/)
+  [使用 AWS Glue 自訂連接器寫入 Apache Hudi 資料表](https://aws.amazon.com/blogs/big-data/writing-to-apache-hudi-tables-using-aws-glue-connector/)
+  AWS [Cloudformation 範本和 pyspark 程式碼範例](https://github.com/aws-samples/aws-glue-streaming-etl-with-apache-hudi)的儲存庫，用於使用 AWS Glue、Apache Hudi 和 Amazon S3 分析串流資料。