

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# AWS Lake Formation 与一起使用 AWS Glue
<a name="glue-features-lf"></a>

数据工程师和 DevOps 专业人员使用 AWS Glue 带有 Apache Spark 的提取、转换和加载 (ETL)，在 Amazon S3 中对其数据集进行转换，并将转换后的数据加载到数据湖和数据仓库中，用于分析、机器学习和应用程序开发。由于会有不同的团队访问 Amazon S3 中的相同数据集，因此必须根据其角色授予和限制权限。

AWS Lake Formation 是在此基础上构建的 AWS Glue，并且服务通过以下方式进行交互：
+ Lake Formation 和 AWS Glue 共享同一数据目录。
+ 以下 Lake Formation 控制台功能可以调用 AWS Glue 控制台：
  + 作业 – 有关更多信息，请参阅《AWS Glue 开发人员指南》中的[添加作业](https://docs.aws.amazon.com/glue/latest/dg/add-job.html)。**
  + 爬网程序 – 有关更多信息，请参阅《AWS Glue 开发人员指南》中的[使用爬网程序编录数据](https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html)**。
+ 使用 Lake Formation 蓝图时生成的工作流是 AWS Glue 工作流。您可以在 Lake Formation 控制台和 AWS Glue 控制台中查看和管理这些工作流。
+ 机器学习转换功能在 Lake Formation 中提供，并且是针对 AWS Glue API 操作构建的。您可以在 AWS Glue 控制台上创建和管理机器学习转换功能。有关更多信息，请参阅《AWS Glue 开发人员指南》中的[机器学习转换](https://docs.aws.amazon.com/glue/latest/dg/machine-learning.html)**。

 您可以使用 Lake Formation 细粒度访问控制来管理现有的数据目录资源和 Amazon S3 数据位置。

**注意**  
AWS Glue 5.0 或更高版本支持对 S3 支持的 Iceberg 和 Hive 表进行精细的访问控制。此功能允许您为 Apache Spark 作业中的读取查询配置表、行、列和单元格级别 AWS Glue 的访问控制。

## 支持事务表类型
<a name="tables.glue"></a>

通过应用 Lake Formation 权限，您可以保护基于 Amazon S3 的数据湖中的事务数据。下表列出了中支持的交易表格式 AWS Glue 和 Lake Formation 权限。Lake Formation 强制执行这些 AWS Glue 操作权限。


**支持的表格格式**  

| 表格格式 | 描述和允许的操作 | 中支持 Lake Formation 权限 AWS Glue | 
| --- | --- | --- | 
| Apache Hudi | 一种开放表格格式，用于简化增量数据处理和数据管线开发。<br />有关示例，请参阅[中的 “使用 Hudi 框架”。 AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-format-hudi.html) | 表级权限可用于 Hudi 表。<br />有关更多信息，请参阅[限制](https://docs.aws.amazon.com/glue/latest/dg/security-lf-enable.html)。 | 
| Apache Iceberg | 一种开放表格格式，可将大量文件作为表进行管理。<br />有关示例，请参阅[中的使用 Iceberg 框架。 AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-format-iceberg.html) | AWS Glue 5.0 及更高版本允许您为 Iceberg 表的 Apache Spark 作业中的读取查询配置表、行、列和单元级别的访问控制。 AWS Glue <br />有关更多信息，请参阅[限制](https://docs.aws.amazon.com/glue/latest/dg/security-lf-enable.html)。 | 
| Linux Foundation Delta Lake | Delta Lake 是一个开源项目，可帮助实施通常在 Amazon S3 或 Hadoop Distributed File System (HDFS) 上构建的现代数据湖架构。<br />有关示例，请参阅[中的使用 Delta Lake 框架 AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-format-delta-lake.html)。 | 表级权限可用于 Delta Lake 表。<br />有关更多信息，请参阅[限制](https://docs.aws.amazon.com/glue/latest/dg/security-lf-enable-considerations.html)。 | 

## 其他资源
<a name="add-resources-glue"></a>

**博客文章和存储库**
+ [使用 AWS Glue 连接器读写带有 ACID 事务的 Apache Iceberg 表，并执行时空旅行](https://aws.amazon.com/blogs/big-data/use-the-aws-glue-connector-to-read-and-write-apache-iceberg-tables-with-acid-transactions-and-perform-time-travel/)
+  [使用 AWS Glue 自定义连接器写入 Apache Hudi 表](https://aws.amazon.com/blogs/big-data/writing-to-apache-hudi-tables-using-aws-glue-connector/)
+  AWS [Cloudformation 模板和 pyspark 代码示例](https://github.com/aws-samples/aws-glue-streaming-etl-with-apache-hudi)存储库，用于使用 AWS Glue Apache Hudi 和 Amazon S3 分析流数据。