

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Lake Formation 中的蓝图和工作流
<a name="workflows-about"></a>

工作流封装了复杂的多作业提取、转换、加载 (ETL) 活动。工作流生成 AWS Glue 爬网程序、作业和触发器，以编排数据的加载和更新。Lake Formation 将工作流作为单个实体来执行和跟踪。您可以将工作流配置为按需或按计划运行。

**注意**  
Spark Parquet 写入器不支持在列名中使用特殊字符。这是写入器本身的技术限制，而不是配置问题。

您在 Lake Formation 中创建的工作流在 AWS Glue 控制台中显示为有向无环图 (DAG) 形式。每个 DAG 节点都是一个作业、爬网程序或触发器。要监控进度并进行故障排除，您可以跟踪工作流中每个节点的状态。

Lake Formation 工作流完成后，运行该工作流的用户将获得对该工作流创建的数据目录表的 Lake Formation `SELECT` 权限。

您也可以在 AWS Glue 中创建工作流。但是，由于 Lake Formation 允许您从蓝图创建工作流，因此在 Lake Formation 中创建工作流要简单得多，自动化程度也更高。Lake Formation 提供以下类型的蓝图：
+ **数据库快照** – 将所有表中的数据从 JDBC 源加载或重新加载到数据湖中。您可以根据排除模式从该源中排除某些数据。
+ **增量数据库** - 根据先前设置的书签，仅将新数据从 JDBC 源加载到数据湖中。您可以指定 JDBC 源数据库中要包含的各个表。对于每个表，您可以选择书签列和书签排序顺序，以跟踪之前加载的数据。首次对一组表运行增量数据库蓝图时，工作流会加载表中的所有数据，并为下一次增量数据库蓝图运行设置书签。因此，您可以使用增量数据库蓝图（而不是数据库快照蓝图）来加载所有数据，前提是将数据来源中的每个表指定为参数。
+ **日志文件** - 从日志文件来源（包括 AWS CloudTrail、Elastic Load Balancing 日志和应用程序负载均衡器日志）批量加载数据。

使用下表可帮助确定是使用数据库快照蓝图还是增量数据库蓝图。


| 在以下情况下使用数据库快照... | 在以下情况下使用增量数据库... | 
| --- | --- | 
|  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/lake-formation/latest/dg/workflows-about.html)  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/lake-formation/latest/dg/workflows-about.html)  | 

**注意**  
用户无法编辑 Lake Formation 创建的蓝图和工作流。