

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 在 AWS Glue 开启无服务器 ETL 入门
<a name="welcome"></a>

*Dheer Toprani 和 Adnan Alvee，Amazon Web Services (AWS)*

*2024 年 3 月*（[文档历史记录](doc-history.md)）

在 Amazon Web Services（AWS）云上，[AWS Glue](https://docs.aws.amazon.com/glue/) 是完全托管式无服务器环境，您可以在其中大规模提取、转换、加载（ETL）数据。借助 AWS Glue，您能够轻松而经济高效地对数据进行分类、清理和扩充，并在各种数据存储和数据流之间可靠地移动数据。

AWS Glue 是无服务器结构，因此您不必担心服务器的预置或管理。借助 AWS Glue，您仅需为实际使用的资源付费，您可根据需要纵向扩展。

AWS Glue 包括以下组件：
+ **AWS Glue ETL**：AWS Glue ETL 提供批处理和流式传输选项，用于从一个源提取、转换、加载数据到另一个源。
+ **AWS Glue Data Catalog** ：数据目录是一个中央存储库，用于组织所有数据资产的元数据。Data Catalog 提供了一个统一的界面，您可以在其中搜索、发现和共享数据分析服务中的数据资产。
+ **AWS Glue DataBrew** – DataBrew 是一款无代码数据准备工具，可用于直观地浏览、清理和转换数据。您可以从 250 多种预先构建的转换中进行选择，无需编写任何代码即可自动执行数据准备任务。

本指南从高层次角度对 AWS Glue 进行了介绍，包括它的工作原理以及如何开始使用它。它涵盖了您在创作 AWS Glue 作业之前需要了解的关键概念，例如自动化、监控以及与其他 AWS 服务的集成。[后续步骤](next-steps.md)部分将帮助您在 AWS Glue 快速编写代码。如果您已经有一些使用 AWS Glue 的经验，则[最佳实践](best-practices.md)部分将帮助您填补知识中的任何空白。在本指南结束时，您将掌握开始有效使用 AWS Glue 所需的知识和资源。