

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# AWS Glue Data Catalog
<a name="aws-glue-data-catalog"></a>

[AWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/catalog-and-crawler.html) 是集中式中繼資料儲存庫，適用於跨各種資料來源的所有資料資產。它提供統一的界面來存放和查詢有關資料格式、結構描述和來源的資訊。當 AWS Glue ETL 任務執行時，它會使用此目錄來了解資料的相關資訊，並確保正確轉換資料。

由下列元件[AWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/catalog-and-crawler.html)組成：
+ 資料庫和資料表
+ 爬蟲程式和分類器
+ 連線
+ 結構描述登錄檔

## AWS Glue 資料庫和資料表
<a name="databases-tables"></a>

[AWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/catalog-and-crawler.html) 會組織成[資料庫和資料表](https://docs.aws.amazon.com/glue/latest/dg/tables-described.html)，以提供用於存放和管理中繼資料的邏輯結構。此結構使用 [AWS Identity and Access Management (IAM) 政策](https://docs.aws.amazon.com/glue/latest/dg/security-iam.html)，支援資料表或資料庫層級的精確資料存取控制。

 AWS Glue 資料庫可以包含許多資料表，而且每個資料表都必須與單一資料庫相關聯。這些資料表包含對實際資料的參考，這些資料可以存放在 AWS Glue 支援 的任何各種資料來源中。 AWS Glue 資料表也會存放重要的中繼資料，例如資料欄名稱、資料類型和分割區索引鍵。

在 中建立資料表有幾種不同的方法 AWS Glue：
+ AWS Glue 爬蟲程式
+ AWS Glue ETL 任務
+ AWS Glue 主控台
+ `CreateTable` [AWS Glue API](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api.html) 中的 操作
+ AWS CloudFormation 範本
+ AWS Cloud Development Kit (AWS CDK)
+ 遷移的 Apache Hive 中繼存放區

## AWS Glue 爬蟲程式和分類器
<a name="crawlers-classifiers"></a>

 AWS Glue 爬蟲程式會自動從資料存放區探索和擷取中繼資料，然後 AWS Glue Data Catalog 相應地更新 。爬蟲程式會連線至資料存放區，以推斷資料的結構描述。然後，它會使用其探索到的結構描述資訊，在 Data Catalog 中建立或更新資料表。爬蟲程式可以抓取以資料為基礎和以表格為基礎的資料存放區。若要進一步了解支援的資料存放區，請參閱[我可以抓取哪些資料存放區？](https://docs.aws.amazon.com/glue/latest/dg/crawler-data-stores.html)

爬蟲程式使用[分類器](https://docs.aws.amazon.com/glue/latest/dg/add-classifier.html#classifier-when-used)來準確辨識資料的格式，並判斷應如何處理資料。根據預設，爬蟲程式會使用 提供的一組常見[內建分類器](https://docs.aws.amazon.com/glue/latest/dg/add-classifier.html#classifier-built-in) AWS Glue，但您也可以[撰寫自訂分類器](https://docs.aws.amazon.com/glue/latest/dg/custom-classifier.html)來處理特定使用案例。

## AWS Glue 連線
<a name="connections"></a>

您可以使用 AWS Glue [連線](https://docs.aws.amazon.com/glue/latest/dg/console-connections.html)來定義連線參數， AWS Glue 讓 連線至各種資料來源。新增連線可集中並簡化連線到這些來源所需的組態。

[定義連線](https://docs.aws.amazon.com/glue/latest/dg/glue-connections.html)時，您可以指定連線類型、連線端點和任何必要的登入資料。定義連線後，多個 AWS Glue 任務和爬蟲程式可以重複使用該連線。搭配 使用連線 AWS Glue 可減少重複輸入相同連線資訊的需求，例如登入憑證或虛擬私有雲端 (VPC) IDs。

## AWS Glue 結構描述登錄檔
<a name="schema-registry"></a>

[AWS Glue 結構描述登錄](https://docs.aws.amazon.com/glue/latest/dg/schema-registry-gs.html)檔提供集中位置，用於管理和強制執行資料串流結構描述。它可讓資料生產者和消費者等不同的系統共用序列化和還原序列化的結構描述。共用結構描述有助於這些系統有效地進行通訊，並避免在轉換期間發生錯誤。

結構描述登錄檔可確保下游資料取用者可以處理上游所做的變更，因為他們知道預期的結構描述。它支援結構描述演變，因此結構描述可以隨著時間變更，同時保持與舊版結構描述的相容性。

結構描述登錄檔與許多 AWS 服務整合，包括 Amazon Kinesis Data Streams、Firehose 和 Amazon Managed Streaming for Apache Kafka。如需使用案例和整合的範例，請參閱[與 AWS Glue 結構描述登錄檔整合](https://docs.aws.amazon.com/glue/latest/dg/schema-registry-integrations.html#schema-registry-integrations-amazon-msk)。