

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# AWS Glue Data Catalog
<a name="aws-glue-data-catalog"></a>

[「AWS Glue Data Catalog」 ](https://docs.aws.amazon.com/glue/latest/dg/catalog-and-crawler.html)は、さまざまなデータソースのすべてのデータ資産を一元管理するメタデータリポジトリです。データフォーマット、スキーマ、ソースに関する情報を保存してクエリするための統合インターフェースを提供します。AWS Glue ETLジョブが実行されると、このカタログを使用してデータに関する情報を理解し、正しく変換されるようにします。

[AWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/catalog-and-crawler.html) は次のコンポーネントで構成されています。
+ データベースとテーブル
+ クローラーおよび分類子
+ Connections
+ スキーマレジストリ

## AWS Glue データベースとテーブル
<a name="databases-tables"></a>

[AWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/catalog-and-crawler.html) は[データベースとテーブル](https://docs.aws.amazon.com/glue/latest/dg/tables-described.html)で構成され、メタデータを保存および管理するための論理構造を提供しています。この構造により、[「AWS Identity and Access Management (IAM) ポリシー」 ](https://docs.aws.amazon.com/glue/latest/dg/security-iam.html)を使用して、テーブルレベルまたはデータベースレベルでの正確なデータアクセス制御が可能になります。

AWS Glue データベースには多数のテーブルを含めることができ、各テーブルは 1 つのデータベースに関連付ける必要があります。これらのテーブルには実際のデータへの参照が含まれており、AWS Glue サポートされているさまざまなデータソースのいずれかに保存できます。AWS Glue テーブルには、列名、データ型、パーティションキーなどの重要なメタデータも格納されます。

AWS Glue にテーブルを作成する方法はいくつかあります。
+ AWS Glue クローラー
+ AWS Glue ETL ジョブ
+ AWS Glue コンソール
+ [「AWS Glue API](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api.html)」 での `CreateTable` 操作
+ AWS CloudFormation テンプレート
+ AWS Cloud Development Kit (AWS CDK)
+ 移行された Apache Hive メタストア

## AWS Glue クローラおよび分類子
<a name="crawlers-classifiers"></a>

AWS Glue クローラーはデータストアからメタデータを自動的に検出して抽出し、それに応じて AWS Glue Data Catalog データを更新します。クローラーがデータストアに接続して、データのスキーマを推測します。次に、検出したスキーマ情報を使用してデータカタログ内のテーブルを作成または更新します。クローラーは、ファイルベース、およびテーブルベースのデータストアの両方をクロールできます。サポートされているデータストアの詳細については、[「クロール可能なデータストア」 ](https://docs.aws.amazon.com/glue/latest/dg/crawler-data-stores.html)を参照してください。

クローラーは[「分類器」 ](https://docs.aws.amazon.com/glue/latest/dg/add-classifier.html#classifier-when-used)を使用してデータの形式を正確に認識し、処理方法を決定します。デフォルトでは、クローラーは AWS Glue が提供する一般的な「[組み込み分類子 ](https://docs.aws.amazon.com/glue/latest/dg/add-classifier.html#classifier-built-in)」のセットを使用しますが、特定のユースケースを処理する[カスタム分類子を作成する](https://docs.aws.amazon.com/glue/latest/dg/custom-classifier.html)こともできます。

## AWS Glue 接続
<a name="connections"></a>

AWS Glue [「接続」 ](https://docs.aws.amazon.com/glue/latest/dg/console-connections.html)を使用して、AWS Glue がさまざまなデータソースに接続できるようにする接続パラメータを定義できます。接続を追加すると、これらのソースへの接続に必要な構成が一元化され、簡素化されます。

[「接続を定義する」 ](https://docs.aws.amazon.com/glue/latest/dg/glue-connections.html)ときは、接続タイプ、接続エンドポイント、および必要な認証情報を指定します。接続を定義すると、複数の AWS Glue ジョブやクローラーで再利用できます。AWS Glue による接続を使用することで、ログイン認証情報や仮想プライベートクラウド (VPC) IDなど、同じ接続情報を繰り返し入力する必要性を減らすことができます。

## AWS Glue「 スキーマレジストリ」
<a name="schema-registry"></a>

[「AWS Glue スキーマレジストリ」 ](https://docs.aws.amazon.com/glue/latest/dg/schema-registry-gs.html)は、データストリームスキーマを一元的に管理および実施するための場所です。これにより、データプロデューサーと非シリアル化用の異なるシステムで、シリアル化と非シリアル化用のスキーマを共有できます。スキーマを共有することで、これらのシステムは効果的にコミュニケーションをとり、変換中のエラーを回避することができます。

スキーマ・レジストリは、下流のデータ・コンシューマーが上流で行われた変更を確実に処理できるようにします。スキーマの進化をサポートしているため、以前のバージョンのスキーマとの互換性を維持したまま、スキーマを時間の経過とともに変更することができます。

スキーマレジストリは、Amazon Kinesis Data Streams、Firehose、Apache Kafka 用 Amazon マネージドストリーミングなど、多くの AWS サービスと統合されています。使用例と統合については、「[AWS Glue スキーマレジストリとの統合](https://docs.aws.amazon.com/glue/latest/dg/schema-registry-integrations.html#schema-registry-integrations-amazon-msk)」を参照のこと。