View a markdown version of this page

Amazon EMR クラスターのプライマリノードに接続してクエリを実行する - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon EMR クラスターのプライマリノードに接続してクエリを実行する

テストデータのプロビジョニングとアクセス許可の設定

Glue Data Catalog とその Hive メタストアを使用して、Trino AWS で Amazon EMR をテストできます。これらの前提条件ステップでは、テストデータを設定していない場合の設定方法について説明します:

  1. 通信暗号化に使用する SSH キーをまだ作成していない場合は、作成します。

  2. 複数のファイルシステムから選択して、データとログファイルを保存できます。開始するには、Amazon S3 バケットを作成します。バケットに一意の名前を付けます。作成時に、作成した暗号化キーを指定します。

    注記

    同じリージョンを選択して、ストレージバケットと Amazon EMR クラスターの両方を作成します。

  3. 作成したバケットを選択します。[フォルダを作成] を選択し、フォルダに記憶に残る名前を付けます。フォルダを作成するときは、セキュリティ設定を選択します。親のセキュリティ設定を選択するか、セキュリティ設定をより専門にすることができます。

  4. テストデータを フォルダに追加します。このチュートリアルでは、カンマ区切りレコードの .csv を使用することにより、このユースケースを完了するのに適しています。

  5. Amazon S3 バケットにデータを追加したら、データをクエリするための抽象化レイヤーを提供するように AWS Glue でテーブルを設定します。

クエリを接続し実行する

以下に、Trino を実行しているクラスターに接続してクエリを実行する方法について説明します。これを行う前に、前の手順で説明した Hive メタストアコネクタを設定し、メタストアテーブルが表示されるようにしてください。

  1. EC2 Instance Connect は安全な接続を提供するため、クラスターへの接続には EC2 Instance Connect を使用することをお勧めします。クラスターの概要から [SSH を使用してプライマリノードに接続] を選択します。接続では、セキュリティグループに、サブネット内のクライアントへのポート 22 経由の接続を許可するインバウンドルールが必要です。また、接続時にユーザー [hadoop] を使用する必要があります。

  2. trino-cli を実行して Trino CLI を起動します。これにより、Trino でコマンドを実行し、データをクエリできます。

  3. show catalogs; を実行します。Hive カタログが一覧表示されていることを確認します。これにより、データストアまたはシステム設定を含む利用可能なカタログのリストが提供されます。

  4. 使用可能なスキーマを表示するには、show schemas in hive; を実行します。ここから、use schema-name; を実行し、スキーマの名前を含めることができます。その後、show tables; を実行してテーブルを一覧表示できます。

  5. スキーマ内のテーブルの名前を使用して、SELECT * FROM table-name などのコマンドを実行してテーブルをクエリします。USE ステートメントを実行して特定のスキーマに接続している場合は、schema.table などの 2 つの部分からなる表記を使用する必要はありません。