Amazon EMR クラスターのプライマリノードに接続してクエリを実行する

テストデータのプロビジョニングとアクセス許可の設定

Glue Data Catalog とその Hive メタストアを使用して、Trino AWS で Amazon EMR をテストできます。これらの前提条件ステップでは、テストデータを設定していない場合の設定方法について説明します:

通信暗号化に使用する SSH キーをまだ作成していない場合は、作成します。
複数のファイルシステムから選択して、データとログファイルを保存できます。開始するには、Amazon S3 バケットを作成します。バケットに一意の名前を付けます。作成時に、作成した暗号化キーを指定します。

注記
同じリージョンを選択して、ストレージバケットと Amazon EMR クラスターの両方を作成します。
作成したバケットを選択します。[フォルダを作成] を選択し、フォルダに記憶に残る名前を付けます。フォルダを作成するときは、セキュリティ設定を選択します。親のセキュリティ設定を選択するか、セキュリティ設定をより専門にすることができます。
テストデータをフォルダに追加します。このチュートリアルでは、カンマ区切りレコードの .csv を使用することにより、このユースケースを完了するのに適しています。
Amazon S3 バケットにデータを追加したら、データをクエリするための抽象化レイヤーを提供するように AWS Glue でテーブルを設定します。

クエリを接続し実行する

以下に、Trino を実行しているクラスターに接続してクエリを実行する方法について説明します。これを行う前に、前の手順で説明した Hive メタストアコネクタを設定し、メタストアテーブルが表示されるようにしてください。

EC2 Instance Connect は安全な接続を提供するため、クラスターへの接続には EC2 Instance Connect を使用することをお勧めします。クラスターの概要から [SSH を使用してプライマリノードに接続] を選択します。接続では、セキュリティグループに、サブネット内のクライアントへのポート 22 経由の接続を許可するインバウンドルールが必要です。また、接続時にユーザー [hadoop] を使用する必要があります。
trino-cli を実行して Trino CLI を起動します。これにより、Trino でコマンドを実行し、データをクエリできます。
show catalogs; を実行します。Hive カタログが一覧表示されていることを確認します。これにより、データストアまたはシステム設定を含む利用可能なカタログのリストが提供されます。
使用可能なスキーマを表示するには、show schemas in hive; を実行します。ここから、use schema-name; を実行し、スキーマの名前を含めることができます。その後、show tables; を実行してテーブルを一覧表示できます。
スキーマ内のテーブルの名前を使用して、SELECT * FROM table-name などのコマンドを実行してテーブルをクエリします。USE ステートメントを実行して特定のスキーマに接続している場合は、schema.table などの 2 つの部分からなる表記を使用する必要はありません。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Trino での Amazon EMR クラスターを起動する

Amazon EMR での Trino の設定

Amazon EMR クラスターのプライマリノードに接続してクエリを実行する

テストデータのプロビジョニングとアクセス許可の設定

注記

クエリを接続し実行する