

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 連線至 Amazon EMR 叢集的主要節點並執行查詢
<a name="emr-trino-getting-started-connect"></a>

## 佈建測試資料並設定許可
<a name="emr-trino-getting-started-pre-data"></a>

您可以使用 Glue Data Catalog 及其 Hive 中繼存放區，透過 Trino AWS 測試 Amazon EMR。如果您尚未設定測試資料，這些先決條件步驟會說明如何設定測試資料：

1. 如果您尚未建立 SSH 金鑰以用於通訊加密。

1. 您可以選擇多個檔案系統來存放資料和日誌檔案。若要開始，請建立 Amazon S3 儲存貯體。為儲存貯體命名唯一名稱。建立加密金鑰時，請指定您建立的加密金鑰。
**注意**  
選擇相同的區域來建立儲存貯體和 Amazon EMR 叢集。

1. 選擇您建立的儲存貯體。選擇**建立資料夾**，並為資料夾命名為可記住的名稱。當您建立 資料夾時，請選擇安全組態。您可以選擇父系的安全設定，或讓安全設定更專業。

1. 將測試資料新增至您的資料夾。基於本教學的目的，使用逗號分隔記錄的 .csv 非常適合完成此使用案例。

1. 將資料新增至 Amazon S3 儲存貯體之後，請在 Glue AWS 中設定資料表，以提供用於查詢資料的抽象層。

## 連接並執行查詢
<a name="emr-trino-getting-started-run"></a>

以下說明如何在執行 Trino 的叢集上連接和執行查詢。執行此操作之前，請確定您已設定 Hive 中繼存放區連接器，如先前程序中所述，以便中繼存放區資料表可見。

1. 我們建議您使用 EC2 Instance Connect 連線到您的叢集，因為它提供安全的連線。從叢集摘要中選擇**使用 SSH 連線至主節點**。連線需要安全群組具有傳入規則，以允許透過連接埠 22 連線至子網路中的用戶端。您也必須在連線時使用 使用者 **hadoop**。

1. 執行 以啟動 Trino CLI`trino-cli`。這可讓您使用 Trino 執行命令和查詢資料。

1. 執行 `show catalogs;`。檢查 **hive** 目錄是否已列出。這提供可用的目錄清單，其中包含資料存放區或系統設定。

1. 若要查看可用的結構描述，請執行 `show schemas in hive;`。從這裡，您可以執行`use schema-name;`並包含結構描述的名稱。然後，您可以執行 `show tables;`來列出資料表。

1. 使用結構描述中的資料表名稱`SELECT * FROM table-name`，執行類似 的命令來查詢資料表。如果您已執行 `USE`陳述式以連接至特定結構描述，則不需要使用兩個部分的表示法，例如 *schema*.*table*。