

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 连接到 Amazon EMR 集群的主节点并运行查询
<a name="emr-trino-getting-started-connect"></a>

## 预置测试数据并配置权限
<a name="emr-trino-getting-started-pre-data"></a>

你可以使用 Glue Data Catalog 及其 Hive 元数据仓使用 AWS Trino 测试亚马逊 EMR。以下先决条件步骤介绍了如何设置测试数据（如果尚未设置）：

1. 创建一个用于通信加密的 SSH 密钥（如果尚未创建）。

1. 您可以从多个文件系统中进行选择来存储数据和日志文件。首先，创建一个 Amazon S3 存储桶。为存储桶指定一个唯一名称。创建时，请指定您创建的加密密钥。
**注意**  
选择同一区域来创建存储桶和 Amazon EMR 集群。

1. 选择您创建的存储桶。选择**创建文件夹**，并为文件夹指定一个易于记忆的名称。创建文件夹时，请选择一个安全配置。您可以选择父级的安全设置，也可以使安全设置更专业化。

1. 将测试数据添加到您的文件夹中。在本教程中，使用逗号分隔的 .csv 文件可以很好地完成此使用案例。

1. 将数据添加到 Amazon S3 存储桶后，在 Glue AWS 中配置一个表，以提供用于查询数据的抽象层。

## 连接并运行查询
<a name="emr-trino-getting-started-run"></a>

下面介绍了如何连接到运行 Trino 的集群并对其运行查询。在执行此操作之前，请确保已设置 Hive 元存储连接器（如上一过程所述），以便元存储表可见。

1. 我们建议使用 EC2 Instance Connect 连接到您的集群，因为它提供安全的连接。从集群摘要中选择**使用 SSH 连接到主节点**。连接要求安全组具有入站规则，允许通过端口 22 连接到子网中的客户端。在连接时，您还必须使用用户 **hadoop**。

1. 通过运行 `trino-cli` 来启动 Trino CLI。这使您能够使用 Trino 运行命令和查询数据。

1. 运行 `show catalogs;`。检查 **hive** 目录是否已列出。这将提供可用目录的列表，其中包含数据存储或系统设置。

1. 要查看可用的架构，请运行 `show schemas in hive;`。在这里，您可以运行 `use schema-name;` 命令并包括您的架构名称。然后，您可以运行 `show tables;` 命令来列出表。

1. 使用架构中的表名，运行类似 `SELECT * FROM table-name` 的命令来查询表。如果您已经运行该`USE`语句来连接到特定架构，则不必使用由两部分组成的表示法，例如*schema*。 *table*。