

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Conceitos básicos do Trino
<a name="emr-trino-getting-started"></a>

Os procedimentos nesta seção mostram como configurar um cluster do Amazon EMR para consultar as fontes de dados do metastore usando o Trino. Esses metastores, que incluem o AWS Glue Data Catalog, armazenam metadados e objetos de banco de dados e gerenciam permissões de acesso. Os procedimentos abrangem pré-requisitos, definições de configurações recomendadas, criação de conectores e execução de consultas em tabelas de metastore.

**Topics**
+ [

# Conclua as etapas de pré-requisitos para usar o Amazon EMR com o Trino
](emr-trino-getting-started-pre.md)
+ [

# Iniciar um cluster do Amazon EMR com o Trino
](emr-trino-getting-started-launch.md)
+ [

# Conectar-se ao nó primário do cluster do Amazon EMR e executar consultas
](emr-trino-getting-started-connect.md)

# Conclua as etapas de pré-requisitos para usar o Amazon EMR com o Trino
<a name="emr-trino-getting-started-pre"></a>

Se você não usou ou não criou um cluster do Amazon EMR AWS, conclua essas etapas de pré-requisito antes de criar um cluster do Amazon EMR com o Trino.

## AWS configuração do ambiente
<a name="emr-trino-getting-started-account"></a>

Conclua estas etapas para configurar sua AWS conta, caso ainda não tenha feito isso:

1. Crie uma AWS conta, caso ainda não tenha uma. Para obter mais informações, consulte [Criar uma AWSAWS conta](https://docs.aws.amazon.com/accounts/latest/reference/manage-acct-creating.html) *no Guia de referência de gerenciamento de contas*.

1. Faça login na sua conta como usuário administrativo.

1. Crie um grupo e atribua usuários a ele.

1. Crie um par de chaves do Amazon EC2, que você pode usar mais tarde para proteger a comunicação entre recursos com SSH. Essa etapa será necessária se você planeja se conectar ao nó primário para realizar tarefas. Para obter mais informações, consulte [Conecte-se ao nó primário do cluster do Amazon EMR usando SSH](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-connect-master-node-ssh.html).

# Iniciar um cluster do Amazon EMR com o Trino
<a name="emr-trino-getting-started-launch"></a>

A seguir, são descritas as opções de configuração corretas ao criar um cluster com o Trino.

## Usar um conector do Hive para disponibilizar dados para consulta
<a name="emr-trino-getting-started-connect-hive"></a>

Você pode configurar um conector do Trino para um metastore do Hive com o objetivo de consultar dados do metastore do seu cluster. Um metastore é uma camada de abstração que disponibiliza conteúdo ou dados baseados em arquivos como tabelas, facilitando a consulta. É necessário configurar um conector no Amazon EMR para disponibilizar as tabelas de metastore do Hive para o cluster. O procedimento a seguir mostra como fazer isso:

1. Escolha AWS Glue no console e crie uma tabela com base em seus dados de origem no Amazon S3. Uma tabela no AWS Glue Data Catalog é a definição de metadados para os dados. Nesse contexto, faz sentido gerar a tabela manualmente, criando colunas conforme desejar, a partir dos dados de origem. Para obter mais informações sobre a criação de tabelas no AWS Glue a partir de dados semiestruturados no Amazon S3, [consulte Criação de tabelas usando o console no Guia do](https://docs.aws.amazon.com/glue/latest/dg/tables-described.html#console-tables) usuário do *AWS Glue*.

1. Defina sua configuração como parte da criação do cluster. Selecione a guia **Configuração**. Configurações são especificações opcionais para o seu cluster. Ao inserir uma configuração, adicione JSON como no exemplo a seguir, que instrui Trino a usar o AWS Glue Data Catalog como seu metastore externo do Hive para metadados de tabelas:

   ```
   {
       "classification": "trino-connector-hive",
       "properties": {
           "hive.metastore": "glue"
       }
   }
   ```

   Como alternativa, você pode aplicar configurações na seção **Configurações de software** ao criar um cluster.

   Além disso, é possível configurar outros tipos de conectores, como para conexão com o Apache Iceberg. Para saber mais, consulte [Usar um cluster do Iceberg com Trino](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-iceberg-use-trino-cluster.html), no *Guia de lançamento do Amazon EMR*. A configuração de definições adicionais é opcional.

Para continuar com as etapas iniciais, consulte [Conectar-se ao nó primário do cluster do Amazon EMR e executar consultas](emr-trino-getting-started-connect.md).

## Criar um cluster com o Trino
<a name="emr-trino-getting-started-launch-cluster-settings"></a>

A seguir, são descritas as opções de configuração corretas ao criar um cluster que você deseja usar com o Trino.

**Importante**  
Antes de criar seu cluster, conclua a configuração do AWS Glue Data Catalog como seu metastore do Hive, o que recomendamos para começar. Para obter mais informações, consulte [Usar um conector do Hive para disponibilizar dados para consulta](#emr-trino-getting-started-connect-hive).

1. No AWS console, selecione Amazon EMR nos serviços. Ao escolhe o Amazon EMR, se você tiver clusters existentes, seus clusters do **EMR no EC2** serão listados.

1. Selecione **Criar cluster**. A partir daqui, é iniciado o processo de criação de um cluster.

1. Dê um nome para o seu cluster e escolha uma **versão do Amazon EMR**. Para o tutorial, você pode escolher a versão mais atual.

1. Escolha o pacote **Trino**, que tem a aplicação Trino pré-selecionada. Pacotes são configurados para maior conveniência quando você sabe antecipadamente a finalidade do cluster. Caso contrário, basta marcar a caixa de seleção do Trino.

1. Em **Configuração do cluster**, escolha **Grupos de instâncias uniformes**. Vá em frente e remova os grupos de instâncias adicionais.

1. Escolha um **Tipo de instância**. Em geral, recomendamos escolher um tipo de instância com pelo menos 16 GiB de memória. Além disso, para **Ajuste de escala e provisionamento do cluster**, escolha **Definir tamanho do cluster manualmente**.

1. Neste ponto, defina a configuração da metastore do Hive para apontar para Glue. AWS Isso está detalhado na seção [Usar um conector do Hive para disponibilizar dados para consulta](#emr-trino-getting-started-connect-hive). Conclua essa etapa antes de criar o cluster.

1. Selecione **Criar cluster**. Ela pode demorar alguns minutos.

   As etapas aqui descritas não abrangem todas as etapas de configuração em detalhes. Informações adicionais sobre a configuração de um cluster estão disponíveis em [Planejar, configurar e iniciar clusters do Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan.html).

**nota**  
Não selecione o Presto e o Trino para uso no mesmo cluster. Não há suporte para a execução simultânea. Também é recomendável que, se você executar o Trino, não execute nenhuma outra aplicação no cluster, como o Spark.

# Conectar-se ao nó primário do cluster do Amazon EMR e executar consultas
<a name="emr-trino-getting-started-connect"></a>

## Provisionar dados de teste e configurar permissões
<a name="emr-trino-getting-started-pre-data"></a>

Você pode testar o Amazon EMR com o Trino usando o AWS Glue Data Catalog e seu metastore Hive. Essas etapas de pré-requisitos descrevem como configurar dados de teste, caso você ainda não tenha feito isso:

1. Crie uma chave SSH para usar na criptografia de comunicação, caso ainda não tenha criado uma.

1. É possível escolher entre vários sistemas de arquivos para armazenar dados e arquivos de log. Para começar, crie um bucket do Amazon S3. Dê um nome exclusivo para o bucket. Ao criá-lo, especifique a chave de criptografia que você criou.
**nota**  
Escolha a mesma região para criar seu bucket de armazenamento e o cluster do Amazon EMR.

1. Selecione o bucket que você criou. Escolha **Criar pasta** e atribua a ela um nome fácil de lembrar. Ao criar a pasta, escolha uma configuração de segurança. É possível escolher as mesmas configurações de segurança da pasta pai ou torná-las mais especializadas.

1. Adicione dados de teste à sua pasta. Para este tutorial, usar um .csv de registros separados por vírgula funciona bem para concluir esse caso de uso.

1. Depois de adicionar dados a um bucket do Amazon S3, configure uma tabela no AWS Glue para fornecer uma camada de abstração para consultar os dados.

## Conectar e executar consultas
<a name="emr-trino-getting-started-run"></a>

A seguir, descrevemos estabelecer a conexão e executar consultas em um cluster executando o Trino. Antes disso, certifique-se de configurar o conector de metastore do Hive, descrito no procedimento anterior, para que as tabelas do metastore fiquem visíveis.

1. Recomendamos usar o EC2 Instance Connect para estabelecer a conexão com o cluster, pois ele fornece uma conexão segura. Escolha **Conectar-se ao nó primário usando SSH** no resumo do cluster. A conexão exige que o grupo de segurança tenha uma regra de entrada para permitir conexões pela porta 22 com clientes na sub-rede. Você também deve usar o usuário **hadoop** ao se conectar.

1. Inicie a CLI do Trino executando `trino-cli`. Isso permite executar comandos e consultar dados com o Trino.

1. Executar `show catalogs;`. Verifique se o catálogo **hive** está listado. Ele fornece uma lista de catálogos disponíveis, que contêm datastores ou configurações do sistema.

1. Para visualizar os esquemas disponíveis, execute `show schemas in hive;`. A partir daqui, é possível executar `use schema-name;` e incluir o nome do esquema. Em seguida, execute `show tables;` para listar tabelas.

1. Consulte uma tabela executando um comando como `SELECT * FROM table-name`, usando o nome de uma tabela no seu esquema. Se você já executou a `USE` instrução para se conectar a um esquema específico, não precisa usar a notação de duas partes, como. *schema* *table*.