View a markdown version of this page

Conectar-se ao nó primário do cluster do Amazon EMR e executar consultas - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Conectar-se ao nó primário do cluster do Amazon EMR e executar consultas

Provisionar dados de teste e configurar permissões

Você pode testar o Amazon EMR com o Trino usando o AWS Glue Data Catalog e seu metastore Hive. Essas etapas de pré-requisitos descrevem como configurar dados de teste, caso você ainda não tenha feito isso:

  1. Crie uma chave SSH para usar na criptografia de comunicação, caso ainda não tenha criado uma.

  2. É possível escolher entre vários sistemas de arquivos para armazenar dados e arquivos de log. Para começar, crie um bucket do Amazon S3. Dê um nome exclusivo para o bucket. Ao criá-lo, especifique a chave de criptografia que você criou.

    nota

    Escolha a mesma região para criar seu bucket de armazenamento e o cluster do Amazon EMR.

  3. Selecione o bucket que você criou. Escolha Criar pasta e atribua a ela um nome fácil de lembrar. Ao criar a pasta, escolha uma configuração de segurança. É possível escolher as mesmas configurações de segurança da pasta pai ou torná-las mais especializadas.

  4. Adicione dados de teste à sua pasta. Para este tutorial, usar um .csv de registros separados por vírgula funciona bem para concluir esse caso de uso.

  5. Depois de adicionar dados a um bucket do Amazon S3, configure uma tabela no AWS Glue para fornecer uma camada de abstração para consultar os dados.

Conectar e executar consultas

A seguir, descrevemos estabelecer a conexão e executar consultas em um cluster executando o Trino. Antes disso, certifique-se de configurar o conector de metastore do Hive, descrito no procedimento anterior, para que as tabelas do metastore fiquem visíveis.

  1. Recomendamos usar o EC2 Instance Connect para estabelecer a conexão com o cluster, pois ele fornece uma conexão segura. Escolha Conectar-se ao nó primário usando SSH no resumo do cluster. A conexão exige que o grupo de segurança tenha uma regra de entrada para permitir conexões pela porta 22 com clientes na sub-rede. Você também deve usar o usuário hadoop ao se conectar.

  2. Inicie a CLI do Trino executando trino-cli. Isso permite executar comandos e consultar dados com o Trino.

  3. Executar show catalogs;. Verifique se o catálogo hive está listado. Ele fornece uma lista de catálogos disponíveis, que contêm datastores ou configurações do sistema.

  4. Para visualizar os esquemas disponíveis, execute show schemas in hive;. A partir daqui, é possível executar use schema-name; e incluir o nome do esquema. Em seguida, execute show tables; para listar tabelas.

  5. Consulte uma tabela executando um comando como SELECT * FROM table-name, usando o nome de uma tabela no seu esquema. Se você já executou a USE instrução para se conectar a um esquema específico, não precisa usar a notação de duas partes, como. schema table.