Provisionar dados de teste e configurar permissões Conectar e executar consultas

Conectar-se ao nó primário do cluster do Amazon EMR e executar consultas

Provisionar dados de teste e configurar permissões

Você pode testar o Amazon EMR com o Trino usando o AWS Glue Data Catalog e seu metastore Hive. Essas etapas de pré-requisitos descrevem como configurar dados de teste, caso você ainda não tenha feito isso:

Crie uma chave SSH para usar na criptografia de comunicação, caso ainda não tenha criado uma.
É possível escolher entre vários sistemas de arquivos para armazenar dados e arquivos de log. Para começar, crie um bucket do Amazon S3. Dê um nome exclusivo para o bucket. Ao criá-lo, especifique a chave de criptografia que você criou.

nota
Escolha a mesma região para criar seu bucket de armazenamento e o cluster do Amazon EMR.
Selecione o bucket que você criou. Escolha Criar pasta e atribua a ela um nome fácil de lembrar. Ao criar a pasta, escolha uma configuração de segurança. É possível escolher as mesmas configurações de segurança da pasta pai ou torná-las mais especializadas.
Adicione dados de teste à sua pasta. Para este tutorial, usar um .csv de registros separados por vírgula funciona bem para concluir esse caso de uso.
Depois de adicionar dados a um bucket do Amazon S3, configure uma tabela no AWS Glue para fornecer uma camada de abstração para consultar os dados.

Conectar e executar consultas

A seguir, descrevemos estabelecer a conexão e executar consultas em um cluster executando o Trino. Antes disso, certifique-se de configurar o conector de metastore do Hive, descrito no procedimento anterior, para que as tabelas do metastore fiquem visíveis.

Recomendamos usar o EC2 Instance Connect para estabelecer a conexão com o cluster, pois ele fornece uma conexão segura. Escolha Conectar-se ao nó primário usando SSH no resumo do cluster. A conexão exige que o grupo de segurança tenha uma regra de entrada para permitir conexões pela porta 22 com clientes na sub-rede. Você também deve usar o usuário hadoop ao se conectar.
Inicie a CLI do Trino executando trino-cli. Isso permite executar comandos e consultar dados com o Trino.
Executar show catalogs;. Verifique se o catálogo hive está listado. Ele fornece uma lista de catálogos disponíveis, que contêm datastores ou configurações do sistema.
Para visualizar os esquemas disponíveis, execute show schemas in hive;. A partir daqui, é possível executar use schema-name; e incluir o nome do esquema. Em seguida, execute show tables; para listar tabelas.
Consulte uma tabela executando um comando como SELECT * FROM table-name, usando o nome de uma tabela no seu esquema. Se você já executou a USE instrução para se conectar a um esquema específico, não precisa usar a notação de duas partes, como. schema table.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Iniciar um cluster do Amazon EMR com o Trino

Configurar o Trino no Amazon EMR

Conectar-se ao nó primário do cluster do Amazon EMR e executar consultas

Provisionar dados de teste e configurar permissões

nota

Conectar e executar consultas