As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Conectar-se ao nó primário do cluster do Amazon EMR e executar consultas
Provisionar dados de teste e configurar permissões
Você pode testar o Amazon EMR com o Trino usando o AWS Glue Data Catalog e seu metastore Hive. Essas etapas de pré-requisitos descrevem como configurar dados de teste, caso você ainda não tenha feito isso:
Crie uma chave SSH para usar na criptografia de comunicação, caso ainda não tenha criado uma.
É possível escolher entre vários sistemas de arquivos para armazenar dados e arquivos de log. Para começar, crie um bucket do Amazon S3. Dê um nome exclusivo para o bucket. Ao criá-lo, especifique a chave de criptografia que você criou.
nota
Escolha a mesma região para criar seu bucket de armazenamento e o cluster do Amazon EMR.
Selecione o bucket que você criou. Escolha Criar pasta e atribua a ela um nome fácil de lembrar. Ao criar a pasta, escolha uma configuração de segurança. É possível escolher as mesmas configurações de segurança da pasta pai ou torná-las mais especializadas.
Adicione dados de teste à sua pasta. Para este tutorial, usar um .csv de registros separados por vírgula funciona bem para concluir esse caso de uso.
Depois de adicionar dados a um bucket do Amazon S3, configure uma tabela no AWS Glue para fornecer uma camada de abstração para consultar os dados.
Conectar e executar consultas
A seguir, descrevemos estabelecer a conexão e executar consultas em um cluster executando o Trino. Antes disso, certifique-se de configurar o conector de metastore do Hive, descrito no procedimento anterior, para que as tabelas do metastore fiquem visíveis.
Recomendamos usar o EC2 Instance Connect para estabelecer a conexão com o cluster, pois ele fornece uma conexão segura. Escolha Conectar-se ao nó primário usando SSH no resumo do cluster. A conexão exige que o grupo de segurança tenha uma regra de entrada para permitir conexões pela porta 22 com clientes na sub-rede. Você também deve usar o usuário hadoop ao se conectar.
Inicie a CLI do Trino executando
trino-cli. Isso permite executar comandos e consultar dados com o Trino.Executar
show catalogs;. Verifique se o catálogo hive está listado. Ele fornece uma lista de catálogos disponíveis, que contêm datastores ou configurações do sistema.Para visualizar os esquemas disponíveis, execute
show schemas in hive;. A partir daqui, é possível executarusee incluir o nome do esquema. Em seguida, executeschema-name;show tables;para listar tabelas.Consulte uma tabela executando um comando como
SELECT * FROM, usando o nome de uma tabela no seu esquema. Se você já executou atable-nameUSEinstrução para se conectar a um esquema específico, não precisa usar a notação de duas partes, como.schematable.