View a markdown version of this page

História e design do Trino - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

História e design do Trino

O Trino é especializado em consultar grandes conjuntos de dados de muitas fontes diferentes. O Trino pode acessar e consultar o HDFS em um caso de uso tradicional de big data, mas também pode consultar fontes adicionais, como bancos de dados relacionais e bancos de dados NoSQL. O Trino começou originalmente como um fork do mecanismo de consulta Presto, em 2019. Desde então, ele tem sido desenvolvido independentemente da base de código do Presto.

Para obter mais informações sobre o mecanismo de consulta Trino e como ele é usado, consulte o site do Trino. Para ler a documentação da origem do Trino, consulte Visão geral do Trino.

Conceitos de arquitetura

O Trino pode executar consultas rápidas e eficientes porque processa dados paralelamente em um cluster. Ele foi projetado pensando na consulta de um data lake, pois é especializado em consultas em grandes volumes de dados, normalmente em casos de uso que envolvem Hadoop e HDFS. Porém, o Trino também pode consultar bancos de dados relacionais tradicionais. Para obter mais informações, consulte os tópicos sobre arquitetura na documentação do Trino.

Componentes do Trino

O Trino tem alguns componentes principais de arquitetura que trabalham juntos para agilizar a execução de consultas. É útil ter conhecimento prático deles quando você ajusta seu cluster para melhorar a performance:

  • O coordenador é responsável pela orquestração de consultas. Ele analisa e otimiza consultas SQL recebidas, gera planos de execução, atribui tarefas aos nós de processamento e coleta e monta os resultados de consultas. Além disso, ele monitora o uso de recursos e acompanha o status dos nós de processamento. Para obter mais informações, consulte Coordenador na documentação do Trino.

  • Nós de processamento lidam com o processamento de dados para consultas. Depois que o coordenador atribui tarefas, esses nós recuperam dados, realizam as operações necessárias, como uniões e agregações, e trocam dados intermediários com outros nós de processamento. Para obter mais informações, consulte Processamento na documentação do Trino.

  • Conectores são plug-ins que permitem que o Trino se conecte a várias fontes de dados e as consulte. Cada conector sabe como acessar e recuperar dados de sua fonte, como Amazon S3, Apache Hive ou bancos de dados relacionais. Esses conectores mapeiam os dados de origem para a estrutura do esquema do Trino.

  • Um catálogo é uma coleção lógica de esquemas e tabelas associados a um conector específico. Definidos no coordenador, catálogos permitem que o Trino trate diferentes fontes de dados como um único namespace. Isso faz com que os usuários possam consultar várias fontes juntas, como Hive e MySQL, de maneira unificada na mesma consulta.

  • Clientes como a CLI do Trino se conectam por meio de drivers JDBC e ODBC ao coordenador do Trino para enviar consultas SQL. O coordenador gerencia o ciclo de vida das consultas, fornecendo resultados ao cliente para análises ou relatórios adicionais.

Executar consultas

Para entender como o Trino usa instruções SQL e as executa como consultas, consulte Conceitos do Trino, na documentação do Trino.