

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Introducción a Trino
<a name="emr-trino-getting-started"></a>

Los procedimientos de esta sección le muestran cómo configurar un clúster de Amazon EMR para consultar los orígenes de datos de metaalmacenes con Trino. Estos metaalmacenes, que incluyen el catálogo de datos de AWS Glue, almacenan metadatos y objetos de bases de datos y administran los permisos de acceso. Los procedimientos abarcan los requisitos previos, los valores de configuración recomendados, la creación de conectores y la ejecución de consultas en las tablas de metaalmacenes.

**Topics**
+ [

# Complete los pasos previos para usar Amazon EMR con Trino
](emr-trino-getting-started-pre.md)
+ [

# Lanzamiento de un clúster de Amazon EMR con Trino
](emr-trino-getting-started-launch.md)
+ [

# Conexión al nodo principal del clúster de Amazon EMR y ejecución de consultas
](emr-trino-getting-started-connect.md)

# Complete los pasos previos para usar Amazon EMR con Trino
<a name="emr-trino-getting-started-pre"></a>

Si no ha utilizado AWS o no ha creado un clúster de Amazon EMR, complete estos pasos previos antes de crear un clúster de Amazon EMR con Trino.

## AWS configuración del entorno
<a name="emr-trino-getting-started-account"></a>

Complete estos pasos para configurar su AWS cuenta si aún no lo ha hecho:

1. Crea una AWS cuenta, si aún no tienes una. Para obtener más información, consulta [Crear una AWS cuenta](https://docs.aws.amazon.com/accounts/latest/reference/manage-acct-creating.html) en la *Guía de referencia de administración de AWS cuentas*.

1. Inicie sesión en su cuenta como un usuario administrativo.

1. Cree un grupo y asígnele usuarios.

1. Cree un par de claves de Amazon EC2, que podrá utilizar más adelante para proteger la comunicación entre los recursos mediante SSH. Este paso es necesario si planea conectarse al nodo principal para llevar a cabo tareas. Para obtener más información, consulte [Connect to the Amazon EMR cluster primary node using SSH](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-connect-master-node-ssh.html).

# Lanzamiento de un clúster de Amazon EMR con Trino
<a name="emr-trino-getting-started-launch"></a>

A continuación, se describen las opciones de configuración correctas al momento de crear un clúster con Trino.

## Uso de un conector Hive para que los datos estén disponibles para su consulta
<a name="emr-trino-getting-started-connect-hive"></a>

Puede configurar un conector Trino para un metalmacén de Hive con el fin de consultar los datos del metalmacén de su clúster. Un metalmacén es una capa de abstracción que hace que el contenido o los datos basados en archivos estén disponibles en forma de tablas, por lo que es fácil consultarlos. Debe configurar un conector en Amazon EMR para que las tablas del metalmacén de Hive estén disponibles en el clúster. El procedimiento siguiente demuestra cómo hacerlo.

1. Elija AWS Glue en la consola y cree una tabla basada en sus datos de origen en Amazon S3. Una tabla del catálogo de datos de AWS Glue es la definición de metadatos de los datos. En este contexto, tiene sentido crear la tabla manualmente, creando las columnas que desee a partir de los datos de origen. Para obtener más información sobre la creación de tablas en AWS Glue a partir de datos semiestructurados en Amazon S3, consulte [Creación de tablas con la consola](https://docs.aws.amazon.com/glue/latest/dg/tables-described.html#console-tables) en la *Guía del usuario de AWS Glue*.

1. Ajuste su configuración como parte de la creación de clústeres. Seleccione la pestaña **Configuraciones**. Las configuraciones son requisitos opcionales para su clúster. Cuando introduzcas una configuración, añade JSON como en el siguiente ejemplo, en el que se indica a Trino que utilice el catálogo de datos de AWS Glue como su metabastore externo de Hive para los metadatos de las tablas:

   ```
   {
       "classification": "trino-connector-hive",
       "properties": {
           "hive.metastore": "glue"
       }
   }
   ```

   Como alternativa, puede aplicar las configuraciones en la sección **Configuración de software** al momento de crear un clúster.

   Además, puede configurar otros tipos de conectores, por ejemplo, para conectarse con Apache Iceberg. Para obtener más información, consulte [Use an Iceberg cluster with Trino](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-iceberg-use-trino-cluster.html) en la *Guía de versiones de Amazon EMR*. La configuración de ajustes adicionales es opcional.

Para continuar con los pasos de introducción, consulte [Conexión al nodo principal del clúster de Amazon EMR y ejecución de consultas](emr-trino-getting-started-connect.md).

## Creación de un clúster con Trino
<a name="emr-trino-getting-started-launch-cluster-settings"></a>

A continuación, se describen las opciones de configuración correctas al crear un clúster que desee utilizar con Trino.

**importante**  
Antes de crear el clúster, complete la configuración del catálogo de datos de AWS Glue como su metaalmacén de Hive, que le recomendamos para empezar. Para obtener más información, consulte [Uso de un conector Hive para que los datos estén disponibles para su consulta](#emr-trino-getting-started-connect-hive).

1. En la AWS consola, seleccione Amazon EMR de los servicios. Cuando elige Amazon EMR, si tiene clústeres existentes, se muestran sus clústeres de **EMR en EC2**.

1. Elija **Create cluster**. Desde aquí, se inicia el proceso de creación de un clúster.

1. Asigne un nombre a su clúster y elija una **versión de Amazon EMR**. Puede elegir la versión más reciente para el tutorial.

1. Elija el paquete **Trino**, que tiene la aplicación Trino preseleccionada. Los paquetes se configuran para mayor comodidad cuando se conoce con antelación el propósito del clúster. De lo contrario, puede simplemente seleccionar la casilla de verificación de Trino.

1. En **Configuración del clúster**, elija **Grupos de instancias uniformes**. Continúe y elimine grupos de instancias adicionales.

1. Elija un **tipo de instancia**. Por lo general, recomendamos que elija un tipo de instancia con al menos 16 GiB de memoria. Además, para **Aprovisionamiento y escalado de clústeres**, elija **Establecer el tamaño del clúster manualmente**.

1. En este punto, establece la configuración de tu metatienda de Hive para que apunte a Glue AWS . Esto se detalla en la sección [Uso de un conector Hive para que los datos estén disponibles para su consulta](#emr-trino-getting-started-connect-hive). Complételo antes de crear el clúster.

1. Elija **Create cluster**. Puede tardar unos minutos en finalizar.

   Los pasos que aparecen aquí no cubren todos los pasos de configuración en detalle. Encontrará más información sobre la configuración de un clúster en [Plan, configure and launch Amazon EMR clusters](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan.html).

**nota**  
No seleccione Presto y Trino para usarlos en el mismo clúster. No se admite su ejecución conjunta. También se recomienda que, si ejecuta Trino, no ejecute ninguna otra aplicación en el clúster, como Spark.

# Conexión al nodo principal del clúster de Amazon EMR y ejecución de consultas
<a name="emr-trino-getting-started-connect"></a>

## Aprovisione datos de prueba y configure permisos
<a name="emr-trino-getting-started-pre-data"></a>

Puede probar Amazon EMR con Trino mediante AWS Glue Data Catalog y su metatienda Hive. Estos pasos previos describen cómo configurar los datos de prueba:

1. Si aún no lo ha hecho, cree una clave SSH para cifrar las comunicaciones.

1. Puede elegir entre varios sistemas de archivos para almacenar datos y archivos de registro. Para comenzar, cree un bucket de Amazon S3. Asigne un nombre único al bucket. Al crearlo, especifique la clave de cifrado que creó.
**nota**  
Elija la misma región para crear el bucket de almacenamiento y el clúster de Amazon EMR.

1. Elija el bucket que ha creado. Elija **Crear carpeta** y asigne a la carpeta un nombre fácil de recordar. Al momento de crear la carpeta, elija una configuración de seguridad. Puede elegir la configuración de seguridad para la principal o hacer que la configuración de seguridad sea más especializada.

1. Agregue los datos de prueba a la carpeta. Para los fines de este tutorial, el uso de un archivo .csv de registros separados por comas funciona bien para completar este caso de uso.

1. Tras añadir datos a un bucket de Amazon S3, configura una tabla en AWS Glue para proporcionar una capa de abstracción para consultar los datos.

## Conexión y ejecución de consultas
<a name="emr-trino-getting-started-run"></a>

A continuación, se describe cómo conectarse y ejecutar consultas en un clúster que ejecuta Trino. Antes de hacerlo, asegúrese de configurar el conector del metalmacén de Hive, que se describe en el procedimiento anterior, de modo que las tablas del metalmacén estén visibles.

1. Se recomienda utilizar EC2 Instance Connect para conectarse al clúster, ya que proporciona una conexión segura. Elija **Conectarse al nodo principal mediante SSH** desde el resumen del clúster. La conexión requiere que el grupo de seguridad tenga una regla de entrada que permita las conexiones a través del puerto 22 a los clientes de la subred. También debe usar el usuario **Hadoop** cuando se conecte.

1. Inicie la CLI de Trino ejecutando `trino-cli`. Esto le permite ejecutar comandos y consultar datos con Trino.

1. Ejecute `show catalogs;`. Compruebe que el catálogo de **Hive** esté en la lista. Este proporciona una lista de los catálogos disponibles, que contienen almacenes de datos o configuraciones del sistema.

1. Para ver los esquemas disponibles, ejecute `show schemas in hive;`. Desde aquí, puede ejecutar `use schema-name;` e incluir el nombre del esquema. A continuación, puede ejecutar `show tables;` para enumerar las tablas.

1. Consulte una tabla ejecutando un comando como `SELECT * FROM table-name`, por ejemplo, usando el nombre de una tabla de su esquema. Si ya ejecutaste la `USE` sentencia para conectarte a un esquema específico, no tienes que usar una notación de dos partes, como. *schema* *table*.