

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Commencer à utiliser Trino
<a name="emr-trino-getting-started"></a>

Les procédures décrites dans cette section vous montrent comment configurer un cluster Amazon EMR afin d'interroger des sources de données de métastore avec Trino. Ces métastores, qui incluent le catalogue de données AWS Glue, stockent les métadonnées et les objets de base de données et gèrent les autorisations d'accès. Les procédures couvrent les prérequis, les paramètres de configuration recommandés, la création de connecteurs et l'exécution de requêtes sur des tables de métastore.

**Topics**
+ [Suivez les étapes préalables à l'utilisation d'Amazon EMR avec Trino](emr-trino-getting-started-pre.md)
+ [Lancez un cluster Amazon EMR avec Trino](emr-trino-getting-started-launch.md)
+ [Connectez-vous au nœud principal du cluster Amazon EMR et exécutez des requêtes](emr-trino-getting-started-connect.md)

# Suivez les étapes préalables à l'utilisation d'Amazon EMR avec Trino
<a name="emr-trino-getting-started-pre"></a>

Si vous n'avez pas utilisé AWS, ou si vous n'avez pas créé de cluster Amazon EMR, suivez ces étapes préalables avant de créer un cluster Amazon EMR avec Trino.

## AWS configuration de l'environnement
<a name="emr-trino-getting-started-account"></a>

Si ce n'est pas déjà fait, procédez comme suit pour configurer votre AWS compte :

1. Ouvrez un AWS compte, si vous n'en avez pas déjà un. Pour plus d'informations, consultez la section [Création d'un AWS compte](https://docs.aws.amazon.com/accounts/latest/reference/manage-acct-creating.html) dans le *Guide de référence AWS sur la gestion des comptes*.

1. Connectez-vous à votre compte en tant qu'utilisateur administratif.

1. Créez un groupe et attribuez-lui des utilisateurs.

1. Créez une paire de clés Amazon EC2, que vous pourrez utiliser ultérieurement pour sécuriser les communications entre les ressources avec SSH. Cette étape est obligatoire si vous prévoyez de vous connecter au nœud principal pour effectuer des tâches. Pour plus d'informations, consultez [Se connecter au nœud principal du cluster Amazon EMR à l'aide](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-connect-master-node-ssh.html) de SSH.

# Lancez un cluster Amazon EMR avec Trino
<a name="emr-trino-getting-started-launch"></a>

Ce qui suit décrit les choix de configuration corrects lorsque vous créez un cluster avec Trino.

## Utilisation d'un connecteur Hive pour rendre les données disponibles pour les requêtes
<a name="emr-trino-getting-started-connect-hive"></a>

Vous pouvez configurer un connecteur Trino pour un métastore Hive afin d'interroger les données du métastore provenant de votre cluster. Un métastore est une couche d'abstraction qui rend le contenu ou les données basés sur des fichiers disponibles sous forme de tables, ce qui facilite les requêtes. Vous devez configurer un connecteur dans Amazon EMR pour mettre les tables de métastore Hive à la disposition du cluster. La procédure suivante vous indique comment procéder :

1. Choisissez AWS Glue dans la console et créez un tableau en fonction de vos données sources dans Amazon S3. Un tableau du catalogue de données AWS Glue est la définition des métadonnées des données. Dans ce contexte, il est judicieux de créer le tableau manuellement, en créant des colonnes comme vous le souhaitez, à partir de vos données sources. Pour plus d'informations sur la création de tables dans AWS Glue à partir de données semi-structurées dans Amazon S3, consultez la section [Création de tables à l'aide de la console](https://docs.aws.amazon.com/glue/latest/dg/tables-described.html#console-tables) dans le *guide de l'utilisateur de AWS Glue*.

1. Définissez votre configuration dans le cadre de la création du cluster. Sélectionnez l'onglet **Configurations**. Les configurations sont des spécifications facultatives pour votre cluster. Lorsque vous entrez une configuration, ajoutez du JSON comme dans l'exemple suivant, qui indique à Trino d'utiliser le catalogue de données AWS Glue comme métastore Hive externe pour les métadonnées des tables :

   ```
   {
       "classification": "trino-connector-hive",
       "properties": {
           "hive.metastore": "glue"
       }
   }
   ```

   Vous pouvez également appliquer des configurations dans la section **Paramètres du logiciel** lorsque vous créez un cluster.

   En outre, vous pouvez configurer d'autres types de connecteurs, par exemple pour vous connecter à Apache Iceberg. Pour plus d'informations, consultez la section [Utiliser un cluster Iceberg avec Trino](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-iceberg-use-trino-cluster.html) dans le guide de mise à jour d'Amazon *EMR.* La configuration de paramètres supplémentaires est facultative.

Pour poursuivre les étapes de démarrage, voir. [Connectez-vous au nœud principal du cluster Amazon EMR et exécutez des requêtes](emr-trino-getting-started-connect.md)

## Création d'un cluster avec Trino
<a name="emr-trino-getting-started-launch-cluster-settings"></a>

Ce qui suit décrit les choix de configuration corrects lorsque vous créez un cluster que vous souhaitez utiliser avec Trino.

**Important**  
Avant de créer votre cluster, complétez AWS la configuration de Glue Data Catalog en tant que métastore Hive, ce que nous recommandons pour démarrer. Pour de plus amples informations, veuillez consulter [Utilisation d'un connecteur Hive pour rendre les données disponibles pour les requêtes](#emr-trino-getting-started-connect-hive).

1. Dans la AWS console, sélectionnez Amazon EMR dans les services. Lorsque vous choisissez Amazon EMR, si vous avez des clusters existants, vos **EMR sur les clusters EC2** sont répertoriés.

1. Choisissez **Créer un cluster**. À partir de là, vous lancez le processus de création d'un cluster.

1. Donnez un nom à votre cluster et choisissez une version d'**Amazon EMR.** Vous pouvez choisir la version la plus récente du didacticiel.

1. Choisissez le pack **Trino** dans lequel l'application Trino est présélectionnée. Les offres groupées sont configurées pour des raisons de commodité lorsque vous connaissez à l'avance l'objectif du cluster. Sinon, vous pouvez simplement sélectionner la case à cocher pour Trino.

1. Pour la **configuration du cluster**, choisissez **Uniform instance groups**. Allez-y et supprimez des groupes d'instances supplémentaires.

1. Choisissez un **type d'instance**. En général, nous vous recommandons de choisir un type d'instance avec au moins 16 GiB de mémoire. De plus, pour le **dimensionnement et le provisionnement du cluster**, choisissez **Définir la taille du cluster manuellement**.

1. À ce stade, définissez la configuration de votre métastore Hive pour qu'elle pointe vers Glue. AWS Ceci est détaillé dans la section[Utilisation d'un connecteur Hive pour rendre les données disponibles pour les requêtes](#emr-trino-getting-started-connect-hive). Effectuez cette opération avant de créer le cluster.

1. Choisissez **Créer un cluster**. Cela peut prendre quelques minutes pour terminer.

   Les étapes décrites ici ne couvrent pas toutes les étapes de configuration en détail. Plus d'informations sur la configuration d'un cluster sont disponibles sur [Planifier, configurer et lancer des clusters Amazon EMR.](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan.html)

**Note**  
Ne sélectionnez pas Presto et Trino pour une utilisation sur le même cluster. Il n'est pas possible de les exécuter ensemble. Il est également recommandé que si vous exécutez Trino, vous n'exécutiez aucune autre application sur le cluster, telle que Spark.

# Connectez-vous au nœud principal du cluster Amazon EMR et exécutez des requêtes
<a name="emr-trino-getting-started-connect"></a>

## Fournir des données de test et configurer les autorisations
<a name="emr-trino-getting-started-pre-data"></a>

Vous pouvez tester Amazon EMR avec Trino en utilisant AWS Glue Data Catalog et son métastore Hive. Ces étapes préalables décrivent comment configurer les données de test, si vous ne l'avez pas encore fait :

1. Créez une clé SSH à utiliser pour le chiffrement des communications, si ce n'est déjà fait.

1. Vous pouvez choisir parmi plusieurs systèmes de fichiers pour stocker les données et les fichiers journaux. Pour commencer, créez un compartiment Amazon S3. Donnez un nom unique au compartiment. Lorsque vous le créez, spécifiez la clé de chiffrement que vous avez créée.
**Note**  
Choisissez la même région pour créer à la fois votre compartiment de stockage et le cluster Amazon EMR.

1. Choisissez le bucket que vous avez créé. Choisissez **Créer un dossier** et attribuez au dossier un nom mémorable. Lorsque vous créez le dossier, choisissez une configuration de sécurité. Vous pouvez choisir les paramètres de sécurité pour le parent ou les personnaliser davantage.

1. Ajoutez des données de test à votre dossier. Pour les besoins de ce didacticiel, l'utilisation d'un fichier .csv composé d'enregistrements séparés par des virgules fonctionne bien pour compléter ce cas d'utilisation.

1. Après avoir ajouté des données dans un compartiment Amazon S3, configurez une table dans AWS Glue pour fournir une couche d'abstraction permettant d'interroger les données.

## Connect et exécution de requêtes
<a name="emr-trino-getting-started-run"></a>

Ce qui suit décrit comment vous vous connectez à un cluster exécutant Trino et comment exécuter des requêtes sur celui-ci. Avant cela, assurez-vous de configurer le connecteur de métastore Hive, décrit dans la procédure précédente, afin que les tables de métastore soient visibles.

1. Nous vous recommandons d'utiliser EC2 Instance Connect pour vous connecter à votre cluster, car il fournit une connexion sécurisée. Choisissez **Connect to the primary node using SSH** dans le résumé du cluster. La connexion nécessite que le groupe de sécurité dispose d'une règle entrante pour autoriser les connexions via le port 22 aux clients du sous-réseau. Vous devez également utiliser l'utilisateur **hadoop** lors de la connexion.

1. Démarrez la CLI Trino en exécutant. `trino-cli` Cela vous permet d'exécuter des commandes et d'interroger des données avec Trino.

1. Exécutez `show catalogs;`. Vérifiez que le catalogue des **ruches** est répertorié. Cela fournit une liste des catalogues disponibles, qui contiennent des magasins de données ou des paramètres système.

1. Pour voir les schémas disponibles, exécutez`show schemas in hive;`. À partir de là, vous pouvez exécuter `use schema-name;` et inclure le nom de votre schéma. Ensuite, vous pouvez courir `show tables;` pour répertorier les tables.

1. Interrogez une table en exécutant une commande telle que`SELECT * FROM table-name`, en utilisant le nom d'une table dans votre schéma. Si vous avez déjà exécuté l'`USE`instruction pour vous connecter à un schéma spécifique, il n'est pas nécessaire d'utiliser une notation en deux parties telle que*schema*. *table*.