

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Iniziare con Trino
<a name="emr-trino-getting-started"></a>

Le procedure in questa sezione mostrano come configurare un cluster Amazon EMR per interrogare le sorgenti di dati metastore con Trino. Questi metastore, che includono il AWS Glue Data Catalog, archiviano metadati e oggetti di database e gestiscono le autorizzazioni di accesso. Le procedure riguardano i prerequisiti, le impostazioni di configurazione consigliate, la creazione di connettori e l'esecuzione di query sulle tabelle dei metastore.

**Topics**
+ [

# Completa i passaggi preliminari per l'utilizzo di Amazon EMR con Trino
](emr-trino-getting-started-pre.md)
+ [

# Avvia un cluster Amazon EMR con Trino
](emr-trino-getting-started-launch.md)
+ [

# Connect al nodo primario per il cluster Amazon EMR ed esegui query
](emr-trino-getting-started-connect.md)

# Completa i passaggi preliminari per l'utilizzo di Amazon EMR con Trino
<a name="emr-trino-getting-started-pre"></a>

Se non lo hai mai utilizzato AWS o non hai creato un cluster Amazon EMR, completa questi passaggi preliminari prima di creare un cluster Amazon EMR con Trino.

## AWS configurazione dell'ambiente
<a name="emr-trino-getting-started-account"></a>

Completa questi passaggi per configurare il tuo AWS account se non l'hai già fatto:

1. Crea un AWS account, se non ne hai già uno. Per ulteriori informazioni, consulta [Creare un AWS account](https://docs.aws.amazon.com/accounts/latest/reference/manage-acct-creating.html) nella *Guida di riferimento per la gestione degli AWS account*.

1. Accedi al tuo account come utente amministrativo.

1. Crea un gruppo e assegnagli gli utenti.

1. Crea una coppia di chiavi Amazon EC2, che potrai utilizzare in seguito per proteggere la comunicazione tra le risorse con SSH. Questo passaggio è necessario se prevedi di connetterti al nodo primario per eseguire attività. Per ulteriori informazioni, consulta [Connect al nodo primario del cluster Amazon EMR tramite SSH](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-connect-master-node-ssh.html).

# Avvia un cluster Amazon EMR con Trino
<a name="emr-trino-getting-started-launch"></a>

Di seguito vengono descritte le scelte di configurazione corrette quando si crea un cluster con Trino.

## Utilizzo di un connettore Hive per rendere disponibili i dati per l'interrogazione
<a name="emr-trino-getting-started-connect-hive"></a>

È possibile configurare un connettore Trino per un metastore Hive allo scopo di interrogare i dati del metastore dal cluster. Un metastore è un livello di astrazione che rende disponibili contenuti o dati basati su file come tabelle, quindi è facile interrogarli. È necessario configurare un connettore in Amazon EMR per rendere le tabelle dei metastore Hive disponibili per il cluster. La procedura seguente mostra come eseguire questa operazione:

1. Scegli AWS Glue nella console e crea una tabella, basata sui tuoi dati di origine in Amazon S3. Una tabella nel AWS Glue Data Catalog è la definizione dei metadati per i dati. In questo contesto ha senso creare la tabella manualmente, creando colonne a piacere, a partire dai dati di origine. Per ulteriori informazioni sulla creazione di tabelle in AWS Glue da dati semistrutturati in Amazon S3, [consulta Creazione di tabelle utilizzando la](https://docs.aws.amazon.com/glue/latest/dg/tables-described.html#console-tables) console nella *AWS Glue* User Guide.

1. Imposta la configurazione come parte della creazione del cluster. Seleziona la scheda **Configurazione**. Le configurazioni sono specifiche opzionali per il cluster. Quando inserite una configurazione, aggiungete JSON come nell'esempio seguente, che indica a Trino di utilizzare il AWS Glue Data Catalog come metastore Hive esterno per i metadati delle tabelle:

   ```
   {
       "classification": "trino-connector-hive",
       "properties": {
           "hive.metastore": "glue"
       }
   }
   ```

   In alternativa, è possibile applicare le configurazioni nella sezione Impostazioni **software** quando si crea un cluster.

   Inoltre, è possibile configurare altri tipi di connettori, ad esempio per la connessione con Apache Iceberg. Per ulteriori informazioni, consulta [Usare un cluster Iceberg con Trino](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-iceberg-use-trino-cluster.html) nella Amazon *EMR* Release Guide. La configurazione di impostazioni aggiuntive è facoltativa.

Per continuare la procedura introduttiva, consulta. [Connect al nodo primario per il cluster Amazon EMR ed esegui query](emr-trino-getting-started-connect.md)

## Crea un cluster con Trino
<a name="emr-trino-getting-started-launch-cluster-settings"></a>

Di seguito vengono descritte le scelte di configurazione corrette quando si crea un cluster da utilizzare con Trino.

**Importante**  
Prima di creare il cluster, completa AWS la configurazione di Glue Data Catalog come metastore Hive, che consigliamo per iniziare. Per ulteriori informazioni, consulta [Utilizzo di un connettore Hive per rendere disponibili i dati per l'interrogazione](#emr-trino-getting-started-connect-hive).

1. Nella AWS console, seleziona Amazon EMR dai servizi. Quando scegli Amazon EMR, se disponi di cluster esistenti, viene elencato il tuo **EMR sui** cluster EC2.

1. Scegli **Crea cluster**. Da qui, inizi il processo di creazione di un cluster.

1. Assegna un nome al cluster e scegli una versione di **Amazon EMR.** Puoi scegliere la versione più recente per il tutorial.

1. Scegliete il pacchetto **Trino**, che contiene l'applicazione Trino preselezionata. I pacchetti vengono configurati per comodità quando si conosce in anticipo lo scopo del cluster. Altrimenti, puoi semplicemente selezionare la casella di controllo per Trino.

1. Per la **configurazione del cluster**, scegli **Gruppi di istanze uniformi**. Vai avanti e rimuovi i gruppi di istanze aggiuntivi.

1. Scegli un **tipo di istanza**. In genere si consiglia di scegliere un tipo di istanza con almeno 16 GiB di memoria. Inoltre, per la **scalabilità e il provisioning del cluster**, scegli **Imposta la dimensione del cluster manualmente**.

1. A questo punto, imposta la configurazione del metastore Hive in modo che punti a Glue. AWS Questo è dettagliato nella sezione. [Utilizzo di un connettore Hive per rendere disponibili i dati per l'interrogazione](#emr-trino-getting-started-connect-hive) Completate questa operazione prima di creare il cluster.

1. Scegli **Crea cluster**. Il completamento può richiedere alcuni minuti.

   I passaggi qui riportati non coprono in dettaglio tutti i passaggi di configurazione. Ulteriori informazioni sulla configurazione di un cluster sono disponibili nella pagina [Pianifica, configura e avvia i cluster Amazon EMR.](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan.html)

**Nota**  
Non selezionare Presto e Trino per utilizzarli sullo stesso cluster. La loro esecuzione insieme non è supportata. Si consiglia inoltre di non eseguire altre applicazioni sul cluster, ad esempio Spark, se si esegue Trino.

# Connect al nodo primario per il cluster Amazon EMR ed esegui query
<a name="emr-trino-getting-started-connect"></a>

## Fornisci i dati di test e configura le autorizzazioni
<a name="emr-trino-getting-started-pre-data"></a>

Puoi testare Amazon EMR con Trino utilizzando AWS Glue Data Catalog e il suo metastore Hive. Questi passaggi preliminari descrivono come configurare i dati di test, se non l'hai ancora fatto:

1. Crea una chiave SSH da utilizzare per la crittografia delle comunicazioni, se non l'hai già fatto.

1. È possibile scegliere tra diversi file system per archiviare dati e file di registro. Per iniziare, crea un bucket Amazon S3. Assegna al bucket un nome univoco. Quando lo crei, specifica la chiave di crittografia che hai creato.
**Nota**  
Scegli la stessa regione per creare sia il tuo bucket di storage che il cluster Amazon EMR.

1. Scegli il bucket che hai creato. Scegli **Crea cartella** e assegna alla cartella un nome memorabile. Quando crei la cartella, scegli una configurazione di sicurezza. È possibile scegliere le impostazioni di sicurezza per il genitore o rendere le impostazioni di sicurezza più specializzate.

1. Aggiungi i dati di test alla tua cartella. Ai fini di questo tutorial, l'utilizzo di un file in formato.csv di record separati da virgole è utile per completare questo caso d'uso.

1. Dopo aver aggiunto dati a un bucket Amazon S3, configura una tabella in AWS Glue per fornire un livello di astrazione per l'interrogazione dei dati.

## Connect ed esegui query
<a name="emr-trino-getting-started-run"></a>

Di seguito viene descritto come connettersi ed eseguire le query su un cluster che esegue Trino. Prima di farlo, assicuratevi di aver configurato il connettore Hive metastore, descritto nella procedura precedente, in modo che le tabelle dei metastore siano visibili.

1. Ti consigliamo di utilizzare EC2 Instance Connect per connetterti al tuo cluster, perché fornisce una connessione sicura. Scegli **Connect to the Primary node using SSH** dal riepilogo del cluster. La connessione richiede che il gruppo di sicurezza disponga di una regola in entrata per consentire le connessioni attraverso la porta 22 ai client nella sottorete. È inoltre necessario utilizzare l'utente **hadoop** durante la connessione.

1. Avvia la CLI di Trino eseguendo. `trino-cli` Ciò consente di eseguire comandi e interrogare i dati con Trino.

1. Esegui `show catalogs;`. Verificate che il catalogo **hive** sia elencato. Ciò fornisce un elenco di cataloghi disponibili, che contengono archivi di dati o impostazioni di sistema.

1. Per vedere gli schemi disponibili, esegui. `show schemas in hive;` Da qui, puoi eseguire `use schema-name;` e includere il nome del tuo schema. Quindi puoi correre `show tables;` per elencare le tabelle.

1. Interroga una tabella eseguendo un comando come`SELECT * FROM table-name`, ad esempio, utilizzando il nome di una tabella nello schema. Se hai già eseguito l'`USE`istruzione per connetterti a uno schema specifico, non devi usare una notazione in due parti come. *schema* *table*.