

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Memulai dengan Trino
<a name="emr-trino-getting-started"></a>

Prosedur di bagian ini menunjukkan cara menyiapkan kluster EMR Amazon untuk menanyakan sumber data metastore dengan Trino. Metastores ini, yang meliputi AWS Glue Data Catalog, menyimpan metadata dan objek database dan mengelola izin akses. Prosedur mencakup prasyarat, pengaturan konfigurasi yang disarankan, membuat konektor, dan menjalankan kueri pada tabel metastore.

**Topics**
+ [Lengkapi langkah-langkah prasyarat untuk menggunakan Amazon EMR dengan Trino](emr-trino-getting-started-pre.md)
+ [Luncurkan cluster EMR Amazon dengan Trino](emr-trino-getting-started-launch.md)
+ [Connect ke node utama untuk kluster Amazon EMR dan jalankan kueri](emr-trino-getting-started-connect.md)

# Lengkapi langkah-langkah prasyarat untuk menggunakan Amazon EMR dengan Trino
<a name="emr-trino-getting-started-pre"></a>

Jika Anda belum pernah menggunakan AWS, atau jika Anda belum membuat klaster EMR Amazon, selesaikan langkah-langkah prasyarat ini sebelum Anda membuat klaster EMR Amazon dengan Trino.

## AWS pengaturan lingkungan
<a name="emr-trino-getting-started-account"></a>

Selesaikan langkah-langkah ini untuk mengonfigurasi AWS akun Anda jika Anda belum melakukannya:

1. Mendaftar untuk AWS akun, jika Anda belum memilikinya. Untuk informasi selengkapnya, lihat [Membuat AWS akun](https://docs.aws.amazon.com/accounts/latest/reference/manage-acct-creating.html) di *Panduan Referensi Manajemen AWS Akun*.

1. Masuk ke akun Anda sebagai pengguna administratif.

1. Buat grup dan tetapkan pengguna untuk itu.

1. Buat key pair Amazon EC2, yang dapat Anda gunakan nanti untuk mengamankan komunikasi antar sumber daya dengan SSH. Langkah ini diperlukan jika Anda berencana untuk terhubung ke node utama untuk melakukan tugas. Untuk informasi selengkapnya, lihat [Connect ke node primer klaster EMR Amazon menggunakan](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-connect-master-node-ssh.html) SSH.

# Luncurkan cluster EMR Amazon dengan Trino
<a name="emr-trino-getting-started-launch"></a>

Berikut ini menjelaskan pilihan konfigurasi yang benar saat Anda membuat cluster dengan Trino.

## Menggunakan konektor Hive untuk membuat data tersedia untuk kueri
<a name="emr-trino-getting-started-connect-hive"></a>

Anda dapat mengonfigurasi konektor Trino untuk metastore Hive untuk tujuan kueri data metastore dari cluster Anda. Metastore adalah lapisan abstraksi yang membuat konten berbasis file atau data tersedia sebagai tabel, sehingga mudah untuk query. Anda harus mengonfigurasi konektor di Amazon EMR untuk membuat tabel metastore Hive tersedia untuk cluster. Prosedur berikut menunjukkan kepada Anda bagaimana melakukan ini:

1. Pilih AWS Glue di konsol dan buat tabel, berdasarkan data sumber Anda di Amazon S3. Tabel dalam AWS Glue Data Catalog adalah definisi metadata untuk data. Masuk akal dalam konteks ini untuk membuat tabel secara manual, membuat kolom sesuka Anda, dari data sumber Anda. Untuk informasi selengkapnya tentang membuat tabel di AWS Glue dari data semi-terstruktur di Amazon S3, [lihat Membuat tabel menggunakan konsol di Panduan](https://docs.aws.amazon.com/glue/latest/dg/tables-described.html#console-tables) Pengguna *AWS Glue*.

1. Tetapkan konfigurasi Anda sebagai bagian dari pembuatan cluster. Pilih tab **Konfigurasi**. Konfigurasi adalah spesifikasi opsional untuk cluster Anda. Saat Anda memasukkan konfigurasi, tambahkan JSON seperti contoh berikut, yang menginstruksikan Trino untuk menggunakan AWS Glue Data Catalog sebagai metastore Hive eksternal untuk metadata tabel:

   ```
   {
       "classification": "trino-connector-hive",
       "properties": {
           "hive.metastore": "glue"
       }
   }
   ```

   Atau, Anda dapat menerapkan konfigurasi di bagian **Pengaturan perangkat lunak** saat Anda membuat klaster.

   Selain itu, Anda dapat mengatur jenis konektor lainnya, seperti untuk menghubungkan dengan Apache Iceberg. Untuk informasi selengkapnya, lihat [Menggunakan klaster Gunung Es dengan Trino](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-iceberg-use-trino-cluster.html) di Panduan Rilis Amazon *EMR*. Mengkonfigurasi pengaturan tambahan adalah opsional.

Untuk melanjutkan langkah memulai, lihat. [Connect ke node utama untuk kluster Amazon EMR dan jalankan kueri](emr-trino-getting-started-connect.md)

## Buat cluster dengan Trino
<a name="emr-trino-getting-started-launch-cluster-settings"></a>

Berikut ini menjelaskan pilihan konfigurasi yang benar saat Anda membuat cluster yang ingin Anda gunakan dengan Trino.

**penting**  
Sebelum Anda membuat cluster Anda, selesaikan konfigurasi AWS Glue Data Catalog sebagai metastore Hive Anda, yang kami rekomendasikan untuk memulai. Untuk informasi selengkapnya, lihat [Menggunakan konektor Hive untuk membuat data tersedia untuk kueri](#emr-trino-getting-started-connect-hive).

1. Di AWS konsol, pilih Amazon EMR dari layanan. Ketika Anda memilih Amazon EMR, jika Anda memiliki cluster yang ada, **EMR Anda pada** kluster EC2 terdaftar.

1. Pilih **Buat klaster**. Dari sini, Anda memulai proses untuk membangun sebuah cluster.

1. Beri nama cluster Anda dan pilih rilis **EMR Amazon**. Anda dapat memilih rilis terbaru untuk tutorial.

1. Pilih bundel **Trino**, yang memiliki aplikasi Trino yang telah dipilih sebelumnya. Bundel disiapkan untuk kenyamanan saat Anda mengetahui tujuan cluster sebelumnya. Jika tidak, Anda cukup memilih kotak centang untuk Trino.

1. Untuk **konfigurasi Cluster**, pilih **Uniform instance groups**. Silakan dan hapus grup instance tambahan.

1. Pilih **jenis Instance**. Umumnya kami menyarankan Anda memilih jenis instans dengan setidaknya 16 memori GiB. Juga, untuk **penskalaan dan penyediaan Cluster pilih Atur ukuran** **cluster** secara manual.

1. Pada titik ini, atur konfigurasi metastore Hive Anda untuk menunjuk ke Glue. AWS Ini dirinci di bagian ini[Menggunakan konektor Hive untuk membuat data tersedia untuk kueri](#emr-trino-getting-started-connect-hive). Selesaikan ini sebelum Anda membangun cluster.

1. Pilih **Buat klaster**. Butuh beberapa menit untuk menyelesaikannya.

   Langkah-langkah di sini tidak mencakup semua langkah konfigurasi secara rinci. Informasi lebih lanjut tentang menyiapkan klaster tersedia di [Rencana, konfigurasi, dan luncurkan klaster EMR Amazon](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan.html).

**catatan**  
Jangan pilih Presto dan Trino untuk digunakan pada cluster yang sama. Menjalankannya bersama tidak didukung. Juga disarankan bahwa jika Anda menjalankan Trino, Anda tidak menjalankan aplikasi lain di cluster, seperti Spark.

# Connect ke node utama untuk kluster Amazon EMR dan jalankan kueri
<a name="emr-trino-getting-started-connect"></a>

## Menyediakan data uji dan mengkonfigurasi izin
<a name="emr-trino-getting-started-pre-data"></a>

Anda dapat menguji Amazon EMR dengan Trino dengan menggunakan AWS Glue Data Catalog dan metastore Hive-nya. Langkah-langkah prasyarat ini menjelaskan cara menyiapkan data pengujian, jika Anda belum melakukannya:

1. Buat kunci SSH untuk digunakan untuk enkripsi komunikasi, jika Anda belum melakukannya.

1. Anda dapat memilih dari beberapa sistem file untuk menyimpan data dan file log. Untuk memulai, buat bucket Amazon S3. Berikan ember nama yang unik. Saat Anda membuatnya, tentukan kunci enkripsi yang Anda buat.
**catatan**  
Pilih wilayah yang sama untuk membuat bucket penyimpanan dan kluster EMR Amazon.

1. Pilih ember yang Anda buat. Pilih **Buat folder** dan beri folder nama yang mudah diingat. Saat Anda membuat folder, pilih konfigurasi keamanan. Anda dapat memilih pengaturan keamanan untuk orang tua, atau membuat pengaturan keamanan lebih khusus.

1. Tambahkan data uji ke folder Anda. Untuk keperluan tutorial ini, menggunakan.csv dari catatan yang dipisahkan koma bekerja dengan baik untuk menyelesaikan kasus penggunaan ini.

1. Setelah menambahkan data ke bucket Amazon S3, konfigurasikan tabel di AWS Glue untuk menyediakan lapisan abstraksi untuk menanyakan data.

## Connect dan jalankan query
<a name="emr-trino-getting-started-run"></a>

Berikut ini menjelaskan bagaimana Anda terhubung ke dan menjalankan kueri pada klaster yang menjalankan Trino. Sebelum Anda melakukan ini, pastikan Anda mengatur konektor metastore Hive, yang dijelaskan dalam prosedur sebelumnya, sehingga tabel metastore terlihat.

1. Sebaiknya gunakan EC2 Instance Connect untuk terhubung ke klaster Anda, karena menyediakan koneksi yang aman. Pilih **Connect to the Primary node menggunakan SSH** dari ringkasan cluster. Koneksi mengharuskan grup keamanan memiliki aturan masuk untuk memungkinkan koneksi melalui port 22 ke klien di subnet. Anda juga harus menggunakan **hadoop pengguna saat menghubungkan**.

1. Mulai Trino CLI dengan menjalankan. `trino-cli` Ini menyediakan bagi Anda untuk menjalankan perintah dan data kueri dengan Trino.

1. Jalankan `show catalogs;`. Periksa apakah katalog **sarang** terdaftar. Ini menyediakan daftar katalog yang tersedia, yang berisi penyimpanan data atau pengaturan sistem.

1. Untuk melihat skema yang tersedia, jalankan`show schemas in hive;`. Dari sini, Anda dapat menjalankan `use schema-name;` dan memasukkan nama skema Anda. Kemudian Anda dapat `show tables;` menjalankan daftar tabel.

1. Kueri tabel dengan menjalankan perintah seperti`SELECT * FROM table-name`, menggunakan nama tabel dalam skema Anda. Jika Anda sudah menjalankan `USE` pernyataan untuk terhubung ke skema tertentu, Anda tidak perlu menggunakan notasi dua bagian seperti. *schema* *table*.