Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Apa itu Amazon EMR?
<a name="emr-what-is-emr"></a>

Amazon EMR, yang sebelumnya disebut Amazon Elastic MapReduce, adalah platform cluster terkelola yang menyederhanakan menjalankan kerangka kerja data besar, seperti [Apache Hadoop dan Apache](https://aws.amazon.com/elasticmapreduce/details/hadoop) [Spark, untuk memproses](https://aws.amazon.com/elasticmapreduce/details/spark) dan menganalisis sejumlah besar data. AWS Dengan menggunakan kerangka kerja ini dan proyek sumber terbuka terkait, Anda dapat memproses data untuk tujuan analitik dan beban kerja intelijen bisnis. Amazon EMR juga memungkinkan Anda mengubah dan memindahkan sejumlah besar data ke dalam dan keluar dari penyimpanan data dan database lainnya AWS , seperti Amazon Simple Storage Service (Amazon S3) Service S3) dan Amazon DynamoDB. 

Jika Anda baru pertama kali menggunakan Amazon EMR, sebaiknya Anda memulai dengan membaca berikut ini, sebagai tambahan dari bagian ini:
+ [Amazon EMR](https://aws.amazon.com/elasticmapreduce/) – Halaman layanan ini menyediakan sorotan Amazon EMR, detail produk, dan informasi harga.
+ [Tutorial: Memulai dengan Amazon EMR](emr-gs.md) – Tutorial ini memungkinkan Anda memulai menggunakan Amazon EMR dengan cepat.

**Topics**
+ [Memahami cara membuat dan bekerja dengan klaster EMR Amazon](emr-overview.md)
+ [Manfaat menggunakan Amazon EMR](emr-overview-benefits.md)
+ [Arsitektur Amazon EMR dan lapisan layanan](emr-overview-arch.md)

# Memahami cara membuat dan bekerja dengan klaster EMR Amazon
<a name="emr-overview"></a>

Topik ini memberikan gambaran umum tentang klaster Amazon EMR, termasuk cara mengirimkan pekerjaan ke klaster, cara data diproses, dan beragam status yang dilewati klaster selama pemrosesan. 

**Topics**
+ [Mengenal Cluster dan Node](#emr-overview-clusters)
+ [Mengirim pekerjaan ke sebuah klaster](#emr-work-cluster)
+ [Memproses data](#emr-overview-data-processing)
+ [Memahami siklus hidup klaster](#emr-overview-cluster-lifecycle)

## Mengenal Cluster dan Node
<a name="emr-overview-clusters"></a>

Komponen sentral dari Amazon EMR adalah *klaster*. Klaster adalah koleksi instans Amazon Elastic Compute Cloud (Amazon EC2). Setiap instans dalam klaster disebut *simpul*. Setiap simpul memiliki peran dalam klaster, disebut sebagai *jenis simpul*. Amazon EMR juga menginstal komponen perangkat lunak yang berbeda pada setiap jenis simpul, memberi setiap simpul peran dalam aplikasi terdistribusi seperti Apache Hadoop.

 Jenis simpul di Amazon EMR adalah sebagai berikut: 
+ **Node primer**: Node yang mengelola cluster dengan menjalankan komponen perangkat lunak untuk mengoordinasikan distribusi data dan tugas di antara node lain untuk diproses. Node primer melacak status tugas dan memantau kesehatan cluster. Setiap cluster memiliki simpul utama, dan dimungkinkan untuk membuat cluster simpul tunggal hanya dengan simpul utama.
+ **Simpul Inti**: Sebuah simpul dengan komponen perangkat lunak yang menjalankan tugas dan menyimpan data dalam Sistem File Terdistribusi Hadoop (HDFS) pada klaster Anda. Klaster multi-simpul memiliki setidaknya satu simpul inti.
+ **Simpul tugas**: Sebuah simpul dengan komponen perangkat lunak yang hanya menjalankan tugas dan tidak menyimpan data dalam HDFS. Simpul tugas bersifat opsional.

## Mengirim pekerjaan ke sebuah klaster
<a name="emr-work-cluster"></a>

Ketika Anda menjalankan sebuah klaster di Amazon EMR, Anda memiliki beberapa opsi untuk bagaimana Anda menentukan pekerjaan yang perlu dilakukan. 
+ Menyediakan seluruh definisi pekerjaan yang harus dilakukan dalam fungsi yang Anda tentukan sebagai langkah-langkah ketika Anda membuat sebuah klaster. Hal ini biasanya dilakukan untuk klaster yang memproses sejumlah set data dan mengakhiri ketika pemrosesan selesai. 
+ Buat klaster yang sudah berjalan lama dan gunakan konsol EMR Amazon, Amazon EMR API, atau AWS CLI untuk mengirimkan langkah-langkah, yang mungkin berisi satu atau beberapa pekerjaan. Untuk informasi selengkapnya, lihat [Kirim pekerjaan ke kluster EMR Amazon](emr-work-with-steps.md). 
+ Buat cluster, sambungkan ke node utama dan node lain sesuai kebutuhan menggunakan SSH, dan gunakan antarmuka yang disediakan aplikasi yang diinstal untuk melakukan tugas dan mengirimkan kueri, baik skrip atau interaktif. Untuk informasi selengkapnya, lihat [Panduan Rilis Amazon EMR](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/). 

## Memproses data
<a name="emr-overview-data-processing"></a>

Ketika Anda meluncurkan klaster, Anda memilih kerangka kerja dan aplikasi yang akan diinstal untuk kebutuhan pemrosesan data Anda. Untuk memproses data dalam klaster Amazon EMR, Anda dapat mengirimkan pekerjaan atau queri secara langsung ke aplikasi yang diinstal, atau Anda dapat menjalankan *langkah* dalam klaster.

### Mengirimkan pekerjaan secara langsung ke aplikasi
<a name="emr-overview-submitting-jobs"></a>

Anda dapat mengirimkan pekerjaan dan berinteraksi langsung dengan perangkat lunak yang diinstal pada klaster Amazon EMR Anda. Untuk melakukan ini, Anda biasanya terhubung ke node utama melalui koneksi aman dan mengakses antarmuka dan alat yang tersedia untuk perangkat lunak yang berjalan langsung di cluster Anda. Untuk informasi selengkapnya, lihat [Connect ke kluster EMR Amazon](emr-connect-master-node.md).

### Menjalankan langkah-langkah untuk memproses data
<a name="emr-overview-steps"></a>

Anda dapat mengirimkan satu atau beberapa langkah yang dipesan untuk klaster Amazon EMR. Setiap langkah adalah unit kerja yang berisi instruksi untuk memanipulasi data untuk diproses oleh perangkat lunak yang diinstal pada klaster.

 Berikut ini adalah contoh proses menggunakan empat langkah: 

1. Mengirim set data input untuk diproses.

1. Memproses output dari langkah pertama dengan menggunakan program Pig.

1. Memproses set data input kedua dengan menggunakan program Hive.

1. Menulis set data output.

Secara umum, ketika Anda memproses data di Amazon EMR, input adalah data yang disimpan sebagai file dalam sistem file yang mendasari pilihan Anda, seperti Amazon S3 atau HDFS. Data ini melewati dari satu langkah ke langkah berikutnya dalam urutan pemrosesan. Langkah terakhir menulis data output ke lokasi yang ditentukan, seperti bucket Amazon S3.

 Langkah dijalankan dalam urutan berikut: 

1. Permintaan dikirimkan untuk memulai pemrosesan langkah.

1. Status semua langkah diatur ke **PENDING**.

1. Ketika langkah pertama dalam urutan dimulai, statusnya berubah menjadi **RUNNING**. Langkah lainnya tetap dalam status **PENDING**.

1. Setelah langkah pertama selesai, statusnya berubah menjadi **COMPLETED**.

1. Langkah selanjutnya dalam urutan dimulai, statusnya berubah menjadi **RUNNING**. Ketika selesai, status berubah menjadi **COMPLETED**.

1. Pola ini berulang untuk setiap langkah sampai semuanya selesai dan pemrosesan berakhir.

Diagram berikut merupakan urutan langkah dan perubahan status untuk langkah-langkah saat diproses. 

![\[Diagram urutan untuk Amazon EMR menunjukkan status langkah klaster yang berbeda.\]](http://docs.aws.amazon.com/id_id/emr/latest/ManagementGuide/images/step-sequence.png)


Jika langkah gagal selama pemrosesan, statusnya berubah menjadi **FAILED**. Anda dapat menentukan apa yang terjadi selanjutnya untuk setiap langkah. Secara default, setiap langkah yang tersisa dalam urutan diatur ke **CANCELLED** dan tidak berjalan jika langkah sebelumnya gagal. Anda juga dapat memilih untuk mengabaikan kegagalan dan mengizinkan langkah-langkah yang tersisa untuk dilanjutkan, atau untuk mengakhiri klaster segera.

Diagram berikut merupakan urutan langkah dan perubahan default statusnya ketika langkah gagal selama pemrosesan. 

![\[Diagram urutan untuk Amazon EMR menunjukkan apa yang terjadi pada langkah-langkah berikutnya ketika langkah klaster sebelumnya gagal.\]](http://docs.aws.amazon.com/id_id/emr/latest/ManagementGuide/images/step-sequence-failed.png)


## Memahami siklus hidup klaster
<a name="emr-overview-cluster-lifecycle"></a>

 Sebuah klaster Amazon EMR berhasil dengan mengikuti proses ini: 

1. Amazon EMR terlebih dahulu menyediakan instans EC2 dalam klaster untuk setiap instans sesuai dengan spesifikasi Anda. Untuk informasi selengkapnya, lihat [Konfigurasikan perangkat keras dan jaringan cluster Amazon EMR](emr-plan-instances.md). Untuk semua instans, Amazon EMR menggunakan AMI default untuk Amazon EMR atau Amazon Linux AMI khusus yang Anda tentukan. Untuk informasi selengkapnya, lihat [Menggunakan AMI khusus untuk memberikan lebih banyak fleksibilitas untuk konfigurasi kluster Amazon EMR](emr-custom-ami.md). Selama fase ini, status klasternya adalah `STARTING`.

1. Amazon EMR menjalankan *tindakan bootstrap* yang Anda tentukan pada setiap instans. Anda dapat menggunakan tindakan bootstrap untuk menginstal aplikasi khusus dan melakukan kustomisasi yang Anda perlukan. Untuk informasi selengkapnya, lihat [Buat tindakan bootstrap untuk menginstal perangkat lunak tambahan dengan cluster EMR Amazon](emr-plan-bootstrap.md). Selama fase ini, status klasternya adalah `BOOTSTRAPPING`. 

1. Amazon EMR menginstal aplikasi native yang Anda tentukan saat membuat klaster, seperti Hive, Hadoop, Spark, dan sebagainya.

1. Setelah tindakan bootstrap berhasil diselesaikan dan aplikasi native diinstal, status klasternya adalah `RUNNING`. Pada titik ini, Anda dapat menyambung ke instans klaster, dan klaster secara berurutan menjalankan langkah-langkah yang telah Anda tentukan ketika membuat klaster. Anda dapat mengirimkan langkah-langkah tambahan, yang berjalan setelah langkah sebelumnya selesai. Untuk informasi selengkapnya, lihat [Kirim pekerjaan ke kluster EMR Amazon](emr-work-with-steps.md). 

1. Setelah langkah berhasil berjalan, klaster berubah ke status `WAITING`. Jika klaster dikonfigurasi untuk diakhiri otomatis setelah langkah terakhir selesai, klaster berubah ke status `TERMINATING` kemudian ke status `TERMINATED`. Jika klaster dikonfigurasi untuk menunggu, Anda harus secara manual mematikannya ketika Anda tidak lagi membutuhkannya. Setelah Anda secara manual mematikan klaster, itu akan berubah ke status `TERMINATING` kemudian ke status `TERMINATED`.

Kegagalan selama siklus hidup klaster menyebabkan Amazon EMR untuk mengakhiri klaster dan semua instans-nya kecuali Anda mengaktifkan perlindungan penghentian. Jika klaster berakhir karena kegagalan, data yang disimpan pada klaster dihapus, dan status klaster diatur ke `TERMINATED_WITH_ERRORS`. Jika Anda mengaktifkan perlindungan penghentian, Anda dapat mengambil data dari klaster, kemudian menghapus perlindungan penghentian dan mengakhiri klaster. Untuk informasi selengkapnya, lihat [Menggunakan perlindungan penghentian untuk melindungi kluster EMR Amazon Anda dari penutupan yang tidak disengaja](UsingEMR_TerminationProtection.md). 

Diagram berikut merupakan siklus hidup klaster, dan bagaimana setiap tahap siklus hidup memetakan ke status klaster tertentu. 

![\[Diagram untuk Amazon EMR yang menunjukkan siklus hidup klaster, dan bagaimana setiap tahap siklus hidup memetakan ke status klaster tertentu.\]](http://docs.aws.amazon.com/id_id/emr/latest/ManagementGuide/images/emr-cluster-lifecycle.png)


# Manfaat menggunakan Amazon EMR
<a name="emr-overview-benefits"></a>

Terdapat banyak manfaat untuk menggunakan Amazon EMR. Ini termasuk fleksibilitas yang ditawarkan melalui AWS dan penghematan biaya yang tersedia dibandingkan membangun sumber daya lokal Anda sendiri. Bagian ini memberikan gambaran umum manfaat dan tautan ke informasi tambahan untuk membantu Anda menjelajah lebih jauh.

**Topics**
+ [Penghematan biaya](#emr-benefits-cost)
+ [AWS integrasi](#emr-benefits-integration)
+ [Deployment](#emr-benefits-deployment)
+ [Skalabilitas dan fleksibilitas](#emr-benefits-scalability)
+ [Keandalan](#emr-benefits-reliability)
+ [Keamanan](#emr-benefits-security)
+ [Memantau](#emr-benefits-monitoring)
+ [Antarmuka manajemen](#emr-what-tools)

## Penghematan biaya
<a name="emr-benefits-cost"></a>

Harga Amazon EMR bergantung pada jenis instans dan jumlah instans Amazon EC2 yang Anda deploy serta Wilayah tempat Anda meluncurkan klaster. Harga sesuai permintaan menawarkan tarif rendah, tetapi Anda dapat mengurangi biaya lebih jauh dengan membeli Instans Cadangan atau Instans Spot. Instans Spot dapat menawarkan penghematan yang signifikan—lebih rendah sebanyak sepersepuluh dari harga sesuai permintaan dalam beberapa kasus.

**catatan**  
Jika Anda menggunakan Amazon S3, Amazon Kinesis, atau DynamoDB dengan klaster EMR Anda, terdapat biaya tambahan untuk layanan tersebut yang ditagih secara terpisah dari penggunaan Amazon EMR Anda.

**catatan**  
Saat menyiapkan kluster EMR Amazon di subnet pribadi, sebaiknya Anda juga menyiapkan [titik akhir VPC](https://docs.aws.amazon.com/vpc/latest/privatelink/vpc-endpoints-s3.html) untuk Amazon S3. Jika kluster EMR Anda berada dalam subnet pribadi tanpa titik akhir VPC untuk Amazon S3, Anda akan dikenakan biaya gateway NAT tambahan yang terkait dengan lalu lintas S3 karena lalu lintas antara kluster EMR Anda dan S3 tidak akan tetap berada dalam VPC Anda.

Untuk informasi selengkapnya tentang opsi harga dan detailnya, lihat [harga Amazon EMR](https://aws.amazon.com/elasticmapreduce/pricing/).

## AWS integrasi
<a name="emr-benefits-integration"></a>

Amazon EMR terintegrasi dengan AWS layanan lain untuk menyediakan kemampuan dan fungsionalitas yang terkait dengan jaringan, penyimpanan, keamanan, dan sebagainya, untuk cluster Anda. Daftar berikut memberikan beberapa contoh integrasi ini:
+ Amazon EC2 untuk instans yang terdiri atas simpul dalam klaster
+ Amazon Virtual Private Cloud (Amazon VPC) untuk mengonfigurasi jaringan virtual tempat Anda meluncurkan instans
+ Amazon S3 untuk menyimpan data input dan output
+ Amazon CloudWatch untuk memantau kinerja cluster dan mengonfigurasi alarm
+ AWS Identity and Access Management (IAM) untuk mengonfigurasi izin
+ AWS CloudTrail untuk mengaudit permintaan yang dibuat untuk layanan
+ AWS Data Pipeline untuk menjadwalkan dan memulai cluster Anda
+ AWS Lake Formation untuk menemukan, membuat katalog, dan mengamankan data di danau data Amazon S3

## Deployment
<a name="emr-benefits-deployment"></a>

Klaster EMR Anda terdiri dari instans EC2, yang melakukan pekerjaan yang Anda kirimkan ke klaster. Ketika Anda meluncurkan klaster, Amazon EMR mengonfigurasi instans dengan aplikasi yang Anda pilih, seperti Apache Hadoop atau Spark. Pilih ukuran dan jenis instans yang paling sesuai dengan kebutuhan pemrosesan klaster Anda: pemrosesan batch, kueri latensi rendah, data streaming, atau penyimpanan data besar. Untuk informasi selengkapnya tentang tipe instans yang tersedia untuk Amazon EMR, lihat [Konfigurasikan perangkat keras dan jaringan cluster Amazon EMR](emr-plan-instances.md).

Amazon EMR menawarkan berbagai cara untuk mengonfigurasi perangkat lunak pada klaster Anda. Misalnya, Anda dapat menginstal rilis Amazon EMR dengan satu set aplikasi pilihan yang dapat mencakup kerangka kerja serbaguna, seperti Hadoop, dan aplikasi, seperti Hive, Pig, atau Spark. Anda juga dapat menginstal salah satu dari beberapa distribusi MapR. Amazon EMR menggunakan Amazon Linux, sehingga Anda juga dapat menginstal perangkat lunak pada klaster secara manual menggunakan manajer paket yum atau dari sumbernya. Untuk informasi selengkapnya, lihat [Konfigurasikan aplikasi saat Anda meluncurkan klaster EMR Amazon](emr-plan-software.md).

## Skalabilitas dan fleksibilitas
<a name="emr-benefits-scalability"></a>

Amazon EMR memberikan fleksibilitas untuk menskalakan klaster Anda naik atau turun seiring berubahnya kebutuhan komputasi Anda. Anda dapat mengubah ukuran klaster untuk menambahkan instans untuk beban kerja puncak dan menghapus instans untuk mengontrol biaya ketika beban kerja puncak mereda. Untuk informasi selengkapnya, lihat [Mengubah ukuran cluster EMR Amazon yang sedang berjalan secara manual](emr-manage-resize.md).

 Amazon EMR juga menyediakan opsi untuk menjalankan beberapa grup instans sehingga Anda dapat menggunakan Instans Sesuai Permintaan dalam satu grup untuk daya pemrosesan terjamin bersama dengan Instans Spot dalam grup lain agar pekerjaan Anda selesai lebih cepat dan dengan biaya yang lebih rendah. Anda juga dapat mencampur tipe instans yang berbeda untuk mengambil keuntungan dari harga yang lebih baik untuk satu jenis Instans Spot dari yang lain. Untuk informasi selengkapnya, lihat [Kapan Anda harus menggunakan Instans Spot?](emr-plan-instances-guidelines.md#emr-plan-spot-instances). 

Selain itu, Amazon EMR menyediakan fleksibilitas untuk menggunakan beberapa sistem file untuk input, output, dan data menengah. Misalnya, Anda dapat memilih Hadoop Distributed File System (HDFS) yang berjalan pada node primer dan inti klaster Anda untuk memproses data yang tidak perlu Anda simpan di luar siklus hidup klaster Anda. Anda dapat memilih Sistem File EMR (EMRFS) untuk menggunakan Amazon S3 sebagai lapisan data untuk aplikasi yang berjalan di klaster Anda sehingga Anda dapat memisahkan komputasi dan penyimpanan Anda, serta mempertahankan data di luar siklus hidup klaster. EMRFS memberikan manfaat tambahan yang memungkinkan Anda meningkatkan atau mengurangi kebutuhan komputasi dan penyimpanan Anda secara independen. Anda dapat menskalakan kebutuhan komputasi dengan mengubah ukuran klaster dan Anda dapat menskalakan kebutuhan penyimpanan dengan menggunakan Amazon S3. Untuk informasi selengkapnya, lihat [Bekerja dengan penyimpanan dan sistem file dengan Amazon EMR](emr-plan-file-systems.md).

## Keandalan
<a name="emr-benefits-reliability"></a>

Amazon EMR memantau simpul dalam klaster Anda dan secara otomatis mengakhiri dan mengganti instans apabila mengalami kegagalan.

Amazon EMR menyediakan opsi konfigurasi yang mengontrol jika klaster Anda dihentikan secara otomatis atau manual. Jika Anda mengonfigurasi klaster agar secara otomatis diakhiri, klaster akan diakhiri setelah semua langkah selesai. Ini disebut sebagai klaster sementara. Namun, Anda dapat mengonfigurasi klaster untuk terus berjalan setelah pemrosesan selesai sehingga Anda dapat memilih untuk mengakhirinya secara manual ketika tidak lagi membutuhkannya. Atau, Anda dapat membuat klaster, berinteraksi dengan aplikasi yang diinstal secara langsung, kemudian secara manual mengakhiri klaster tersebut ketika tidak lagi membutuhkannya. Klaster dalam contoh ini disebut sebagai *klaster yang berjalan lama*. 

Selain itu, Anda dapat mengonfigurasi perlindungan penghentian untuk mencegah instans di klaster Anda diakhiri karena kesalahan atau masalah selama pemrosesan. Ketika perlindungan penghentian diaktifkan, Anda dapat memulihkan data dari instans sebelum penghentian. Pengaturan default untuk opsi ini berbeda bergantung pada apakah Anda memulai klaster menggunakan konsol, CLI, atau API. Untuk informasi selengkapnya, lihat [Menggunakan perlindungan penghentian untuk melindungi kluster EMR Amazon Anda dari penutupan yang tidak disengaja](UsingEMR_TerminationProtection.md).

## Keamanan
<a name="emr-benefits-security"></a>

Amazon EMR memanfaatkan AWS layanan lain, seperti IAM dan Amazon VPC, serta fitur-fitur seperti pasangan kunci Amazon EC2, untuk membantu Anda mengamankan cluster dan data Anda.

### IAM
<a name="emr-benefits-iam"></a>

Amazon EMR terintegrasi dengan IAM untuk mengelola izin. Anda menentukan izin menggunakan kebijakan IAM, yang Anda lampirkan ke pengguna atau grup IAM. Izin yang Anda tetapkan dalam kebijakan menentukan tindakan yang pengguna atau anggota grup dapat lakukan dan sumber daya yang dapat mereka akses. Untuk informasi selengkapnya, lihat [Cara kerja Amazon EMR dengan IAM](security_iam_service-with-iam.md).

Selain itu, Amazon EMR menggunakan peran IAM untuk layanan Amazon EMR itu sendiri dan profil instans EC2 untuk instans. Peran ini memberikan izin untuk layanan dan instans untuk mengakses AWS layanan lain atas nama Anda. Terdapat peran default untuk layanan Amazon EMR dan peran default untuk profil instans EC2. Peran default menggunakan kebijakan AWS terkelola, yang dibuat untuk Anda secara otomatis saat pertama kali meluncurkan klaster EMR dari konsol dan memilih izin default. Anda juga dapat membuat IAM role default dari AWS CLI. Jika Anda ingin mengelola izin alih-alih AWS, Anda dapat memilih peran khusus untuk layanan dan profil instance. Untuk informasi selengkapnya, lihat [Konfigurasikan peran layanan IAM untuk izin AWS EMR Amazon ke layanan dan sumber daya](emr-iam-roles.md).

### Grup keamanan
<a name="emr-benefits-security-groups"></a>

Amazon EMR menggunakan grup keamanan untuk mengontrol lalu lintas masuk dan keluar untuk instans EC2 Anda. Saat meluncurkan klaster, Amazon EMR menggunakan grup keamanan untuk instans utama dan grup keamanan untuk dibagikan oleh core/task instances. Amazon EMR configures the security group rules to ensure communication among the instances in the cluster. Optionally, you can configure additional security groups and assign them to your primary and core/task instans Anda untuk aturan yang lebih canggih. Untuk informasi selengkapnya, lihat [Kontrol lalu lintas jaringan dengan grup keamanan untuk klaster EMR Amazon Anda](emr-security-groups.md).

### Enkripsi
<a name="emr-benefits-encryption"></a>

Amazon EMR mendukung enkripsi di sisi klien dan di sisi server Amazon S3 opsional dengan EMRFS untuk membantu melindungi data yang Anda simpan di Amazon S3. Dengan enkripsi di sisi server, Amazon S3 mengenkripsi data Anda setelah mengunggahnya.

Dengan enkripsi di sisi klien, proses enkripsi dan dekripsi terjadi di klien EMRFS di klaster EMR Anda. Anda mengelola kunci root untuk enkripsi sisi klien menggunakan AWS Key Management Service (AWS KMS) atau sistem manajemen kunci Anda sendiri.

Untuk informasi selengkapnya, lihat [Menentukan enkripsi Amazon S3 menggunakan](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-emrfs-encryption.html) properti EMRFS.

### Amazon VPC
<a name="emr-benefits-vpc"></a>

Amazon EMR mendukung peluncuran klaster dalam virtual private cloud (VPC) di Amazon VPC. VPC adalah jaringan virtual yang terisolasi AWS yang menyediakan kemampuan untuk mengontrol aspek-aspek lanjutan dari konfigurasi dan akses jaringan. Untuk informasi selengkapnya, lihat [Konfigurasikan jaringan di VPC untuk Amazon EMR](emr-plan-vpc-subnet.md).

### AWS CloudTrail
<a name="emr-benefits-cloudtrail"></a>

Amazon EMR terintegrasi dengan CloudTrail untuk mencatat informasi tentang permintaan yang dibuat oleh atau atas nama akun Anda. AWS Dengan informasi ini, Anda dapat melacak siapa yang mengakses klaster Anda dan kapan, dan alamat IP asal mereka membuat permintaan. Untuk informasi selengkapnya, lihat [Pencatatan AWS panggilan EMR API menggunakan AWS CloudTrail](logging-using-cloudtrail.md).

### Pasangan kunci Amazon EC2
<a name="emr-benefits-key-pairs"></a>

Anda dapat memantau dan berinteraksi dengan cluster Anda dengan membentuk koneksi aman antara komputer jarak jauh Anda dan node utama. Anda menggunakan protokol jaringan Secure Shell (SSH) untuk koneksi ini atau menggunakan Kerberos untuk autentikasi. Jika Anda menggunakan SSH, pasangan kunci Amazon EC2 diperlukan. Untuk informasi selengkapnya, lihat [Menggunakan key pair EC2 untuk kredensyal SSH untuk Amazon EMR](emr-plan-access-ssh.md).

## Memantau
<a name="emr-benefits-monitoring"></a>

Anda dapat menggunakan file log dan antarmuka manajemen Amazon EMR untuk memecahkan masalah klaster, seperti kegagalan atau kesalahan. Amazon EMR menyediakan kemampuan untuk mengarsipkan file log di Amazon S3 sehingga Anda dapat menyimpan log dan memecahkan masalah bahkan setelah klaster Anda berakhir. Amazon EMR juga menyediakan alat debugging opsional di konsol Amazon EMR untuk menelusuri file log berdasarkan langkah, pekerjaan, dan tugas. Untuk informasi selengkapnya, lihat [Konfigurasikan pencatatan dan debugging cluster EMR Amazon EMR](emr-plan-debugging.md).

Amazon EMR terintegrasi CloudWatch untuk melacak metrik kinerja untuk klaster dan pekerjaan di dalam klaster. Anda dapat mengonfigurasi alarm berdasarkan berbagai metrik, seperti apakah klaster dalam keadaan diam atau persentase penyimpanan yang digunakan. Untuk informasi selengkapnya, lihat [Memantau metrik Amazon EMR dengan CloudWatch](UsingEMR_ViewingMetrics.md).

## Antarmuka manajemen
<a name="emr-what-tools"></a>

 Ada beberapa cara berinteraksi dengan Amazon EMR: 
+ **Konsol** — Antarmuka pengguna grafis yang dapat Anda gunakan untuk meluncurkan dan mengelola klaster. Dengan itu, Anda mengisi formulir web untuk menentukan detail klaster untuk memulai, melihat detail klaster yang ada, men-debug, dan mengakhiri klaster. Menggunakan konsol adalah cara paling mudah untuk memulai Amazon EMR; tidak memerlukan pengetahuan pemrograman. Konsol tersedia online di [https://console.aws.amazon.com/elasticmapreduce/rumah](https://console.aws.amazon.com/elasticmapreduce/home). 
+ **AWS Command Line Interface (AWS CLI)** - Aplikasi klien yang Anda jalankan di mesin lokal Anda untuk terhubung ke Amazon EMR dan membuat serta mengelola cluster. AWS CLI Ini berisi serangkaian perintah kaya fitur khusus untuk Amazon EMR. Dengan itu, Anda dapat menulis skrip yang mengotomatiskan proses peluncuran dan pengelolaan klaster. Jika Anda lebih suka bekerja dari baris perintah, menggunakan AWS CLI adalah opsi terbaik. Untuk informasi lebih lanjut, lihat [Amazon EMR](https://docs.aws.amazon.com/cli/latest/reference/emr/index.html) dalam *Referensi Perintah AWS CLI *.
+ **Software Development Kit (SDK)** - SDKs menyediakan fungsi yang memanggil Amazon EMR untuk membuat dan mengelola cluster. Dengan SDK, Anda dapat menulis aplikasi yang mengotomatiskan proses pembuatan dan pengelolaan klaster. Menggunakan SDK adalah opsi terbaik untuk memperluas atau menyesuaikan fungsi Amazon EMR. Amazon EMR saat ini tersedia sebagai berikutSDKs: Go, Java, .NET (C \$1 dan VB.NET), Node.js, PHP, Python, dan Ruby. Untuk informasi selengkapnya tentang ini SDKs, lihat [Alat untuk AWS](https://aws.amazon.com/tools/) dan [kode sampel EMR Amazon &](https://docs.aws.amazon.com/code-library/latest/ug/emr_code_examples.html) pustaka. 
+ **Layanan Web API** — Antarmuka tingkat rendah yang dapat Anda gunakan untuk memanggil layanan web secara langsung, menggunakan JSON. Menggunakan API ini adalah opsi terbaik untuk membuat SDK khusus yang memanggil Amazon EMR. Untuk informasi lebih lanjut, lihat [Referensi Amazon EMR API](https://docs.aws.amazon.com/ElasticMapReduce/latest/API/Welcome.html). 

# Arsitektur Amazon EMR dan lapisan layanan
<a name="emr-overview-arch"></a>

Arsitektur layanan Amazon EMR terdiri dari beberapa lapisan, yang masing-masing menyediakan kemampuan dan fungsi tertentu untuk klaster. Bagian ini memberikan gambaran umum tentang lapisan dan komponen masing-masing.

**Topics**
+ [Penyimpanan](#emr-arch-storage)
+ [Manajemen sumber daya klaster](#emr-arch-resource-management)
+ [Kerangka kerja pemrosesan data](#emr-arch-processing-frameworks)
+ [Aplikasi dan program](#emr-arch-applications)

## Penyimpanan
<a name="emr-arch-storage"></a>

Lapisan penyimpanan mencakup sistem file yang berbeda yang digunakan dengan klaster Anda. Terdapat beberapa jenis opsi penyimpanan sebagai berikut.

### Sistem File Terdistribusi Hadoop (HDFS)
<a name="emr-storage-hdfs"></a>

Sistem File Terdistribusi Hadoop (HDFS) adalah sistem file terdistribusi dan dapat diskalakan untuk Hadoop. HDFS mendistribusikan data yang disimpan di seluruh instans di klaster, menyimpan beberapa salinan data pada instans yang berbeda untuk memastikan tidak ada data yang hilang jika instans individu gagal. HDFS adalah penyimpanan sementara yang diklaim ulang ketika Anda mengakhiri sebuah klaster. HDFS berguna untuk caching hasil antara selama MapReduce pemrosesan atau untuk beban kerja yang memiliki I/O acak yang signifikan. 

Untuk informasi lebih lanjut, lihat [Opsi dan perilaku penyimpanan instans di Amazon EMR](emr-plan-storage.md) di panduan ini atau kunjungi [Panduan Pengguna HDFS](http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html) di situs web Apache Hadoop.

### EMR File System (EMRFS)
<a name="emr-storage-emrfs"></a>

Dengan menggunakan EMR File System (EMRFS), Amazon EMR memperluas Hadoop untuk menambahkan kemampuan untuk mengakses data secara langsung yang tersimpan di Amazon S3 seolah-olah itu adalah sistem file seperti HDFS. Anda dapat menggunakan HDFS atau Amazon S3 sebagai sistem file dalam klaster Anda. Paling sering, Amazon S3 digunakan untuk menyimpan data input dan output dan hasil intermediate yang disimpan dalam HDFS.

### Sistem file lokal
<a name="emr-storage-lfs"></a>

Sistem file lokal mengacu pada disk yang terhubung secara lokal. Ketika Anda membuat klaster Hadoop, setiap simpul dibuat dari instans Amazon EC2 yang datang dengan blok yang telah dikonfigurasi dari penyimpanan disk yang telah terlampir yang disebut penyimpanan instans. Data pada volume penyimpanan instans hanya bertahan selama masa hidup instans Amazon EC2-nya.

## Manajemen sumber daya klaster
<a name="emr-arch-resource-management"></a>

Lapisan manajemen sumber daya bertanggung jawab untuk mengelola sumber daya klaster dan menjadwalkan pekerjaan untuk memproses data.

Secara default, Amazon EMR menggunakan YARN (Yet Another Resource Negotiator), yang merupakan komponen yang diperkenalkan di Apache Hadoop 2.0 untuk mengelola sumber daya klaster secara terpusat untuk beberapa kerangka kerja pemrosesan data. Namun, terdapat kerangka kerja dan aplikasi lain yang ditawarkan di Amazon EMR yang tidak menggunakan YARN sebagai manajer sumber daya. Amazon EMR juga memiliki agen pada setiap simpul yang mengelola komponen YARN, menjaga klaster tetap sehat, dan berkomunikasi dengan Amazon EMR.

Karena Instans Spot sering digunakan untuk menjalankan simpul tugas, Amazon EMR memiliki fungsi default untuk penjadwalan pekerjana YARN sehingga menjalankan pekerjaan tidak akan gagal ketika simpul tugas yang berjalan di Instans Spot diakhiri. Amazon EMR melakukan ini dengan mengizinkan proses utama aplikasi berjalan hanya pada simpul inti. Proses utama aplikasi mengontrol tugas yang sedang berjalan dan harus tetap hidup selama masa tugas.

Amazon EMR merilis 5.19.0 dan yang lebih baru menggunakan fitur [label node YARN](https://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/NodeLabel.html) bawaan untuk mencapai ini. (Versi sebelumnya menggunakan patch kode). Properti dalam klasifikasi konfigurasi `yarn-site` dan `capacity-scheduler` dikonfigurasi secara default sehingga YARN capacity-scheduler dan fair-scheduler memanfaatkan label simpul. Amazon EMR secara otomatis melabeli simpul inti dengan label `CORE`, dan menetapkan properti sehingga utama aplikasi dijadwalkan hanya pada simpul dengan label INTI. Secara manual memodifikasi properti terkait di klasifikasi konfigurasi yarn-site dan penjadwal kapasitas, atau secara langsung dalam file XML terkait, dapat merusak fitur ini atau memodifikasi fungsi ini.

## Kerangka kerja pemrosesan data
<a name="emr-arch-processing-frameworks"></a>

Lapisan kerangka kerja pemrosesan data adalah mesin yang digunakan untuk memproses dan menganalisis data. Terdapat banyak kerangka kerja yang tersedia yang berjalan pada YARN atau memiliki manajemen sumber daya mereka sendiri. Kerangka kerja yang berbeda tersedia untuk berbagai jenis kebutuhan pemrosesan, seperti batch, interaktif, dalam memori, streaming, dan sebagainya. Kerangka kerja yang Anda pilih bergantung pada kasus penggunaan Anda. Ini memberi dampak pada bahasa dan antarmuka yang tersedia dari lapisan aplikasi, yang merupakan lapisan yang digunakan untuk berinteraksi dengan data yang ingin Anda proses. Kerangka kerja pemrosesan utama yang tersedia untuk Amazon EMR adalah MapReduce Hadoop dan Spark. 

### Hadoop MapReduce
<a name="emr-processing-framework-mapreduce"></a>

Hadoop MapReduce adalah model pemrograman open-source untuk komputasi terdistribusi. Alat ini menyederhanakan proses penulisan aplikasi terdistribusi paralel dengan menangani semua logika, sementara Anda memberikan fungsi Map dan Reduce. Fungsi Map memetakan data untuk mengatur pasangan nilai kunci yang disebut hasil intermediate. Fungsi Reduce menggabungkan hasil intermediate, menerapkan algoritme tambahan, dan memproduksi output akhir. Ada beberapa kerangka kerja yang tersedia untuk MapReduce, seperti Hive, yang secara otomatis menghasilkan program Map dan Reduce.

Untuk informasi lebih lanjut, buka [Bagaimana operasi map dan reduce sebenarnya dilakukan](http://wiki.apache.org/hadoop2/HadoopMapReduce) di situs web Apache Hadoop Wiki.

### Apache Spark
<a name="emr-processing-framework-spark"></a>

Spark adalah kerangka kerja klaster dan model pemrograman untuk memproses beban kerja big data. Seperti Hadoop MapReduce, Spark adalah sistem pemrosesan terdistribusi open-source tetapi menggunakan grafik asiklik terarah untuk rencana eksekusi dan caching dalam memori untuk kumpulan data. Ketika Anda menjalankan Spark di Amazon EMR, Anda dapat menggunakan EMRFS untuk secara langsung mengakses data Anda di Amazon S3. Spark mendukung beberapa modul kueri interaktif seperti SparkSQL.

Untuk informasi selengkapnya, lihat [Apache Spark pada klaster Amazon EMR](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-spark.html) di *Panduan Rilis Amazon EMR*.

## Aplikasi dan program
<a name="emr-arch-applications"></a>

Amazon EMR mendukung banyak aplikasi seperti Hive, Pig, dan perpustakaan Spark Streaming untuk menyediakan kemampuan seperti menggunakan bahasa tingkat yang lebih tinggi untuk membuat beban kerja pemrosesan, memanfaatkan algoritme pembelajaran mesin, membuat aplikasi pemrosesan aliran, dan membangun gudang data. Selain itu, Amazon EMR juga mendukung proyek sumber terbuka yang memiliki fungsi manajemen klaster mereka sendiri daripada menggunakan YARN.

Anda menggunakan berbagai pustaka dan bahasa untuk berinteraksi dengan aplikasi yang Anda jalankan di Amazon EMR. Misalnya, Anda dapat menggunakan Java, Hive, atau Pig dengan MapReduce atau Spark Streaming, Spark SQL, MLlib dan GraphX dengan Spark.

Untuk informasi selengkapnya, lihat [Panduan Rilis Amazon EMR](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/).