

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Tutorial: Memulai dengan Amazon EMR
<a name="emr-gs"></a>

Berjalanlah melalui alur kerja untuk menyiapkan cluster EMR Amazon dengan cepat dan menjalankan aplikasi Spark.

## Menyiapkan cluster EMR Amazon Anda
<a name="emr-getting-started-overview"></a>

Dengan Amazon EMR, Anda dapat menyiapkan klaster untuk memproses dan menganalisis data dengan kerangka kerja data besar hanya dalam beberapa menit. Tutorial ini menunjukkan cara meluncurkan cluster sampel menggunakan Spark, dan cara menjalankan PySpark skrip sederhana yang disimpan di bucket Amazon S3. Tutorial ini membahas tugas-tugas penting Amazon EMR dalam tiga kategori alur kerja utama: Rencanakan dan Konfigurasi, Kelola, dan Bersihkan.

Anda akan menemukan tautan ke topik yang lebih rinci saat Anda mengerjakan tutorial, dan ide untuk langkah-langkah tambahan di [Langkah selanjutnya](#emr-gs-next-steps) bagian ini. Jika Anda memiliki pertanyaan atau bingung, hubungi tim Amazon EMR di [Forum diskusi](https://forums.aws.amazon.com/forum.jspa?forumID=52) kami.

![\[Diagram alur kerja untuk Amazon EMR yang menguraikan tiga kategori alur kerja utama dari Rencanakan dan Konfigurasi, Kelola, dan Bersihkan.\]](http://docs.aws.amazon.com/id_id/emr/latest/ManagementGuide/images/emr-workflow.png)


**Prasyarat**
+ Sebelum Anda meluncurkan klaster Amazon EMR, pastikan Anda menyelesaikan tugas dalam [Sebelum Anda mengatur Amazon EMR](emr-setting-up.md).

**Biaya**
+ Klaster sampel yang Anda buat berjalan di lingkungan langsung. Cluster menghasilkan biaya minimal. Untuk menghindari biaya tambahan, pastikan Anda menyelesaikan tugas pembersihan di langkah terakhir tutorial ini. Biaya bertambah pada tingkat per detik sesuai dengan harga Amazon EMR. Biaya juga bervariasi menurut Wilayah. Untuk informasi lebih lanjut, lihat [Harga Amazon EMR](https://aws.amazon.com/emr/pricing).
+ Biaya minimal mungkin timbul untuk file kecil yang Anda simpan di Amazon S3. Beberapa atau semua biaya untuk Amazon S3 mungkin dibebaskan jika Anda berada dalam batas penggunaan Tingkat Gratis. AWS Untuk informasi selengkapnya, lihat [Harga Amazon S3](https://aws.amazon.com/s3/pricing) dan [Tingkat Gratis AWS](https://aws.amazon.com/free/).

## Langkah 1: Konfigurasikan sumber daya data dan luncurkan kluster EMR Amazon
<a name="emr-getting-started-plan-and-configure"></a>

### Siapkan penyimpanan untuk Amazon EMR
<a name="emr-getting-started-prepare-storage"></a>

Saat Anda menggunakan Amazon EMR, Anda dapat memilih dari berbagai sistem file untuk menyimpan data input, data output, dan file log. Dalam tutorial ini, Anda menggunakan EMRFS untuk menyimpan data dalam bucket S3. EMRFS adalah implementasi dari sistem file Hadoop yang memungkinkan Anda membaca dan menulis file biasa ke Amazon S3. Untuk informasi selengkapnya, lihat [Bekerja dengan penyimpanan dan sistem file dengan Amazon EMR](emr-plan-file-systems.md).

Untuk membuat bucket untuk tutorial ini, ikuti petunjuk di [Bagaimana cara membuat bucket S3?](https://docs.aws.amazon.com/AmazonS3/latest/user-guide/create-bucket.html) di *Panduan Pengguna Konsol Layanan Penyimpanan Sederhana Amazon*. Buat bucket di AWS Wilayah yang sama tempat Anda berencana meluncurkan kluster EMR Amazon Anda. Misalnya, US West (Oregon) us-west-2. 

Bucket dan folder yang Anda gunakan dengan Amazon EMR memiliki keterbatasan berikut:
+ Nama dapat terdiri dari huruf kecil, angka, titik (.), dan tanda hubung (-).
+ Nama tidak dapat diakhiri dengan angka.
+ Nama bucket harus unik *di seluruh akun AWS .*
+ Folder output harus kosong.

### Siapkan aplikasi dengan data input untuk Amazon EMR
<a name="emr-getting-started-prepare-app"></a>

Cara paling umum untuk menyiapkan aplikasi untuk Amazon EMR adalah dengan mengunggah aplikasi dan data inputnya ke Amazon S3. Kemudian, ketika Anda mengirimkan pekerjaan ke cluster Anda, Anda menentukan lokasi Amazon S3 untuk skrip dan data Anda.

Pada langkah ini, Anda mengunggah PySpark skrip sampel ke bucket Amazon S3 Anda. Kami telah menyediakan PySpark skrip untuk Anda gunakan. Skrip memproses data inspeksi pembentukan makanan dan mengembalikan file hasil di bucket S3 Anda. File hasil mencantumkan sepuluh perusahaan teratas dengan pelanggaran tipe “Merah” paling banyak.

Anda juga mengunggah data input sampel ke Amazon S3 agar PySpark skrip dapat diproses. Data input adalah versi modifikasi dari hasil inspeksi Departemen Kesehatan di King County, Washington, dari 2006 hingga 2020. Untuk informasi selengkapnya, lihat [King County Open Data: Food Establishment Inspection Data](https://data.kingcounty.gov/Health-Wellness/Food-Establishment-Inspection-Data/f29f-zza5). Jangan mengunduh data restoran untuk tutorial ini langsung dari situs web King County, karena ini adalah file yang sangat besar. Kami menyediakan unduhan di bawah ini yang memiliki file dengan catatan lebih sedikit, untuk membantu menyelesaikan tutorial. Berikut ini adalah baris sampel dari set data.

```
name,inspection_result,inspection_closed_business,violation_type,violation_points
100 LB CLAM,Unsatisfactory,FALSE,BLUE,5
100 PERCENT NUTRICION,Unsatisfactory,FALSE,BLUE,5
7-ELEVEN #2361-39423A,Complete,FALSE,,0
```

**Untuk mempersiapkan contoh PySpark script untuk EMR**

1. Salin contoh kode di bawah ini ke file baru di editor pilihan Anda.

   ```
   import argparse
   
   from pyspark.sql import SparkSession
   
   def calculate_red_violations(data_source, output_uri):
       """
       Processes sample food establishment inspection data and queries the data to find the top 10 establishments
       with the most Red violations from 2006 to 2020.
   
       :param data_source: The URI of your food establishment data CSV, such as 's3://amzn-s3-demo-bucket/food-establishment-data.csv'.
       :param output_uri: The URI where output is written, such as 's3://amzn-s3-demo-bucket/restaurant_violation_results'.
       """
       with SparkSession.builder.appName("Calculate Red Health Violations").getOrCreate() as spark:
           # Load the restaurant violation CSV data
           if data_source is not None:
               restaurants_df = spark.read.option("header", "true").csv(data_source)
   
           # Create an in-memory DataFrame to query
           restaurants_df.createOrReplaceTempView("restaurant_violations")
   
           # Create a DataFrame of the top 10 restaurants with the most Red violations
           top_red_violation_restaurants = spark.sql("""SELECT name, count(*) AS total_red_violations 
             FROM restaurant_violations 
             WHERE violation_type = 'RED' 
             GROUP BY name 
             ORDER BY total_red_violations DESC LIMIT 10""")
   
           # Write the results to the specified output URI
           top_red_violation_restaurants.write.option("header", "true").mode("overwrite").csv(output_uri)
   
   if __name__ == "__main__":
       parser = argparse.ArgumentParser()
       parser.add_argument(
           '--data_source', help="The URI for you CSV restaurant data, like an S3 bucket location.")
       parser.add_argument(
           '--output_uri', help="The URI where output is saved, like an S3 bucket location.")
       args = parser.parse_args()
   
       calculate_red_violations(args.data_source, args.output_uri)
   ```

1. Simpan file sebagai `health_violations.py`.

1. Unggah `health_violations.py` ke Amazon S3 ke dalam bucket yang Anda buat untuk tutorial ini. Untuk petunjuknya, lihat [Mengunggah objek ke bucket](https://docs.aws.amazon.com/AmazonS3/latest/userguide/GetStartedWithS3.html#uploading-an-object-bucket) di *Panduan Memulai Layanan Penyimpanan Sederhana Amazon*.

**Untuk menyiapkan data input sampel untuk EMR**

1. Unduh file zip, [food\$1establishment\$1data.zip](samples/food_establishment_data.zip).

1. Buka zip dan simpan `food_establishment_data.zip` seperti `food_establishment_data.csv` pada mesin Anda.

1. Unggah file CSV ke bucket S3 yang telah Anda buat untuk tutorial ini. Untuk petunjuknya, lihat [Mengunggah objek ke bucket](https://docs.aws.amazon.com/AmazonS3/latest/userguide/GetStartedWithS3.html#uploading-an-object-bucket) di *Panduan Memulai Layanan Penyimpanan Sederhana Amazon*.

Untuk informasi lebih lanjut tentang penyiapan data untuk EMR, lihat [Siapkan data input untuk diproses dengan Amazon EMR](emr-plan-input.md).

### Meluncurkan klaster Amazon EMR
<a name="emr-getting-started-launch-sample-cluster"></a>

Setelah menyiapkan lokasi penyimpanan dan aplikasi, Anda dapat meluncurkan contoh klaster EMR Amazon. Pada langkah ini, Anda meluncurkan cluster Apache Spark menggunakan versi rilis Amazon [EMR terbaru](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-release-components.html).

------
#### [ Console ]

**Untuk meluncurkan cluster dengan Spark diinstal dengan konsol**

1. [Masuk ke Konsol Manajemen AWS, dan buka konsol EMR Amazon di https://console.aws.amazon.com /emr.](https://console.aws.amazon.com/emr)

1. **Di bawah **EMR pada EC2** di panel navigasi kiri, pilih Clusters, lalu pilih **Create cluster**.**

1. Pada halaman **Create Cluster**, perhatikan nilai default untuk **Release**, **Instance type**, **Number of instance**, dan **Permissions**. Bidang ini secara otomatis diisi dengan nilai yang berfungsi untuk klaster tujuan umum.

1. Di bidang **Nama cluster**, masukkan nama cluster unik untuk membantu Anda mengidentifikasi klaster Anda, seperti*My first cluster*. Nama cluster Anda tidak dapat berisi karakter <, >, \$1, \$1, atau `(backtick).

1. Di bawah **Aplikasi**, pilih opsi **Spark** untuk menginstal Spark pada klaster Anda.
**catatan**  
Pilih aplikasi yang Anda inginkan di cluster EMR Amazon Anda sebelum Anda meluncurkan cluster. Anda tidak dapat menambah atau menghapus aplikasi dari klaster setelah peluncuran.

1. Di bawah **Log klaster**, pilih kotak centang Publikasikan log khusus klaster ke Amazon S3. Ganti nilai **lokasi Amazon S3** dengan bucket Amazon S3 yang Anda buat, diikuti. **/logs** Misalnya, **s3://amzn-s3-demo-bucket/logs**. Menambahkan **/logs** membuat folder baru bernama 'log' di bucket Anda, tempat Amazon EMR dapat menyalin file log klaster Anda.

1. Di bawah **Konfigurasi dan izin keamanan**, pilih **key pair EC2** Anda. **Di bagian yang sama, pilih menu tarik-turun **peran Layanan untuk Amazon EMR** dan pilih EMR\$1. DefaultRole** **Kemudian, pilih **peran IAM misalnya menu tarik-turun profil** dan pilih EMR\$1 \$1. EC2 DefaultRole** 

1. Pilih **Buat cluster** untuk meluncurkan cluster dan membuka halaman rincian cluster.

1. Temukan **Status** cluster di sebelah nama cluster. Status berubah dari **Mulai **Berjalan**** menjadi **Menunggu** karena Amazon EMR menyediakan klaster. Anda mungkin perlu memilih ikon penyegaran di sebelah kanan atau menyegarkan browser Anda untuk melihat pembaruan status.

Status klaster Anda berubah menjadi **Waiting** saat klaster aktif, berjalan, dan siap menerima pekerjaan. Untuk informasi selengkapnya tentang membaca ringkasan klaster, lihat [Lihat status dan detail klaster EMR Amazon](emr-manage-view-clusters.md). Untuk informasi tentang status klaster, lihat [Memahami siklus hidup klaster](emr-overview.md#emr-overview-cluster-lifecycle).

------
#### [ CLI ]

**Untuk meluncurkan cluster dengan Spark diinstal dengan AWS CLI**

1. Buat peran default IAM yang kemudian dapat Anda gunakan untuk membuat cluster Anda dengan menggunakan perintah berikut.

   ```
   aws emr create-default-roles
   ```

   Untuk informasi selengkapnya`create-default-roles`, lihat [Referensi AWS CLI Perintah](https://docs.aws.amazon.com/cli/latest/reference/emr/create-default-roles.html).

1. Buat klaster Spark Anda dengan perintah berikut. Masukkan nama klaster Anda dengan opsi `--name`, dan tentukan nama pasangan kunci EC2 Anda dengan opsi `--ec2-attributes`.

   ```
   aws emr create-cluster \
   --name "<My First EMR Cluster>" \
   --release-label <emr-5.36.2> \
   --applications Name=Spark \
   --ec2-attributes KeyName=<myEMRKeyPairName> \
   --instance-type m5.xlarge \
   --instance-count 3 \
   --use-default-roles
   ```

   Perhatikan nilai lain yang diperlukan untuk `--instance-type`, `--instance-count`, dan `--use-default-roles`. Nilai-nilai ini telah dipilih untuk klaster tujuan umum. Untuk informasi selengkapnya`create-cluster`, lihat [Referensi AWS CLI Perintah](https://docs.aws.amazon.com/cli/latest/reference/emr/create-cluster.html).
**catatan**  
Karakter lanjutan baris Linux (\$1) disertakan agar mudah dibaca Karakter ini bisa dihapus atau digunakan dalam perintah Linux. Untuk Windows, hapus atau ganti dengan tanda sisipan (^).

   Anda akan melihat output seperti berikut. Output menunjukkan `ClusterId` dan `ClusterArn` dari cluster baru Anda. Perhatikan Anda`ClusterId`. Anda menggunakan `ClusterId` untuk memeriksa status klaster dan mengirimkan pekerjaan.

   ```
   {
       "ClusterId": "myClusterId",
       "ClusterArn": "myClusterArn"
   }
   ```

1. Periksa status klaster Anda dengan perintah berikut.

   ```
   aws emr describe-cluster --cluster-id <myClusterId>						
   ```

   Anda akan melihat output seperti berikut dengan `Status` objek untuk cluster baru Anda.

   ```
   {
       "Cluster": {
           "Id": "myClusterId",
           "Name": "My First EMR Cluster",
           "Status": {
               "State": "STARTING",
               "StateChangeReason": {
                   "Message": "Configuring cluster software"
               }
           }
        }
   }
   ```

   `State`Nilai berubah dari `STARTING` menjadi `RUNNING` `WAITING` karena Amazon EMR menyediakan cluster.

Status klaster berubah menjadi `WAITING` saat klaster aktif, berjalan, dan siap menerima pekerjaan. Untuk informasi tentang status klaster, lihat [Memahami siklus hidup klaster](emr-overview.md#emr-overview-cluster-lifecycle).

------

## Langkah 2: Kirim pekerjaan ke cluster EMR Amazon Anda
<a name="emr-getting-started-manage"></a>

### Kirim pekerjaan dan lihat hasil
<a name="emr-getting-started-submit-spark-step"></a>

Setelah meluncurkan klaster, Anda dapat mengirimkan pekerjaan ke cluster yang sedang berjalan untuk memproses dan menganalisis data. *Anda mengirimkan pekerjaan ke klaster EMR Amazon sebagai langkah.* Langkah adalah unit kerja yang terdiri dari satu atau lebih tindakan. Misalnya, Anda dapat mengirimkan satu langkah untuk mengomputasi nilai, atau untuk mentransfer dan memproses data. Anda dapat mengirimkan langkah-langkah saat membuat klaster, atau ke klaster yang sedang berjalan. Di bagian tutorial ini, Anda mengirimkan `health_violations.py` sebagai langkah ke cluster yang sedang berjalan. Untuk mempelajari lebih lanjut tentang langkah-langkah, lihat[Kirim pekerjaan ke kluster EMR Amazon](emr-work-with-steps.md).

------
#### [ Console ]

**Untuk mengirimkan aplikasi Spark sebagai langkah dengan konsol**

1. [Masuk ke Konsol Manajemen AWS, dan buka konsol EMR Amazon di https://console.aws.amazon.com /emr.](https://console.aws.amazon.com/emr)

1. Di bawah **EMR pada EC2** di panel navigasi kiri, pilih **Cluster**, lalu pilih cluster tempat Anda ingin mengirimkan pekerjaan. Status cluster harus **Menunggu**.

1. Pilih tab **Langkah**, lalu pilih **Tambah langkah**.

1. Konfigurasikan langkah sesuai dengan pedoman berikut:
   + Untuk **Type**, pilih **aplikasi Spark**. Anda akan melihat bidang tambahan untuk **mode Deploy**, **Lokasi aplikasi**, dan opsi **Spark-submit**.
   + Untuk **Nama**, masukkan nama baru. Jika Anda memiliki banyak langkah dalam sebuah klaster, penamaan setiap langkah membantu Anda melacak mereka.
   + Untuk mode **Deploy, tinggalkan mode** **Cluster** nilai default. Untuk informasi selengkapnya tentang mode penerapan Spark, lihat [Ikhtisar mode cluster di dokumentasi](https://spark.apache.org/docs/latest/cluster-overview.html) Apache Spark.
   + Untuk **lokasi Aplikasi**, masukkan lokasi `health_violations.py` skrip Anda di Amazon S3, seperti. *s3://amzn-s3-demo-bucket/health\$1violations.py*
   + Biarkan bidang **opsi Spark-submit kosong**. Untuk informasi selengkapnya tentang `spark-submit` opsi, lihat [Meluncurkan aplikasi dengan spark-submit](https://spark.apache.org/docs/latest/submitting-applications.html#launching-applications-with-spark-submit). 
   + Dalam bidang **Argumen**, masukkan argumen dan nilai berikut:

     ```
     --data_source s3://amzn-s3-demo-bucket/food_establishment_data.csv
     --output_uri s3://amzn-s3-demo-bucket/myOutputFolder
     ```

     Ganti *s3://amzn-s3-demo-bucket/food\$1establishment\$1data.csv* dengan URI bucket S3 dari data input yang Anda siapkan. [Siapkan aplikasi dengan data input untuk Amazon EMR](#emr-getting-started-prepare-app)

     Ganti *amzn-s3-demo-bucket* dengan nama bucket yang Anda buat untuk tutorial ini, dan ganti *myOutputFolder* dengan nama untuk folder keluaran cluster Anda.
   + Untuk **Tindakan jika langkah gagal**, terima opsi default **Lanjutkan**. Dengan cara ini, jika langkah gagal, cluster terus berjalan.

1. Pilih **Tambahkan** untuk mengirimkan langkah. Langkah akan ditampilkan di konsol dengan status **Tertunda**.

1. Pantau status langkah. Itu harus berubah dari **Pending** ke **Running** ke **Completed**. Untuk menyegarkan status di konsol, pilih ikon penyegaran di sebelah kanan **Filter**. Script membutuhkan waktu sekitar satu menit untuk dijalankan. Ketika status berubah menjadi **Selesai**, langkah telah berhasil diselesaikan.

------
#### [ CLI ]

**Untuk mengirimkan aplikasi Spark sebagai langkah dengan AWS CLI**

1. Pastikan Anda memiliki `ClusterId` dari klaster yang Anda luncurkan di [Meluncurkan klaster Amazon EMR](#emr-getting-started-launch-sample-cluster). Anda juga dapat mengambil ID klaster dengan perintah berikut.

   ```
   aws emr list-clusters --cluster-states WAITING							
   ```

1.  Kirim `health_violations.py` sebagai langkah dengan `add-steps` perintah dan Anda`ClusterId`.
   + Anda dapat menentukan nama untuk langkah Anda dengan mengganti*"My Spark Application"*. Dalam `Args` array, ganti *s3://amzn-s3-demo-bucket/health\$1violations.py* dengan lokasi `health_violations.py` aplikasi Anda.
   + Ganti *s3://amzn-s3-demo-bucket/food\$1establishment\$1data.csv* dengan lokasi S3 dari `food_establishment_data.csv` dataset Anda.
   + Ganti *s3://amzn-s3-demo-bucket/MyOutputFolder* dengan jalur S3 dari bucket yang Anda tentukan dan nama untuk folder keluaran cluster Anda.
   + `ActionOnFailure=CONTINUE`berarti cluster terus berjalan jika langkahnya gagal.

   ```
   aws emr add-steps \
   --cluster-id <myClusterId> \
   --steps Type=Spark,Name="<My Spark Application>",ActionOnFailure=CONTINUE,Args=[<s3://amzn-s3-demo-bucket/health_violations.py>,--data_source,<s3://amzn-s3-demo-bucket/food_establishment_data.csv>,--output_uri,<s3://amzn-s3-demo-bucket/MyOutputFolder>]
   ```

   Untuk informasi selengkapnya tentang mengirimkan langkah-langkah menggunakan CLI, lihat [Referensi Perintah AWS CLI](https://docs.aws.amazon.com/cli/latest/reference/emr/add-steps.html).

   Setelah Anda mengirimkan langkah, Anda akan melihat output seperti berikut dengan daftar`StepIds`. Karena Anda mengirimkan satu langkah, Anda hanya akan melihat satu ID dalam daftar. Salin ID langkah Anda. Anda menggunakan ID langkah Anda untuk memeriksa status langkah.

   ```
   {
       "StepIds": [
           "s-1XXXXXXXXXXA"
       ]
   }
   ```

1. Kueri status langkah Anda dengan `describe-step` perintah.

   ```
   aws emr describe-step --cluster-id <myClusterId> --step-id <s-1XXXXXXXXXXA>							
   ```

   Anda akan melihat output seperti berikut dengan informasi tentang langkah Anda.

   ```
   {
       "Step": {
           "Id": "s-1XXXXXXXXXXA",
           "Name": "My Spark Application",
           "Config": {
               "Jar": "command-runner.jar",
               "Properties": {},
               "Args": [
                   "spark-submit",
                   "s3://amzn-s3-demo-bucket/health_violations.py",
                   "--data_source",
                   "s3://amzn-s3-demo-bucket/food_establishment_data.csv",
                   "--output_uri",
                   "s3://amzn-s3-demo-bucket/myOutputFolder"
               ]
           },
           "ActionOnFailure": "CONTINUE",
           "Status": {
               "State": "COMPLETED"
           }
       }
   }
   ```

   `State` dari langkah berubah dari `PENDING` ke `RUNNING` ke `COMPLETED` selagi langkah berjalan. Langkah ini memakan waktu sekitar satu menit untuk dijalankan, jadi Anda mungkin perlu memeriksa status beberapa kali.

Anda akan tahu langkah berhasil selesai ketika `State` berubah ke `COMPLETED`.

------

Untuk informasi lebih lanjut tentang siklus hidup langkah, lihat [Menjalankan langkah-langkah untuk memproses data](emr-overview.md#emr-overview-steps).

### Lihat hasil
<a name="emr-getting-started-view-results"></a>

Setelah langkah berjalan dengan sukses, Anda dapat melihat hasil outputnya di folder keluaran Amazon S3 Anda.

**Untuk melihat hasil `health_violations.py`**

1. Buka konsol Amazon S3 di. [https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/)

1. Pilih **Nama bucket** kemudian folder output yang Anda tentukan ketika Anda mengirimkan langkah. Misalnya, *amzn-s3-demo-bucket* dan kemudian*myOutputFolder*. 

1. Verifikasi bahwa item berikut muncul di folder keluaran Anda:
   + Sebuah benda berukuran kecil disebut. `_SUCCESS`
   + File CSV dimulai dengan awalan `part-` yang berisi hasil Anda.

1. Pilih objek dengan hasil Anda, lalu pilih **Unduh** untuk menyimpan hasilnya ke sistem file lokal Anda.

1. Buka hasilnya di editor pilihan Anda. File output mencantumkan sepuluh perusahaan makanan teratas dengan pelanggaran paling merah. File output juga menunjukkan jumlah total pelanggaran merah untuk setiap pendirian.

   Berikut ini adalah contoh `health_violations.py` hasil.

   ```
   name, total_red_violations
   SUBWAY, 322
   T-MOBILE PARK, 315
   WHOLE FOODS MARKET, 299
   PCC COMMUNITY MARKETS, 251
   TACO TIME, 240
   MCDONALD'S, 177
   THAI GINGER, 153
   SAFEWAY INC #1508, 143
   TAQUERIA EL RINCONSITO, 134
   HIMITSU TERIYAKI, 128
   ```

Untuk informasi lebih lanjut tentang output klaster Amazon EMR, lihat [Konfigurasikan lokasi untuk keluaran kluster EMR Amazon](emr-plan-output.md).

### (Opsional) Hubungkan ke klaster EMR Amazon yang sedang berjalan
<a name="emr-getting-started-connect-to-cluster"></a>

Saat Anda menggunakan Amazon EMR, Anda mungkin ingin terhubung ke cluster yang sedang berjalan untuk membaca file log, men-debug cluster, atau menggunakan alat CLI seperti shell Spark. Amazon EMR memungkinkan Anda terhubung ke cluster menggunakan protokol Secure Shell (SSH). Bagian ini mencakup cara mengkonfigurasi SSH, terhubung ke cluster Anda, dan melihat file log untuk Spark. Untuk informasi selengkapnya tentang menghubungkan ke klaster, lihat[Autentikasi ke simpul klaster Amazon EMR](emr-authenticate-cluster-connections.md).

#### Otorisasi koneksi SSH ke cluster Anda
<a name="emr-getting-started-restrict-ssh"></a>

Sebelum Anda terhubung ke cluster Anda, Anda perlu memodifikasi grup keamanan klaster Anda untuk mengotorisasi koneksi SSH masuk. Grup keamanan Amazon EC2 bertindak sebagai firewall virtual untuk mengontrol lalu lintas masuk dan keluar ke cluster Anda. Saat Anda membuat cluster untuk tutorial ini, Amazon EMR membuat grup keamanan berikut atas nama Anda:

**ElasticMapReduce-menguasai**  
Grup keamanan terkelola Amazon EMR default yang terkait dengan node utama. Dalam klaster EMR Amazon, node utama adalah instans Amazon EC2 yang mengelola cluster.

**ElasticMapReduce-budak**  
Grup keamanan keamanan default yang terkait dengan simpul tugas dan core.

------
#### [ Console ]

**Untuk memungkinkan akses SSH untuk sumber tepercaya untuk grup keamanan utama dengan konsol**

Untuk mengedit grup keamanan, Anda harus memiliki izin untuk mengelola grup keamanan untuk VPC tempat klaster berada. Untuk informasi [selengkapnya, lihat Mengubah Izin untuk pengguna](https://docs.aws.amazon.com//IAM/latest/UserGuide/id_users_change-permissions.html) dan [Kebijakan Contoh](https://docs.aws.amazon.com//IAM/latest/UserGuide/reference_policies_examples_ec2_securitygroups-vpc.html) yang memungkinkan mengelola grup keamanan EC2 di Panduan Pengguna *IAM*.

1. [Masuk ke Konsol Manajemen AWS, dan buka konsol EMR Amazon di https://console.aws.amazon.com /emr.](https://console.aws.amazon.com/emr)

1. Di bawah **EMR pada EC2** di panel navigasi kiri, pilih Cluster, lalu pilih **cluster** yang ingin Anda perbarui. Ini membuka halaman detail cluster. Tab **Properties** pada halaman ini harus dipilih sebelumnya.

1. Di bawah **Jaringan** di tab **Properties**, pilih panah di sebelah **grup keamanan EC2 (firewall)** untuk memperluas bagian ini. Di bawah **Simpul utama**, pilih tautan grup keamanan. Ketika Anda telah menyelesaikan langkah-langkah berikut, Anda dapat secara opsional kembali ke langkah ini, memilih **Core dan node tugas**, dan ulangi langkah-langkah berikut untuk memungkinkan akses klien SSH ke inti dan node tugas.

1. Ini membuka konsol EC2. Pilih tab **Aturan masuk** dan kemudian **Edit aturan masuk**.

1. Memeriksa aturan masuk yang mengizinkan akses publik dengan pengaturan berikut. Jika ada, pilih **Hapus** untuk menghapusnya.
   + **Jenis**

     SSH
   + **Port**

     22
   + **Sumber**

     Kustom 0.0.0.0/0
**Awas**  
Sebelum Desember 2020, grup keamanan ElasticMapReduce -master memiliki aturan yang telah dikonfigurasi sebelumnya untuk mengizinkan lalu lintas masuk di Port 22 dari semua sumber. Aturan ini dibuat untuk menyederhanakan koneksi SSH awal ke simpul utama. Kami sangat menyarankan agar Anda menghapus aturan masuk ini dan membatasi lalu lintas ke sumber tepercaya.

1. Gulir ke bagian bawah daftar aturan dan pilih **Tambahkan Aturan**.

1. Untuk **Jenis**, pilih **SSH**. Memilih SSH secara otomatis memasuki **TCP** untuk **Protokol** dan **22** untuk Rentang **Port**.

1. Untuk sumber, pilih **IP Saya** untuk secara otomatis menambahkan alamat IP Anda sebagai alamat sumber. Anda juga dapat menambahkan berbagai alamat IP klien tepercaya **kustom**, atau membuat aturan tambahan untuk klien lain. Banyak lingkungan jaringan mengalokasikan alamat IP secara dinamis, jadi Anda mungkin perlu memperbarui alamat IP Anda untuk klien tepercaya di masa mendatang.

1. Pilih **Simpan**.

1. Secara opsional, pilih **Core dan node tugas** dari daftar dan ulangi langkah-langkah di atas untuk memungkinkan akses klien SSH ke node inti dan tugas.

------

#### Connect ke cluster Anda menggunakan AWS CLI
<a name="emr-getting-started-connect-ssh"></a>

Terlepas dari sistem operasi Anda, Anda dapat membuat koneksi SSH ke cluster Anda menggunakan file. AWS CLI

**Untuk terhubung ke cluster Anda dan melihat file log menggunakan AWS CLI**

1. Gunakan perintah berikut untuk membuka koneksi SSH ke cluster Anda. Ganti *<mykeypair.key>* dengan path lengkap dan nama file file key pair Anda. Misalnya, `C:\Users\<username>\.ssh\mykeypair.pem`.

   ```
   aws emr ssh --cluster-id <j-2AL4XXXXXX5T9> --key-pair-file <~/mykeypair.key>						
   ```

1. Arahkan `/mnt/var/log/spark` untuk mengakses log Spark di node master cluster Anda. Kemudian lihat file di lokasi itu. Untuk daftar file log tambahan pada node master, lihat[Lihat file log pada simpul utama](emr-manage-view-web-log-files.md#emr-manage-view-web-log-files-master-node).

   ```
   cd /mnt/var/log/spark
   ls
   ```

### Gunakan Amazon SageMaker AI Unified Studio untuk mengelola klaster EMR Amazon Anda
<a name="emr-getting-started-connect-to-cluster-sagemaker"></a>

 Amazon EMR di EC2 juga merupakan jenis komputasi yang didukung untuk Unified Studio. Amazon SageMaker AI Lihat [Mengelola EMR Amazon di EC2](https://docs.aws.amazon.com/sagemaker-unified-studio/latest/userguide/managing-emr-on-ec2.html) untuk mengetahui cara menggunakan dan mengelola EMR pada sumber daya EC2 di Unified Studio. Amazon SageMaker AI 

## Langkah 3: Bersihkan sumber daya Amazon EMR Anda
<a name="emr-getting-started-clean-up"></a>

### Mengakhiri klaster Anda
<a name="emr-getting-started-stop-cluster"></a>

Sekarang setelah Anda mengirimkan pekerjaan ke cluster Anda dan melihat hasil PySpark aplikasi Anda, Anda dapat menghentikan cluster. Mengakhiri klaster menghentikan semua biaya EMR Amazon terkait cluster dan instans Amazon EC2.

Saat Anda menghentikan klaster, Amazon EMR mempertahankan metadata tentang cluster selama dua bulan tanpa biaya. Metadata yang diarsipkan membantu Anda [mengkloning klaster](clone-console.md) untuk pekerjaan baru atau meninjau kembali konfigurasi klaster untuk tujuan referensi. Metadata *tidak* termasuk data yang ditulis cluster ke S3, atau data yang disimpan dalam HDFS di cluster. 

**catatan**  
Konsol EMR Amazon tidak mengizinkan Anda menghapus klaster dari tampilan daftar setelah Anda menghentikan klaster. Klaster yang diakhiri akan menghilang dari konsol ketika Amazon EMR membersihkan metadata. 

------
#### [ Console ]

**Untuk mengakhiri cluster dengan konsol**

1. [Masuk ke Konsol Manajemen AWS, dan buka konsol EMR Amazon di https://console.aws.amazon.com /emr.](https://console.aws.amazon.com/emr)

1. Pilih **Cluster**, lalu pilih cluster yang ingin Anda akhiri.

1. Di bawah menu tarik-turun **Tindakan**, pilih **Hentikan** cluster.

1. Pilih **Hentikan** di kotak dialog. Tergantung pada konfigurasi cluster, penghentian mungkin memakan waktu 5 hingga 10 menit. Untuk informasi selengkapnya tentang cara menggunakan kluster EMR Amazon, lihat. [Mengakhiri klaster EMR Amazon di status awal, berjalan, atau menunggu](UsingEMR_TerminateJobFlow.md)

------
#### [ CLI ]

**Untuk mengakhiri cluster dengan AWS CLI**

1. Memulai proses terminasi cluster dengan perintah berikut. Ganti *<myClusterId>* dengan ID cluster sampel Anda. Perintah tidak mengembalikan output.

   ```
   aws emr terminate-clusters --cluster-ids <myClusterId>
   ```

1. Untuk memeriksa apakah proses terminasi cluster sedang berlangsung, periksa status cluster dengan perintah berikut.

   ```
   aws emr describe-cluster --cluster-id <myClusterId>									
   ```

   Berikut ini adalah contoh output dalam format JSON. Klaster `Status` akan berubah dari **`TERMINATING`** ke **`TERMINATED`**. Penghentian dapat memakan waktu 5 hingga 10 menit tergantung pada konfigurasi cluster Anda. Untuk informasi selengkapnya tentang menghentikan klaster EMR Amazon, lihat. [Mengakhiri klaster EMR Amazon di status awal, berjalan, atau menunggu](UsingEMR_TerminateJobFlow.md)

   ```
   {
       "Cluster": {
           "Id": "j-xxxxxxxxxxxxx",
           "Name": "My Cluster Name",
           "Status": {
               "State": "TERMINATED",
               "StateChangeReason": {
                   "Code": "USER_REQUEST",
                   "Message": "Terminated by user request"
               }
           }
       }
   }
   ```

------

### Menghapus sumber daya S3
<a name="emr-getting-started-delete-bucket"></a>

Untuk menghindari biaya tambahan, Anda harus menghapus bucket Amazon S3 Anda. Menghapus bucket akan menghapus semua resource Amazon S3 untuk tutorial ini. Ember Anda harus berisi:
+  PySpark Naskahnya
+ Dataset masukan
+ Folder hasil keluaran Anda
+ Folder file log Anda

Anda mungkin perlu mengambil langkah ekstra untuk menghapus file yang disimpan jika Anda menyimpan PySpark skrip atau output di lokasi yang berbeda.

**catatan**  
Cluster Anda harus dihentikan sebelum Anda menghapus bucket. Jika tidak, Anda mungkin tidak diizinkan untuk mengosongkan ember.

Untuk menghapus bucket Anda, ikuti petunjuk di [Bagaimana cara menghapus bucket S3?](https://docs.aws.amazon.com/AmazonS3/latest/userguide/delete-bucket.html) di *Panduan Pengguna Layanan Penyimpanan Sederhana Amazon*.

## Langkah selanjutnya
<a name="emr-gs-next-steps"></a>

Anda sekarang telah meluncurkan cluster EMR Amazon pertama Anda dari awal hingga akhir. Anda juga telah menyelesaikan tugas-tugas EMR penting seperti menyiapkan dan mengirimkan aplikasi data besar, melihat hasil, dan mengakhiri cluster. 

Gunakan topik berikut untuk mempelajari lebih lanjut tentang cara menyesuaikan alur kerja EMR Amazon Anda.

### Menjelajahi aplikasi big data untuk Amazon EMR
<a name="emr-gs-next-explore-apps"></a>

Temukan dan bandingkan aplikasi big data yang dapat Anda instal pada klaster dalam [Panduan Rilis Amazon EMR](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-release-components.html). Panduan Rilis merinci setiap versi rilis EMR dan menyertakan tips untuk menggunakan kerangka kerja seperti Spark dan Hadoop di Amazon EMR.

### Merencanakan perangkat keras, jaringan, dan keamanan klaster
<a name="emr-gs-next-plan-clusters"></a>

Dalam tutorial ini, Anda membuat cluster EMR sederhana tanpa mengkonfigurasi opsi lanjutan. Opsi lanjutan memungkinkan Anda menentukan jenis instans Amazon EC2, jaringan klaster, dan keamanan klaster. Untuk informasi selengkapnya tentang perencanaan dan peluncuran klaster yang memenuhi persyaratan Anda, lihat [Rencanakan, konfigurasikan, dan luncurkan kluster EMR Amazon](emr-plan.md) dan[Keamanan di Amazon EMR](emr-security.md).

### Mengelola klaster
<a name="emr-gs-next-manage-clusters"></a>

Selami lebih dalam bekerja dengan menjalankan cluster. [Kelola kluster EMR Amazon](emr-manage.md) Untuk mengelola klaster, Anda dapat terhubung ke klaster, langkah debug, dan melacak aktivitas dan kesehatan klaster. Anda juga dapat menyesuaikan sumber daya klaster sebagai respons terhadap tuntutan beban kerja dengan penskalaan [terkelola EMR](emr-managed-scaling.md).

### Menggunakan antarmuka yang berbeda
<a name="emr-gs-next-interfaces"></a>

Selain konsol EMR Amazon, Anda dapat mengelola EMR Amazon menggunakan, API layanan web AWS Command Line Interface, atau salah satu dari banyak yang didukung. AWS SDKs Untuk informasi selengkapnya, lihat [Antarmuka manajemen](emr-overview-benefits.md#emr-what-tools).

Anda juga dapat berinteraksi dengan aplikasi yang diinstal pada cluster EMR Amazon dalam banyak cara. Beberapa aplikasi seperti Apache Hadoop mempublikasikan antarmuka web yang dapat Anda lihat. Untuk informasi selengkapnya, lihat [Melihat antarmuka web yang di-host pada klaster Amazon EMR](emr-web-interfaces.md).

### Menelusuri blog teknis EMR
<a name="emr-gs-next-browse-blogs"></a>

[Untuk contoh penelusuran dan diskusi teknis mendalam tentang fitur EMR Amazon baru, lihat blog data besar.AWS](https://aws.amazon.com/blogs/big-data/tag/amazon-emr/)