

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Persiapan data menggunakan sesi AWS Glue interaktif
<a name="studio-notebooks-glue"></a>

[AWS Glue sesi interaktif](https://docs.aws.amazon.com/glue/latest/dg/interactive-sessions-overview.html) adalah layanan tanpa server yang dapat Anda daftarkan untuk mengumpulkan, mengubah, membersihkan, dan menyiapkan data untuk penyimpanan di danau data dan jalur data Anda. AWS Glue sesi interaktif menyediakan lingkungan runtime Apache Spark tanpa server sesuai permintaan yang dapat Anda inisialisasi dalam hitungan detik pada Unit Pemrosesan Data (DPU) khusus tanpa harus menyediakan dan mengelola infrastruktur cluster komputasi yang kompleks. Setelah inisialisasi, Anda dapat menelusuri katalog AWS Glue data, menjalankan kueri besar, mengakses data yang diatur oleh AWS Lake Formation, dan menganalisis dan menyiapkan data secara interaktif menggunakan Spark, langsung di notebook Studio atau Studio Classic Anda. Anda kemudian dapat menggunakan data yang disiapkan untuk melatih, menyetel, dan menerapkan model menggunakan alat ML yang dibuat khusus dalam SageMaker Studio atau Studio Classic. Anda harus mempertimbangkan Sesi AWS Glue Interaktif untuk beban kerja persiapan data Anda ketika Anda menginginkan layanan Spark tanpa server dengan kontrol konfigurasi dan fleksibilitas yang moderat.

Anda dapat memulai sesi AWS Glue interaktif dengan memulai JupyterLab buku catatan di Studio atau Studio Classic. Saat memulai notebook Anda, pilih built-in `Glue PySpark and Ray` atau `Glue Spark` kernel. Ini secara otomatis memulai sesi Spark interaktif tanpa server. Anda tidak perlu menyediakan atau mengelola klaster atau infrastruktur komputasi apa pun. Setelah inisialisasi, Anda dapat menjelajahi dan berinteraksi dengan data Anda dari dalam notebook Studio atau Studio Classic Anda.

Sebelum memulai sesi AWS Glue interaktif Anda di Studio atau Studio Classic, Anda perlu menetapkan peran dan kebijakan yang sesuai. Selain itu, Anda mungkin perlu menyediakan akses ke sumber daya tambahan, seperti bucket Amazon S3 penyimpanan. Untuk informasi selengkapnya tentang kebijakan IAM yang diperlukan, lihat[Izin untuk sesi AWS Glue interaktif di Studio atau Studio Classic](getting-started-glue-sm.md#glue-sm-iam).

Studio dan Studio Classic menyediakan konfigurasi default untuk sesi AWS Glue interaktif Anda, namun, Anda dapat menggunakan AWS Glue katalog lengkap perintah ajaib Jupyter untuk lebih menyesuaikan lingkungan Anda. Untuk informasi tentang sihir Jupyter default dan tambahan yang dapat Anda gunakan dalam sesi AWS Glue interaktif Anda, lihat. [Konfigurasikan sesi AWS Glue interaktif Anda di Studio atau Studio Classic](getting-started-glue-sm.md#glue-sm-magics)
+ Untuk pengguna Studio Classic yang memulai sesi AWS Glue interaktif, mereka dapat memilih dari gambar dan kernel berikut:
  + Gambar:`SparkAnalytics 1.0`, `SparkAnalytics 2.0`
  + Kernel: `Glue Python [PySpark and Ray]` dan `Glue Spark`
+ Untuk pengguna Studio, gunakan [gambar SageMaker Distribusi](https://github.com/aws/sagemaker-distribution) default dan pilih `Glue Spark` kernel `Glue Python [PySpark and Ray]` atau.

# Memulai Sesi AWS Glue Interaktif
<a name="getting-started-glue-sm"></a>

Dalam panduan ini, Anda mempelajari cara memulai sesi AWS Glue interaktif di SageMaker AI Studio Classic, dan mengelola lingkungan Anda dengan sihir Jupyter.

## Izin untuk sesi AWS Glue interaktif di Studio atau Studio Classic
<a name="glue-sm-iam"></a>

Bagian ini mencantumkan kebijakan yang diperlukan untuk menjalankan sesi AWS Glue interaktif di Studio atau Studio Classic dan menjelaskan cara mengaturnya. Secara khusus, ini merinci cara:
+ Lampirkan kebijakan `AwsGlueSessionUserRestrictedServiceRole` terkelola ke peran eksekusi SageMaker AI Anda.
+ Buat kebijakan kustom inline pada peran eksekusi SageMaker AI Anda.
+ Ubah hubungan kepercayaan peran eksekusi SageMaker AI Anda.

**Untuk melampirkan kebijakan `AwsGlueSessionUserRestrictedServiceRole` terkelola ke peran eksekusi Anda**

1. Buka [konsol IAM](https://console.aws.amazon.com/iam/).

1. Pilih **Peran** di panel sisi kiri.

1. Temukan peran eksekusi Studio Classic yang digunakan oleh profil pengguna Anda. Untuk informasi tentang cara melihat profil pengguna, lihat[Melihat profil pengguna di domain](domain-user-profile-view.md).

1. Pilih nama peran Anda untuk mengakses halaman ringkasan peran.

1. Di bawah tab **Izin**, pilih **Lampirkan kebijakan** dari menu tarik-turun **Tambahkan Izin**.

1. Pilih kotak centang di samping kebijakan `AwsGlueSessionUserRestrictedServiceRole` terkelola.

1. Pilih **Lampirkan kebijakan**. 

   Halaman ringkasan menampilkan kebijakan terkelola yang baru ditambahkan.

   

**Untuk membuat kebijakan kustom inline pada peran eksekusi Anda**

1. Pilih **Buat kebijakan sebaris** di menu tarik-turun **Tambahkan Izin**.

1. Pilih tab **JSON**.

1. Salin dan tempel dalam kebijakan berikut.

------
#### [ JSON ]

****  

   ```
   {
       "Version":"2012-10-17",		 	 	 
       "Statement": [
           {
               "Sid": "uniqueStatementId",
   
               "Effect": "Allow",
               "Action": [
   	     "iam:GetRole",
                   "iam:PassRole",
                   "sts:GetCallerIdentity"
               ],
               "Resource": "arn:aws:iam::*:role/GlueServiceRole*"
           }
       ]
   }
   ```

------

1. Pilih **Tinjau kebijakan**.

1. Masukkan **Nama** dan pilih **Buat kebijakan**. 

   Halaman ringkasan menunjukkan kebijakan kustom Anda yang baru ditambahkan.

   

**Untuk mengubah hubungan kepercayaan dari peran eksekusi Anda**

1. Pilih tab **Trust relationship**.

1. Pilih **Edit kebijakan kepercayaan**.

1. Salin dan tempel dalam kebijakan berikut.

------
#### [ JSON ]

****  

   ```
   {
   "Version":"2012-10-17",		 	 	 
   "Statement": [
       {
           "Effect": "Allow",
           "Principal": {
               "Service": [
                   "glue.amazonaws.com",
                   "sagemaker.amazonaws.com"
               ]
           },
           "Action": "sts:AssumeRole"
       }
   ]
   }
   ```

------

1. Pilih **Perbarui kebijakan**.

Anda dapat menambahkan peran dan kebijakan tambahan jika Anda perlu mengakses AWS sumber daya lain. Untuk deskripsi peran dan kebijakan tambahan yang dapat Anda sertakan, lihat [sesi interaktif dengan IAM](https://docs.aws.amazon.com/glue/latest/dg/glue-is-security.html) dalam AWS Glue dokumentasi.

## Perbanyakan tag
<a name="glue-sm-tag-propagation"></a>

Tag biasanya digunakan untuk melacak dan mengalokasikan biaya, mengontrol akses ke sesi Anda, mengisolasi sumber daya Anda, dan banyak lagi. Untuk mempelajari tentang menambahkan metadata ke AWS sumber daya Anda menggunakan penandaan, atau untuk detail tentang kasus penggunaan umum, lihat. [Informasi tambahan](#more-information)

Anda dapat mengaktifkan propagasi otomatis AWS tag ke sesi AWS Glue interaktif baru yang dibuat dari dalam UI Studio atau Studio Classic. Ketika sesi AWS Glue interaktif dibuat dari Studio atau Studio Classic, setiap [tag yang ditentukan pengguna](https://docs.aws.amazon.com/awsaccountbilling/latest/aboutv2/custom-tags.html) yang dilampirkan ke profil pengguna atau ruang bersama dibawa ke sesi AWS Glue interaktif baru. Selain itu, Studio dan Studio Classic secara otomatis menambahkan dua tag internal yang AWS dihasilkan ((`sagemaker:user-profile-arn`dan`sagemaker:domain-arn`) atau (`sagemaker:shared-space-arn`dan`sagemaker:domain-arn`)) ke sesi AWS Glue interaktif baru yang dibuat dari UI mereka. Anda dapat menggunakan tag ini untuk mengumpulkan biaya di seluruh domain individu, profil pengguna, atau spasi.

### Aktifkan propagasi tag
<a name="enable-propagation"></a>

Untuk mengaktifkan propagasi otomatis tag ke sesi AWS Glue interaktif baru, atur izin berikut untuk peran eksekusi SageMaker AI Anda dan peran IAM yang terkait dengan sesi Anda: AWS Glue 

**catatan**  
Secara default, peran yang terkait dengan sesi AWS Glue interaktif sama dengan peran eksekusi SageMaker AI. Anda dapat menentukan peran eksekusi yang berbeda untuk sesi AWS Glue interaktif dengan menggunakan perintah `%iam_role` ajaib. Untuk informasi tentang perintah ajaib Jupyter yang tersedia untuk mengonfigurasi sesi AWS Glue interaktif, lihat. [Konfigurasikan sesi AWS Glue interaktif Anda di Studio atau Studio Classic](#glue-sm-magics)
+ *Pada peran eksekusi SageMaker AI Anda*: Buat kebijakan inline baru, dan tempel file JSON berikut. Kebijakan memberikan izin peran eksekusi untuk mendeskripsikan (`DescribeUserProfile`,`DescribeSpace`,`DescribeDomain`) dan mencantumkan tag (`ListTag`) yang ditetapkan pada profil pengguna, spasi bersama, dan domain SageMaker AI.

  ```
  {
      "Effect": "Allow",
      "Action": [
          "sagemaker:ListTags"
      ],
      "Resource": [
          "arn:aws:sagemaker:*:*:user-profile/*",
          "arn:aws:sagemaker:*:*:space/*"
      ]
  },
  {
      "Effect": "Allow",
      "Action": [
          "sagemaker:DescribeUserProfile"
      ],
      "Resource": [
          "arn:aws:sagemaker:*:*:user-profile/*"
      ]
  },
  {
      "Effect": "Allow",
      "Action": [
          "sagemaker:DescribeSpace"
      ],
      "Resource": [
          "arn:aws:sagemaker:*:*:space/*"
      ]
  }
  {
      "Effect": "Allow",
      "Action": [
          "sagemaker:DescribeDomain"
      ],
      "Resource": [
          "arn:aws:sagemaker:*:*:domain/*"
      ]
  }
  ```
+ *Pada peran IAM AWS Glue sesi Anda*: Buat kebijakan inline baru, dan tempel file JSON berikut. Kebijakan memberikan izin peran Anda untuk melampirkan tag (`TagResource`) ke sesi Anda, atau mengambil daftar tag ()`GetTags`.

  ```
  {
      "Effect": "Allow",
      "Action": [
          "glue:TagResource",
          "glue:GetTags"
      ],
      "Resource": [
          "arn:aws:glue:*:*:session/*"
      ]
  }
  ```

**catatan**  
Kegagalan yang terjadi saat menerapkan izin tersebut tidak mencegah pembuatan sesi AWS Glue interaktif. Anda dapat menemukan detail tentang alasan kegagalan di [CloudWatch](https://docs.aws.amazon.com//sagemaker/latest/dg/monitoring-cloudwatch.html)log Studio atau Studio Classic.
Anda harus memulai ulang kernel sesi AWS Glue interaktif Anda untuk menyebarkan pembaruan nilai tag.

Penting untuk mencatat poin-poin berikut:
+ Setelah tag dilampirkan ke sesi, tag tidak dapat dihapus dengan propagasi.

  Anda dapat menghapus tag dari sesi AWS Glue interaktif langsung melalui AWS CLI, AWS Glue API, atau [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/). Misalnya, dengan menggunakan AWS CLI, Anda dapat menghapus tag dengan memberikan ARN sesi dan kunci tag yang ingin Anda hapus sebagai berikut:

  ```
  aws glue untag-resource \
  --resource-arn arn:aws:glue:region:account-id:session:session-name \
  --tags-to-remove tag-key1,tag-key2
  ```
+ Studio dan Studio Classic menambahkan dua tag internal AWS yang dihasilkan ((`sagemaker:user-profile-arn`dan`sagemaker:domain-arn`) atau (`sagemaker:shared-space-arn`dan`sagemaker:domain-arn`)) ke sesi AWS Glue interaktif baru yang dibuat dari UI mereka. Tag tersebut dihitung terhadap batas 50 tag yang ditetapkan pada semua AWS sumber daya. Keduanya `sagemaker:user-profile-arn` dan `sagemaker:shared-space-arn` berisi ID domain tempat mereka berada.
+ Tombol tag dimulai dengan `aws:``AWS:`,, atau kombinasi huruf besar dan kecil sebagai awalan untuk kunci tidak disebarkan dan dicadangkan untuk digunakan. AWS 

### Informasi tambahan
<a name="more-information"></a>

Untuk informasi lebih lanjut tentang penandaan, lihat sumber daya berikut.
+ [Untuk mempelajari cara menambahkan metadata ke AWS sumber daya Anda dengan penandaan, lihat Menandai sumber daya. AWS](https://docs.aws.amazon.com/tag-editor/latest/userguide/tagging.html)
+ Untuk informasi tentang melacak biaya menggunakan tag, lihat [Analisis biaya](https://docs.aws.amazon.com/whitepapers/latest/sagemaker-studio-admin-best-practices/cost-attribution.html) dalam praktik terbaik administrasi Studio.
+ Untuk informasi tentang mengontrol akses AWS Glue berdasarkan kunci tag, lihat [ABAC dengan AWS Glue](glue/latest/dg/security_iam_service-with-iam.html#security_iam_service-with-iam-tags).

## Luncurkan sesi AWS Glue interaktif Anda di Studio atau Studio Classic
<a name="glue-sm-launch"></a>

Setelah membuat peran, kebijakan, dan domain SageMaker AI, Anda dapat meluncurkan sesi AWS Glue interaktif di Studio atau Studio Classic.

1. Masuk ke konsol SageMaker AI di [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. Dari panel navigasi kiri, pilih **Studio**.

1. Dari halaman landing Studio, pilih domain dan profil pengguna untuk meluncurkan Studio.

1. Pilih **Open Studio** dan mulai aplikasi JupyterLab atau Studio Classic.

1. **Di tampilan Jupyter, pilih **File**, lalu **New, lalu Notebook**.**

1. **Untuk pengguna Studio Classic: Di menu tarik-turun **Gambar**, pilih **SparkAnalytics 1.0 atau SparkAnalytics 2.0**.** Di menu dropdown **kernel**, pilih Glue **Spark atau Glue** **Python [**dan Ray]. PySpark Pilih **Pilih**.

   Untuk pengguna Studio, pilih kernel **Glue Spark** atau **Glue Python PySpark [dan** Ray]

1. (opsional) Gunakan sihir Jupyter untuk menyesuaikan lingkungan Anda. Untuk informasi lebih lanjut tentang sihir Jupyter, lihat. [Konfigurasikan sesi AWS Glue interaktif Anda di Studio atau Studio Classic](#glue-sm-magics)

1. Mulai menulis skrip pemrosesan data Spark Anda. [Notebook](https://github.com/aws/amazon-sagemaker-examples/blob/main/use-cases/pyspark_etl_and_training/pyspark-etl-training.ipynb) berikut menampilkan end-to-end alur kerja untuk ETL pada kumpulan data besar menggunakan sesi AWS Glue interaktif, analisis data eksplorasi, pra-pemrosesan data, dan akhirnya melatih model pada data yang diproses dengan AI. SageMaker 

## Konfigurasikan sesi AWS Glue interaktif Anda di Studio atau Studio Classic
<a name="glue-sm-magics"></a>

**catatan**  
Semua konfigurasi ajaib dibawa ke sesi berikutnya selama masa pakai AWS Glue kernel.

Anda dapat menggunakan sihir Jupyter dalam sesi AWS Glue interaktif Anda untuk memodifikasi parameter sesi dan konfigurasi Anda. Sihir adalah perintah pendek yang diawali dengan `%` di awal sel Jupyter yang menyediakan cara cepat dan mudah untuk membantu Anda mengontrol lingkungan Anda. Dalam sesi AWS Glue interaktif Anda, sihir berikut diatur untuk Anda secara default:


| Sihir | Nilai default | 
| --- | --- | 
| %glue\$1version |  3.0  | 
| %iam\$1role |  *execution role attached to your SageMaker AI domain*  | 
| %region |  wilayah Anda  | 

Anda dapat menggunakan sihir untuk lebih menyesuaikan lingkungan Anda. Misalnya, jika Anda ingin mengubah jumlah pekerja yang dialokasikan ke pekerjaan Anda dari default lima menjadi 10, Anda dapat menentukan`%number_of_workers 10`. Jika Anda ingin mengonfigurasi sesi Anda untuk berhenti setelah 10 menit waktu idle, bukan 2880 default, Anda dapat menentukan. `%idle_timeout 10`

Semua sihir Jupyter yang saat ini tersedia juga AWS Glue tersedia di Studio atau Studio Classic. Untuk daftar lengkap AWS Glue sihir yang tersedia, lihat [Mengonfigurasi sesi AWS Glue interaktif untuk notebook Jupyter](https://docs.aws.amazon.com/glue/latest/dg/interactive-sessions-magics.html) dan Studio. AWS Glue 

# AWS Glue harga sesi interaktif
<a name="glue-sm-pricing"></a>

Saat Anda menggunakan sesi AWS Glue interaktif di notebook Studio atau Studio Classic, Anda akan dikenakan biaya secara terpisah untuk penggunaan sumber daya AWS Glue dan notebook Studio.

AWS biaya untuk sesi AWS Glue interaktif berdasarkan berapa lama sesi aktif dan jumlah Unit Pengolahan Data (DPU) yang digunakan. Anda dikenakan tarif per jam untuk jumlah yang DPUs digunakan untuk menjalankan beban kerja Anda, ditagih dengan penambahan satu detik. AWS Glue sesi interaktif menetapkan default lima DPUs dan membutuhkan minimal dua DPUs. Ada juga durasi penagihan minimum satu menit untuk setiap sesi interaktif. Untuk melihat contoh AWS Glue harga dan harga, atau untuk memperkirakan biaya Anda menggunakan Kalkulator AWS Harga, lihat [AWS Glue harga](https://aws.amazon.com/glue/pricing).

Notebook Studio atau Studio Classic berjalan pada instans Amazon EC2 dan Anda dikenakan biaya untuk jenis instans yang Anda pilih, berdasarkan durasi penggunaan. Studio Classic memberi Anda jenis instans EC2 default `ml-t3-medium` saat Anda memilih `SparkAnalytics` gambar dan kernel terkait. Anda dapat mengubah jenis instans untuk notebook Studio Classic agar sesuai dengan beban kerja Anda. Untuk informasi tentang harga Studio dan Studio Classic, lihat [ SageMaker Harga Amazon](https://aws.amazon.com/sagemaker/pricing).