

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Memulai dengan Data Wrangler
<a name="data-wrangler-getting-started"></a>

Amazon SageMaker Data Wrangler adalah fitur di Amazon SageMaker Studio Classic. Gunakan bagian ini untuk mempelajari cara mengakses dan mulai menggunakan Data Wrangler. Lakukan hal-hal berikut:

1. Selesaikan setiap langkah[Prasyarat](#data-wrangler-getting-started-prerequisite).

1. Ikuti prosedur [Akses Data Wrangler](#data-wrangler-getting-started-access) untuk mulai menggunakan Data Wrangler.

## Prasyarat
<a name="data-wrangler-getting-started-prerequisite"></a>

Untuk menggunakan Data Wrangler, Anda harus menyelesaikan prasyarat berikut. 

1. Untuk menggunakan Data Wrangler, Anda memerlukan akses ke instans Amazon Elastic Compute Cloud (Amazon EC2). Untuk informasi selengkapnya tentang instans Amazon EC2 yang dapat Anda gunakan, lihat. [Contoh](data-wrangler-data-flow.md#data-wrangler-data-flow-instances) Untuk mempelajari cara melihat kuota Anda dan, jika perlu, minta peningkatan kuota, lihat kuota [AWS layanan](https://docs.aws.amazon.com/general/latest/gr/aws_service_limits.html).

1. Konfigurasikan izin yang diperlukan yang dijelaskan dalam[Keamanan dan Izin](data-wrangler-security.md). 

1. Jika organisasi Anda menggunakan firewall yang memblokir lalu lintas internet, Anda harus memiliki akses ke yang berikut URLs:
   + `https://ui.prod-1.data-wrangler.sagemaker.aws/`
   + `https://ui.prod-2.data-wrangler.sagemaker.aws/`
   + `https://ui.prod-3.data-wrangler.sagemaker.aws/`
   + `https://ui.prod-4.data-wrangler.sagemaker.aws/`

Untuk menggunakan Data Wrangler, Anda memerlukan instance Studio Classic yang aktif. Untuk mempelajari cara meluncurkan instance baru, lihat[Ikhtisar domain Amazon SageMaker AI](gs-studio-onboard.md). Saat instans Studio Classic Anda **Siap**, gunakan instruksi di[Akses Data Wrangler](#data-wrangler-getting-started-access).

## Akses Data Wrangler
<a name="data-wrangler-getting-started-access"></a>

Prosedur berikut mengasumsikan Anda telah menyelesaikan. [Prasyarat](#data-wrangler-getting-started-prerequisite)

Untuk mengakses Data Wrangler di Studio Classic, lakukan hal berikut.

1. Masuk ke Studio Classic. Untuk informasi selengkapnya, lihat [Ikhtisar domain Amazon SageMaker AI](gs-studio-onboard.md).

1. Pilih **Studio**.

1. Pilih **Luncurkan aplikasi**.

1. **Dari daftar dropdown, pilih Studio.**

1. Pilih ikon Beranda.

1. Pilih **Data**.

1. Pilih **Data Wrangler**.

1. Anda juga dapat membuat aliran Data Wrangler dengan melakukan hal berikut.

   1. Di bilah navigasi atas, pilih **File**.

   1. Pilih **Baru**.

   1. Pilih **Data Wrangler** Flow.  
![Tab beranda konsol Studio Classic.](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/new-flow-file-menu.png)

1. (Opsional) Ganti nama direktori baru dan file.flow.

1. Saat Anda membuat file.flow baru di Studio Classic, Anda mungkin melihat carousel yang memperkenalkan Anda ke Data Wrangler.

   **Ini mungkin memakan waktu beberapa menit.**

   Pesan ini tetap ada selama **KernelGateway**aplikasi di halaman **Detail Pengguna** Anda **Tertunda**. Untuk melihat status aplikasi ini, di konsol SageMaker AI di halaman **Amazon SageMaker Studio Classic**, pilih nama pengguna yang Anda gunakan untuk mengakses Studio Classic. Pada halaman **Detail Pengguna**, Anda melihat **KernelGateway**aplikasi di bawah **Aplikasi**. Tunggu hingga status aplikasi ini **Siap** untuk mulai menggunakan Data Wrangler. Ini bisa memakan waktu sekitar 5 menit saat pertama kali Anda meluncurkan Data Wrangler.  
![Contoh yang menunjukkan status KernelGatewayaplikasi Siap di halaman Detail Pengguna.](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/gatewayKernel-ready.png)

1. Untuk memulai, pilih sumber data dan gunakan untuk mengimpor dataset. Lihat [Impor](data-wrangler-import.md) untuk mempelajari selengkapnya. 

   Saat Anda mengimpor kumpulan data, itu muncul di aliran data Anda. Untuk mempelajari selengkapnya, lihat [Membuat dan Menggunakan Data Wrangler Flow](data-wrangler-data-flow.md).

1. Setelah Anda mengimpor dataset, Data Wrangler secara otomatis menyimpulkan jenis data di setiap kolom. Pilih **\+** di samping langkah **Jenis data** dan pilih **Edit tipe data**. 
**penting**  
**Setelah menambahkan transformasi ke langkah **Tipe data, Anda tidak dapat memperbarui jenis** kolom secara massal menggunakan jenis Perbarui.** 

1. Gunakan aliran data untuk menambahkan transformasi dan analisis. Untuk mempelajari lebih lanjut lihat [Transformasi Data](data-wrangler-transform.md) dan[Analisis dan Visualisasikan](data-wrangler-analyses.md).

1. Untuk mengekspor aliran data lengkap, pilih **Ekspor** dan pilih opsi ekspor. Untuk mempelajari selengkapnya, lihat [Ekspor](data-wrangler-data-export.md). 

1. Terakhir, pilih ikon **Components and registries**, dan pilih **Data Wrangler** dari daftar dropdown untuk melihat semua file.flow yang telah Anda buat. Anda dapat menggunakan menu ini untuk menemukan dan berpindah antar aliran data.

Setelah Anda meluncurkan Data Wrangler, Anda dapat menggunakan bagian berikut untuk menelusuri bagaimana Anda dapat menggunakan Data Wrangler untuk membuat aliran persiapan data ML. 

## Perbarui Data Wrangler
<a name="data-wrangler-update-studio-app"></a>

Kami menyarankan Anda memperbarui aplikasi Data Wrangler Studio Classic secara berkala untuk mengakses fitur dan pembaruan terbaru. Nama aplikasi Data Wrangler dimulai dengan. **sagemaker-data-wrang** Untuk mempelajari cara memperbarui aplikasi Studio Classic, lihat[Matikan dan Perbarui Aplikasi Amazon SageMaker Studio Classic](studio-tasks-update-apps.md).

## Demo: Panduan Set Data Wrangler Titanic
<a name="data-wrangler-getting-started-demo"></a>

Bagian berikut memberikan panduan untuk membantu Anda mulai menggunakan Data Wrangler. Panduan ini mengasumsikan bahwa Anda telah mengikuti langkah-langkah [Akses Data Wrangler](#data-wrangler-getting-started-access) dan membuka file aliran data baru yang ingin Anda gunakan untuk demo. Anda mungkin ingin mengganti nama file.flow ini menjadi sesuatu yang mirip dengan. `titanic-demo.flow`

Panduan ini menggunakan dataset [Titanic](https://s3.us-west-2.amazonaws.com/amazon-sagemaker-data-wrangler-documentation-artifacts/walkthrough_titanic.csv). Ini adalah versi modifikasi dari [dataset Titanic](https://www.openml.org/d/40945) yang dapat Anda impor ke aliran Data Wrangler Anda dengan lebih mudah. Kumpulan data ini berisi status kelangsungan hidup, usia, jenis kelamin, dan kelas (yang berfungsi sebagai proxy untuk status ekonomi) penumpang di atas pelayaran perdana *RMS* Titanic pada tahun 1912.

Dalam tutorial ini, Anda melakukan langkah-langkah berikut.

1. Lakukan salah satu tindakan berikut:
   + Buka alur Data Wrangler Anda dan pilih **Use Sample** Dataset.
   + Unggah [kumpulan data Titanic](https://s3.us-west-2.amazonaws.com/amazon-sagemaker-data-wrangler-documentation-artifacts/walkthrough_titanic.csv) ke Amazon Simple Storage Service (Amazon S3) Simple Storage Service (Amazon S3), lalu impor kumpulan data ini ke Data Wrangler.

1. Analisis dataset ini menggunakan analisis Data Wrangler. 

1. Tentukan aliran data menggunakan transformasi data Wrangler Data.

1. Ekspor alur Anda ke Notebook Jupyter yang dapat Anda gunakan untuk membuat pekerjaan Data Wrangler. 

1. Memproses data Anda, dan memulai pekerjaan SageMaker pelatihan untuk melatih XGBoost Binary Classifier. 

### Unggah Dataset ke S3 dan Impor
<a name="data-wrangler-getting-started-demo-import"></a>

Untuk memulai, Anda dapat menggunakan salah satu metode berikut untuk mengimpor dataset Titanic ke Data Wrangler:
+ Mengimpor dataset langsung dari aliran Data Wrangler
+ Mengunggah kumpulan data ke Amazon S3 dan kemudian mengimpornya ke Data Wrangler

Untuk mengimpor dataset langsung ke Data Wrangler, buka alur dan pilih **Use** Sample Dataset.

Mengunggah kumpulan data ke Amazon S3 dan mengimpornya ke Data Wrangler lebih dekat dengan pengalaman Anda mengimpor data Anda sendiri. Informasi berikut memberi tahu Anda cara mengunggah kumpulan data Anda dan mengimpornya.

Sebelum Anda mulai mengimpor data ke Data Wrangler, unduh [dataset Titanic](https://s3.us-west-2.amazonaws.com/amazon-sagemaker-data-wrangler-documentation-artifacts/walkthrough_titanic.csv) dan unggah ke bucket Amazon S3 (Amazon S3) di AWS Wilayah tempat Anda ingin menyelesaikan demo ini.

Jika Anda adalah pengguna baru Amazon S3, Anda dapat melakukan ini menggunakan drag and drop di konsol Amazon S3. Untuk mempelajari caranya, lihat [Mengunggah File dan Folder dengan Menggunakan Seret dan Jatuhkan](https://docs.aws.amazon.com/AmazonS3/latest/user-guide/upload-objects.html#upload-objects-by-drag-and-drop) di Panduan Pengguna Layanan Penyimpanan Sederhana Amazon.

**penting**  
Unggah kumpulan data Anda ke bucket S3 di AWS Wilayah yang sama yang ingin Anda gunakan untuk menyelesaikan demo ini. 

Ketika dataset Anda telah berhasil diunggah ke Amazon S3, Anda dapat mengimpornya ke Data Wrangler.

**Impor dataset Titanic ke Data Wrangler**

1. Pilih tombol **Impor data** di tab **Aliran data** Anda atau pilih tab **Impor**.

1. Pilih **Amazon S3**.

1. Gunakan tabel **Impor kumpulan data dari S3** untuk menemukan bucket tempat Anda menambahkan kumpulan data Titanic. **Pilih file CSV kumpulan data Titanic untuk membuka panel Detail.**

1. Di bawah **Detail**, **jenis File** harus CSV. Periksa **Baris pertama adalah header** untuk menentukan bahwa baris pertama dari dataset adalah header. Anda juga dapat memberi nama kumpulan data dengan sesuatu yang lebih ramah, seperti**Titanic-train**.

1. Pilih tombol **Impor**.

Ketika dataset Anda diimpor ke Data Wrangler, itu muncul di tab Aliran **Data** Anda. Anda dapat mengklik dua kali pada node untuk memasukkan tampilan detail node, yang memungkinkan Anda menambahkan transformasi atau analisis. Anda dapat menggunakan ikon plus untuk akses cepat ke navigasi. Di bagian selanjutnya, Anda menggunakan aliran data ini untuk menambahkan analisis dan mengubah langkah-langkah.

### Aliran Data
<a name="data-wrangler-getting-started-demo-data-flow"></a>

Di bagian aliran data, satu-satunya langkah dalam aliran data adalah dataset Anda yang baru saja diimpor dan langkah **tipe Data**. Setelah menerapkan transformasi, Anda dapat kembali ke tab ini dan melihat seperti apa aliran datanya. Sekarang, tambahkan beberapa transformasi dasar di bawah tab **Siapkan** dan **Analisis**. 

#### Mempersiapkan dan memvisualisasikan
<a name="data-wrangler-getting-started-demo-prep-visualize"></a>

Data Wrangler memiliki transformasi dan visualisasi bawaan yang dapat Anda gunakan untuk menganalisis, membersihkan, dan mengubah data Anda. 

Tab **Data** dari tampilan detail node mencantumkan semua transformasi bawaan di panel kanan, yang juga berisi area di mana Anda dapat menambahkan transformasi khusus. Kasus penggunaan berikut menampilkan cara menggunakan transformasi ini.

Untuk mendapatkan informasi yang dapat membantu Anda dalam eksplorasi data dan rekayasa fitur, buat laporan kualitas data dan wawasan. Informasi dari laporan dapat membantu Anda membersihkan dan memproses data Anda. Ini memberi Anda informasi seperti jumlah nilai yang hilang dan jumlah outlier. Jika Anda memiliki masalah dengan data Anda, seperti kebocoran target atau ketidakseimbangan, laporan wawasan dapat membawa masalah tersebut ke perhatian Anda. Untuk informasi selengkapnya tentang membuat laporan, lihat[Dapatkan Wawasan Tentang Kualitas Data dan Data](data-wrangler-data-insights.md).

##### Eksplorasi Data
<a name="data-wrangler-getting-started-demo-explore"></a>

Pertama, buat ringkasan tabel data menggunakan analisis. Lakukan hal-hal berikut:

1. Pilih **\+** di sebelah langkah **Jenis data** dalam aliran data Anda dan pilih **Tambahkan analisis**.

1. Di area **Analisis**, pilih **Ringkasan tabel** dari daftar dropdown.

1. Berikan ringkasan tabel sebuah **Nama**.

1. Pilih **Pratinjau** untuk melihat pratinjau tabel yang akan dibuat.

1. Pilih **Simpan** untuk menyimpannya ke aliran data Anda. Itu muncul di bawah **Semua Analisis.**

Dengan menggunakan statistik yang Anda lihat, Anda dapat melakukan pengamatan yang serupa dengan yang berikut tentang kumpulan data ini: 
+ Rata-rata tarif (rata-rata) adalah sekitar $33, sedangkan maks lebih dari $500. Kolom ini kemungkinan memiliki outlier. 
+ *Dataset ini menggunakan?* untuk menunjukkan nilai yang hilang. *Sejumlah kolom memiliki nilai yang hilang: *cabin*, *embarked*, dan home.dest*
+ Kategori usia tidak memiliki lebih dari 250 nilai.

Selanjutnya, bersihkan data Anda menggunakan wawasan yang diperoleh dari statistik ini. 

##### Jatuhkan Kolom yang Tidak Digunakan
<a name="data-wrangler-getting-started-demo-drop-unused"></a>

Dengan menggunakan analisis dari bagian sebelumnya, bersihkan kumpulan data untuk mempersiapkannya untuk pelatihan. Untuk menambahkan transformasi baru ke aliran data Anda, pilih **\+** di sebelah langkah **Jenis data** dalam aliran data Anda dan pilih **Tambahkan transformasi**.

Pertama, jatuhkan kolom yang tidak ingin Anda gunakan untuk pelatihan. Anda dapat menggunakan pustaka analisis data [panda](https://pandas.pydata.org/) untuk melakukan ini, atau Anda dapat menggunakan salah satu transformasi bawaan.

Gunakan prosedur berikut untuk menjatuhkan kolom yang tidak digunakan.

Untuk menjatuhkan kolom yang tidak digunakan.

1. Buka alur Data Wrangler.

1. Ada dua node dalam aliran Data Wrangler Anda. Pilih **\+** di sebelah kanan node **tipe Data**.

1. Pilih **Tambahkan transformasi**.

1. Di kolom **Semua langkah**, pilih **Tambahkan langkah**.

1. Dalam daftar Transformasi **standar**, pilih **Kelola Kolom**. Transformasi standar sudah jadi, transformasi bawaan. Pastikan **kolom Drop** dipilih.

1. Di bawah **Kolom untuk dijatuhkan**, periksa nama kolom berikut:
   + kabin
   + karcis
   + name
   + sibsp
   + parch
   + rumah.dest
   + perahu
   + body

1. Pilih **Pratinjau**.

1. Verifikasi bahwa kolom telah dijatuhkan, lalu pilih **Tambah**.

Untuk melakukan ini menggunakan panda, ikuti langkah-langkah ini.

1. Di kolom **Semua langkah**, pilih **Tambahkan langkah**.

1. Dalam daftar **Custom** transform, pilih **Custom transform**.

1. Berikan nama untuk transformasi Anda, dan pilih **Python (Pandas)** dari daftar dropdown.

1. Masukkan skrip Python berikut di kotak kode.

   ```
   cols = ['name', 'ticket', 'cabin', 'sibsp', 'parch', 'home.dest','boat', 'body']
   df = df.drop(cols, axis=1)
   ```

1. Pilih **Pratinjau** untuk melihat pratinjau perubahan, lalu pilih **Tambah** untuk menambahkan transformasi. 

##### Bersihkan Nilai yang Hilang
<a name="data-wrangler-getting-started-demo-missing-vals"></a>

Sekarang, bersihkan nilai yang hilang. Anda dapat melakukan ini dengan **Menangani grup transformasi nilai yang hilang**.

Sejumlah kolom memiliki nilai yang hilang. Dari kolom yang tersisa, *usia* dan *tarif* mengandung nilai yang hilang. Periksa ini menggunakan **Custom Transform**.

Menggunakan opsi **Python (Pandas)**, gunakan yang berikut ini untuk meninjau dengan cepat jumlah entri di setiap kolom:

```
df.info()
```

![Contoh meninjau jumlah entri di setiap kolom.](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/inspect-missing-pandas.png)


Untuk menjatuhkan baris dengan nilai yang hilang dalam kategori *usia*, lakukan hal berikut: 

1. Pilih **Handle hilang**. 

1. Pilih **Drop missing** untuk **Transformer**.

1. Pilih *usia* untuk **kolom Input**.

1. Pilih **Pratinjau** untuk melihat bingkai data baru, lalu pilih **Tambah** untuk menambahkan transformasi ke alur Anda.

1. Ulangi proses yang sama untuk *ongkos*. 

Anda dapat menggunakan `df.info()` di bagian **Custom transform** untuk mengonfirmasi bahwa semua baris sekarang memiliki 1.045 nilai.

##### Panda Kustom: Encode
<a name="data-wrangler-getting-started-demo-encode"></a>

Coba pengkodean datar menggunakan Pandas. Pengkodean data kategoris adalah proses menciptakan representasi numerik untuk kategori. Misalnya, jika kategori Anda `Dog` dan`Cat`, Anda dapat menyandikan informasi ini menjadi dua vektor: `[1,0]` untuk mewakili`Dog`, dan `[0,1]` untuk mewakili. `Cat`

1. Di bagian **Custom Transform**, pilih **Python (Pandas)** dari daftar dropdown.

1. Masukkan yang berikut ini di kotak kode.

   ```
   import pandas as pd
   
   dummies = []
   cols = ['pclass','sex','embarked']
   for col in cols:
       dummies.append(pd.get_dummies(df[col]))
       
   encoded = pd.concat(dummies, axis=1)
   
   df = pd.concat((df, encoded),axis=1)
   ```

1. Pilih **Pratinjau** untuk melihat pratinjau perubahan. Versi yang dikodekan dari setiap kolom ditambahkan ke kumpulan data. 

1. Pilih **Tambah** untuk menambahkan transformasi. 

#### Kustom SQL: PILIH Kolom
<a name="data-wrangler-getting-started-demo-sql"></a>

Sekarang, pilih kolom yang ingin Anda gunakan SQL. Untuk demo ini, pilih kolom yang tercantum dalam `SELECT` pernyataan berikut. Karena *bertahan* adalah kolom target Anda untuk pelatihan, letakkan kolom itu terlebih dahulu.

1. Di bagian **Custom Transform**, pilih **SQL (PySpark SQL) dari daftar** dropdown.

1. Masukkan yang berikut ini di kotak kode.

   ```
   SELECT survived, age, fare, 1, 2, 3, female, male, C, Q, S FROM df;
   ```

1. Pilih **Pratinjau** untuk melihat pratinjau perubahan. Kolom yang tercantum dalam `SELECT` pernyataan Anda adalah satu-satunya kolom yang tersisa.

1. Pilih **Tambah** untuk menambahkan transformasi. 

### Ekspor ke Notebook Data Wrangler
<a name="data-wrangler-getting-started-export"></a>

Setelah selesai membuat aliran data, Anda memiliki sejumlah opsi ekspor. Bagian berikut menjelaskan cara mengekspor ke buku catatan pekerjaan Data Wrangler. Pekerjaan Data Wrangler digunakan untuk memproses data Anda menggunakan langkah-langkah yang ditentukan dalam aliran data Anda. Untuk mempelajari lebih lanjut tentang semua opsi ekspor, lihat[Ekspor](data-wrangler-data-export.md).

#### Ekspor ke Data Wrangler Job Notebook
<a name="data-wrangler-getting-started-export-notebook"></a>

Saat Anda mengekspor aliran data menggunakan **pekerjaan Data Wrangler**, proses akan secara otomatis membuat Notebook Jupyter. Buku catatan ini secara otomatis terbuka di instans Studio Classic Anda dan dikonfigurasi untuk menjalankan pekerjaan SageMaker Pemrosesan untuk menjalankan aliran data Wrangler Data Anda, yang disebut sebagai pekerjaan Data Wrangler. 

1. Simpan aliran data Anda. Pilih **File** dan kemudian pilih **Save Data Wrangler** Flow.

1. Kembali ke tab **Aliran Data**, pilih langkah terakhir dalam aliran data Anda (SQL), lalu pilih **\+** untuk membuka navigasi.

1. Pilih **Ekspor**, dan **Amazon S3 (melalui Jupyter Notebook).** Ini membuka Notebook Jupyter.  
![Contoh yang menunjukkan cara membuka navigasi di tab aliran data di konsol Data Wrangler.](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/export-select-step.png)

1. **Pilih kernel **Python 3 (Data Science)** untuk Kernel.** 

1. Saat kernel dimulai, jalankan sel di buku catatan hingga **Kick off SageMaker Training Job (Opsional)**. 

1. Secara opsional, Anda dapat menjalankan sel di **Kick off SageMaker Training Job (Opsional)** jika Anda ingin membuat pekerjaan pelatihan SageMaker AI untuk melatih XGBoost pengklasifikasi. Anda dapat menemukan biaya untuk menjalankan pekerjaan SageMaker pelatihan di [Amazon SageMaker Pricing](https://aws.amazon.com/sagemaker/pricing/). 

   Atau, Anda dapat menambahkan blok kode yang ditemukan di [XGBoost Pengklasifikasi Pelatihan](#data-wrangler-getting-started-train-xgboost) buku catatan dan menjalankannya untuk menggunakan pustaka sumber [XGBoost](https://xgboost.readthedocs.io/en/latest/)terbuka untuk melatih XGBoost pengklasifikasi. 

1. Hapus komentar dan jalankan sel di bawah **Pembersihan** dan jalankan untuk mengembalikan SageMaker Python SDK ke versi aslinya.

Anda dapat memantau status pekerjaan Data Wrangler Anda di konsol SageMaker AI di tab **Processing**. Selain itu, Anda dapat memantau pekerjaan Data Wrangler Anda menggunakan Amazon. CloudWatch Untuk informasi tambahan, lihat [Memantau Pekerjaan SageMaker Pemrosesan Amazon dengan CloudWatch Log dan Metrik](https://docs.aws.amazon.com/sagemaker/latest/dg/processing-job.html#processing-job-cloudwatch). 

Jika Anda memulai pekerjaan pelatihan, Anda dapat memantau statusnya menggunakan konsol SageMaker AI di bawah **Pekerjaan Pelatihan** di **bagian Pelatihan**.

#### XGBoost Pengklasifikasi Pelatihan
<a name="data-wrangler-getting-started-train-xgboost"></a>

Anda dapat melatih XGBoost Binary Classifier menggunakan notebook Jupyter atau Amazon Autopilot. SageMaker Anda dapat menggunakan Autopilot untuk secara otomatis melatih dan menyetel model pada data yang telah Anda ubah langsung dari alur Data Wrangler Anda. Untuk informasi tentang Autopilot, lihat. [Secara Otomatis Melatih Model pada Alur Data Anda](data-wrangler-autopilot.md)

Di buku catatan yang sama yang memulai pekerjaan Data Wrangler, Anda dapat menarik data dan melatih XGBoost Binary Classifier menggunakan data yang disiapkan dengan persiapan data minimal. 

1. Pertama, tingkatkan modul yang diperlukan menggunakan `pip` dan hapus file \_SUCCESS (file terakhir ini bermasalah saat menggunakan`awswrangler`).

   ```
   ! pip install --upgrade awscli awswrangler boto sklearn
   ! aws s3 rm {output_path} --recursive  --exclude "*" --include "*_SUCCESS*"
   ```

1. Baca data dari Amazon S3. Anda dapat menggunakan `awswrangler` untuk membaca semua file CSV secara rekursif di awalan S3. Data kemudian dibagi menjadi fitur dan label. Label adalah kolom pertama dari kerangka data.

   ```
   import awswrangler as wr
   
   df = wr.s3.read_csv(path=output_path, dataset=True)
   X, y = df.iloc[:,:-1],df.iloc[:,-1]
   ```
   + Terakhir, buat DMatrices (struktur XGBoost primitif untuk data) dan lakukan validasi silang menggunakan klasifikasi biner. XGBoost 

     ```
     import xgboost as xgb
     
     dmatrix = xgb.DMatrix(data=X, label=y)
     
     params = {"objective":"binary:logistic",'learning_rate': 0.1, 'max_depth': 5, 'alpha': 10}
     
     xgb.cv(
         dtrain=dmatrix, 
         params=params, 
         nfold=3,
         num_boost_round=50,
         early_stopping_rounds=10,
         metrics="rmse", 
         as_pandas=True, 
         seed=123)
     ```

#### Matikan Data Wrangler
<a name="data-wrangler-getting-started-shut-down"></a>

Setelah selesai menggunakan Data Wrangler, kami sarankan Anda mematikan instans yang dijalankan untuk menghindari biaya tambahan. Untuk mempelajari cara mematikan aplikasi Data Wrangler dan instance terkait, lihat. [Matikan Data Wrangler](data-wrangler-shut-down.md) 