

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Cara kerja pemrosesan data di Data Wrangler
<a name="canvas-data-processing"></a>

Saat bekerja dengan data secara interaktif dalam aliran SageMaker data Amazon Data Wrangler, Amazon SageMaker Canvas hanya menerapkan transformasi ke kumpulan data sampel untuk Anda pratinjau. Setelah menyelesaikan aliran data Anda di SageMaker Canvas, Anda dapat memproses semua data Anda dan menyimpannya di lokasi yang sesuai dengan alur kerja pembelajaran mesin Anda.

Ada beberapa opsi untuk melanjutkan setelah Anda selesai mengubah data Anda di Data Wrangler:
+ [Buat model](canvas-processing-export-model.md). Anda dapat membuat model Canvas, di mana Anda langsung mulai membuat model dengan data yang Anda siapkan. Anda dapat membuat model baik setelah memproses seluruh kumpulan data Anda, atau dengan mengekspor hanya data sampel yang Anda kerjakan di Data Wrangler. Canvas menyimpan data yang diproses (baik seluruh dataset atau data sampel) sebagai dataset Canvas.

  Kami menyarankan Anda menggunakan data sampel untuk iterasi cepat, tetapi Anda menggunakan seluruh data saat ingin melatih model akhir Anda. Saat membuat model tabular, kumpulan data yang lebih besar dari 5 GB secara otomatis diturunkan sampelnya menjadi 5 GB, dan untuk model peramalan deret waktu, kumpulan data yang lebih besar dari 30 GB diturunkan sampelnya menjadi 30 GB.

  Untuk mempelajari lebih lanjut tentang membuat model, lihat[Cara kerja model khusus](canvas-build-model.md).
+ [Ekspor data](canvas-export-data.md). Anda dapat mengekspor data Anda untuk digunakan dalam alur kerja pembelajaran mesin. Ketika Anda memilih untuk mengekspor data Anda, Anda memiliki beberapa opsi:
  + Anda dapat menyimpan data Anda di aplikasi Canvas sebagai dataset. Untuk informasi selengkapnya tentang jenis file yang didukung untuk kumpulan data Canvas dan persyaratan tambahan saat mengimpor data ke Canvas, lihat. [Buat kumpulan data](canvas-import-dataset.md)
  + Anda dapat menyimpan data Anda ke Amazon S3. Bergantung pada ketersediaan memori Canvas, data Anda diproses dalam aplikasi dan kemudian diekspor ke Amazon S3. Jika ukuran kumpulan data Anda melebihi apa yang dapat diproses Canvas, maka secara default, Canvas menggunakan pekerjaan EMR Tanpa Server untuk menskalakan ke beberapa instance komputasi, memproses kumpulan data lengkap Anda, dan mengekspornya ke Amazon S3. Anda juga dapat mengonfigurasi pekerjaan SageMaker Pemrosesan secara manual agar memiliki kontrol yang lebih terperinci atas sumber daya komputasi yang digunakan untuk memproses data Anda.
+ [Ekspor aliran data](canvas-export-data-flow.md). Anda mungkin ingin menyimpan kode untuk aliran data Anda sehingga Anda dapat memodifikasi atau menjalankan transformasi Anda di luar Canvas. Canvas memberi Anda opsi untuk menyimpan transformasi aliran data Anda sebagai kode Python di buku catatan Jupyter, yang kemudian dapat Anda ekspor ke Amazon S3 untuk digunakan di tempat lain dalam alur kerja pembelajaran mesin Anda.

Saat Anda mengekspor data dari aliran data dan menyimpannya sebagai kumpulan data Canvas atau ke Amazon S3, Canvas membuat node tujuan baru dalam aliran data Anda, yang merupakan simpul terakhir yang menunjukkan tempat penyimpanan data yang diproses. Anda dapat menambahkan node tujuan tambahan ke alur jika Anda ingin melakukan beberapa operasi ekspor. Misalnya, Anda dapat mengekspor data dari berbagai titik dalam aliran data Anda untuk hanya menerapkan beberapa transformasi, atau Anda dapat mengekspor data yang diubah ke lokasi Amazon S3 yang berbeda. Untuk informasi selengkapnya tentang cara menambahkan atau mengedit node tujuan, lihat [Tambahkan node tujuan](canvas-destination-nodes-add.md) dan[Mengedit simpul tujuan](canvas-destination-nodes-edit.md).

Untuk informasi selengkapnya tentang menyiapkan jadwal dengan Amazon EventBridge untuk memproses dan mengekspor data Anda secara otomatis sesuai jadwal, lihat[Buat jadwal untuk memproses data baru secara otomatis](canvas-data-export-schedule-job.md).

# Ekspor untuk membuat model
<a name="canvas-processing-export-model"></a>

Hanya dengan beberapa klik dari aliran data Anda, Anda dapat mengekspor data yang telah diubah dan mulai membuat model ML di Canvas. Canvas menyimpan data Anda sebagai dataset Canvas, dan Anda akan dibawa ke halaman konfigurasi pembuatan model untuk model baru.

Untuk membuat model Canvas dengan data Anda yang diubah:

1. Arahkan ke aliran data Anda.

1. Pilih ikon elipsis di sebelah simpul yang Anda ekspor.

1. Dari menu konteks, pilih **Buat model**.

1. Di panel sisi **Ekspor untuk membuat model**, masukkan **nama Dataset** untuk kumpulan data baru.

1. Biarkan opsi **Proses seluruh kumpulan data** dipilih untuk memproses dan mengekspor seluruh kumpulan data Anda sebelum melanjutkan dengan membangun model. Matikan opsi ini untuk melatih model Anda menggunakan data sampel interaktif yang sedang Anda kerjakan dalam aliran data Anda.

1. Masukkan **nama Model** untuk memberi nama model baru.

1. Pilih **tipe Masalah**, atau jenis model yang ingin Anda bangun. Untuk informasi selengkapnya tentang jenis model yang didukung di SageMaker Canvas, lihat[Cara kerja model khusus](canvas-build-model.md).

1. Pilih **kolom Target**, atau nilai yang Anda inginkan untuk diprediksi oleh model.

1. Pilih **Ekspor dan buat model**.

Tab **Build** untuk model Canvas baru akan terbuka, dan Anda dapat menyelesaikan konfigurasi dan melatih model Anda. Untuk informasi selengkapnya tentang cara membuat model, lihat[Membangun model](canvas-build-model-how-to.md).

# Ekspor data
<a name="canvas-export-data"></a>

Ekspor data untuk menerapkan transformasi dari aliran data Anda ke dataset impor penuh. Anda dapat mengekspor node apa pun dalam aliran data Anda ke lokasi berikut:
+ SageMaker Dataset kanvas
+ Amazon S3

Jika Anda ingin melatih model di Canvas, Anda dapat mengekspor dataset lengkap yang diubah sebagai dataset Canvas. Jika Anda ingin menggunakan data yang diubah dalam alur kerja pembelajaran mesin di luar SageMaker Canvas, Anda dapat mengekspor kumpulan data Anda ke Amazon S3.

## Ekspor ke dataset Canvas
<a name="canvas-export-data-canvas"></a>

Gunakan prosedur berikut untuk mengekspor dataset SageMaker Canvas dari node dalam aliran data Anda.

**Untuk mengekspor node dalam alur Anda sebagai dataset SageMaker Canvas**

1. Arahkan ke aliran data Anda.

1. Pilih ikon elipsis di sebelah simpul yang Anda ekspor.

1. Di menu konteks, arahkan kursor ke **Ekspor**, lalu pilih **Ekspor data ke kumpulan data Canvas**.

1. Di panel samping **Export to Canvas dataset**, masukkan **nama Dataset** untuk dataset baru.

1. Biarkan opsi **Proses seluruh kumpulan data** dipilih jika Anda ingin SageMaker Canvas memproses dan menyimpan kumpulan data lengkap Anda. Matikan opsi ini untuk hanya menerapkan transformasi ke data sampel yang Anda kerjakan dalam aliran data Anda.

1. Pilih **Ekspor**.

Anda sekarang harus dapat pergi ke halaman **Datasets** dari aplikasi Canvas dan melihat dataset baru Anda.

## Ekspor ke Amazon S3
<a name="canvas-export-data-s3"></a>

Saat mengekspor data ke Amazon S3, Anda dapat menskalakan untuk mengubah dan memproses data dalam berbagai ukuran. Canvas secara otomatis memproses data Anda secara lokal jika memori aplikasi dapat menangani ukuran kumpulan data Anda. Jika ukuran kumpulan data Anda melebihi kapasitas memori lokal sebesar 5 GB, Canvas memulai pekerjaan jarak jauh atas nama Anda untuk menyediakan sumber daya komputasi tambahan dan memproses data dengan lebih cepat. Secara default, Canvas menggunakan Amazon EMR Tanpa Server untuk menjalankan pekerjaan jarak jauh ini. Namun, Anda dapat mengonfigurasi Canvas secara manual untuk menggunakan EMR Tanpa Server atau pekerjaan SageMaker Pemrosesan dengan pengaturan Anda sendiri.

**catatan**  
Saat menjalankan pekerjaan EMR Tanpa Server, secara default pekerjaan mewarisi peran IAM, pengaturan kunci KMS, dan tag aplikasi Canvas Anda.

Berikut ini merangkum opsi untuk pekerjaan jarak jauh di Canvas:
+ **EMR Tanpa Server**: Ini adalah opsi default yang digunakan Canvas untuk pekerjaan jarak jauh. EMR Tanpa Server secara otomatis menyediakan dan menskalakan sumber daya komputasi untuk memproses data Anda sehingga Anda tidak perlu khawatir tentang memilih sumber daya komputasi yang tepat untuk beban kerja Anda. [Untuk informasi selengkapnya tentang EMR Tanpa Server, lihat Panduan Pengguna EMR Tanpa Server.](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/emr-serverless.html)
+ **SageMaker Pemrosesan**: Pekerjaan SageMaker pemrosesan menawarkan opsi yang lebih canggih dan kontrol terperinci atas sumber daya komputasi yang digunakan untuk memproses data Anda. Misalnya, Anda dapat menentukan jenis dan jumlah instans komputasi, mengonfigurasi pekerjaan di VPC Anda sendiri dan mengontrol akses jaringan, mengotomatiskan pekerjaan pemrosesan, dan banyak lagi. Untuk informasi selengkapnya tentang mengotomatisasi pekerjaan pemrosesan, lihat[Buat jadwal untuk memproses data baru secara otomatis](canvas-data-export-schedule-job.md). Untuk informasi lebih umum tentang SageMaker Memproses pekerjaan, lihat[Beban kerja transformasi data dengan SageMaker Processing](processing-job.md).

Jenis file berikut didukung saat mengekspor ke Amazon S3:
+ CSV
+ Parquet

Untuk memulai, tinjau prasyarat berikut.

### Prasyarat untuk pekerjaan EMR Tanpa Server
<a name="canvas-export-data-emr-prereqs"></a>

Untuk membuat pekerjaan jarak jauh yang menggunakan sumber daya EMR Tanpa Server, Anda harus memiliki izin yang diperlukan. Anda dapat memberikan izin baik melalui domain Amazon SageMaker AI atau pengaturan profil pengguna, atau Anda dapat mengonfigurasi peran AWS IAM pengguna secara manual. Untuk petunjuk tentang cara memberikan izin kepada pengguna untuk melakukan pemrosesan data besar, lihat[Berikan Izin Pengguna untuk Menggunakan Data Besar di seluruh Siklus Hidup ML](canvas-large-data-permissions.md).

Jika Anda tidak ingin mengonfigurasi kebijakan ini tetapi masih perlu memproses kumpulan data besar melalui Data Wrangler, Anda dapat menggunakan pekerjaan Pemrosesan. SageMaker 

Gunakan prosedur berikut untuk mengekspor data Anda ke Amazon S3. Untuk mengonfigurasi pekerjaan jarak jauh, ikuti langkah-langkah lanjutan opsional.

**Untuk mengekspor node dalam alur Anda ke Amazon S3**

1. Arahkan ke aliran data Anda.

1. Pilih ikon elipsis di sebelah simpul yang Anda ekspor.

1. Di menu konteks, arahkan kursor ke **Ekspor**, lalu pilih **Ekspor data ke Amazon** S3.

1. Di panel samping **Ekspor ke Amazon S3**, Anda dapat mengubah **nama Dataset** untuk kumpulan data baru.

1. Untuk **lokasi S3**, masukkan lokasi Amazon S3 yang ingin Anda ekspor dataset. Anda dapat memasukkan URI S3, alias, atau ARN dari lokasi S3 atau titik akses S3. Untuk informasi selengkapnya, lihat [Mengelola akses data dengan jalur akses Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-points.html) di Panduan Pengguna *Amazon S3*.

1. (Opsional) Untuk **Pengaturan lanjutan**, tentukan nilai untuk bidang berikut:

   1. **Jenis file** - Format file dari data yang Anda ekspor.

   1. **Delimiter** — Pembatas yang digunakan untuk memisahkan nilai dalam file.

   1. **Kompresi** — Metode kompresi yang digunakan untuk mengurangi ukuran file.

   1. **Jumlah partisi** — Jumlah file dataset yang ditulis Canvas sebagai output dari pekerjaan.

   1. **Pilih kolom** - Anda dapat memilih subset kolom dari data yang akan disertakan dalam partisi.

1. Biarkan opsi **Proses seluruh kumpulan data** dipilih jika Anda ingin Canvas menerapkan transformasi aliran data Anda ke seluruh kumpulan data Anda dan mengekspor hasilnya. Jika Anda membatalkan pilihan ini, Canvas hanya menerapkan transformasi ke sampel kumpulan data Anda yang digunakan dalam aliran data Wrangler Data interaktif.
**catatan**  
Jika Anda hanya mengekspor sampel data Anda, Canvas memproses data Anda dalam aplikasi dan tidak membuat pekerjaan jarak jauh untuk Anda.

1. Biarkan opsi **konfigurasi pekerjaan Otomatis** dipilih jika Anda ingin Canvas menentukan secara otomatis apakah akan menjalankan pekerjaan menggunakan memori aplikasi Canvas atau pekerjaan EMR Tanpa Server. Jika Anda tidak memilih opsi ini dan mengonfigurasi pekerjaan Anda secara manual, maka Anda dapat memilih untuk menggunakan EMR Tanpa Server atau pekerjaan Pemrosesan. SageMaker Untuk petunjuk tentang cara mengonfigurasi EMR Tanpa Server atau pekerjaan SageMaker Pemrosesan, lihat bagian setelah prosedur ini sebelum Anda mengekspor data Anda.

1. Pilih **Ekspor**.

Prosedur berikut menunjukkan cara mengonfigurasi pengaturan pekerjaan jarak jauh secara manual untuk EMR Tanpa Server atau SageMaker Pemrosesan saat mengekspor kumpulan data lengkap Anda ke Amazon S3.

------
#### [ EMR Serverless ]

Untuk mengonfigurasi pekerjaan EMR Tanpa Server saat mengekspor ke Amazon S3, lakukan hal berikut:

1. Di panel samping Ekspor ke Amazon S3, matikan opsi **Konfigurasi pekerjaan otomatis**.

1. Pilih **EMR Tanpa Server**.

1. Untuk **nama Job**, masukkan nama untuk pekerjaan EMR Tanpa Server Anda. Nama dapat berisi huruf, angka, tanda hubung, dan garis bawah.

1. Untuk **peran IAM**, masukkan peran eksekusi IAM pengguna. Peran ini harus memiliki izin yang diperlukan untuk menjalankan aplikasi EMR Tanpa Server. Untuk informasi selengkapnya, lihat [Berikan Izin Pengguna untuk Menggunakan Data Besar di seluruh Siklus Hidup ML](canvas-large-data-permissions.md).

1. (Opsional) Untuk **kunci KMS**, tentukan ID kunci atau ARN untuk mengenkripsi log pekerjaan. AWS KMS key Jika Anda tidak memasukkan kunci, Canvas menggunakan kunci default untuk EMR Tanpa Server.

1. (Opsional) Untuk **konfigurasi Monitoring**, masukkan nama grup CloudWatch log Amazon Logs yang ingin Anda publikasikan log Anda.

1. (Opsional) Untuk **Tag**, tambahkan tag metadata ke pekerjaan EMR Tanpa Server yang terdiri dari pasangan nilai kunci. Tag ini dapat digunakan untuk mengkategorikan dan mencari pekerjaan.

1. Pilih **Ekspor** untuk memulai tugas.

------
#### [ SageMaker Processing ]

Untuk mengonfigurasi pekerjaan SageMaker Pemrosesan saat mengekspor ke Amazon S3, lakukan hal berikut:

1. Di panel samping **Ekspor ke Amazon S3**, matikan opsi **Konfigurasi pekerjaan otomatis**.

1. Pilih **SageMaker Pemrosesan**.

1. Untuk **nama Job**, masukkan nama untuk pekerjaan SageMaker AI Processing Anda.

1. Untuk **tipe Instance**, pilih jenis instance komputasi untuk menjalankan pekerjaan pemrosesan.

1. Untuk **hitungan Instance**, tentukan jumlah instance komputasi yang akan diluncurkan.

1. Untuk **peran IAM**, masukkan peran eksekusi IAM pengguna. Peran ini harus memiliki izin yang diperlukan bagi SageMaker AI untuk membuat dan menjalankan pekerjaan pemrosesan atas nama Anda. Izin ini diberikan jika Anda memiliki [AmazonSageMakerFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerFullAccess.html)kebijakan yang melekat pada peran IAM Anda.

1. Untuk **ukuran Volume**, masukkan ukuran penyimpanan dalam GB untuk volume penyimpanan ML yang dilampirkan ke setiap instance pemrosesan. Pilih ukuran berdasarkan ukuran data input dan output yang Anda harapkan.

1. (Opsional) Untuk **tombol Volume KMS**, tentukan kunci KMS untuk mengenkripsi volume penyimpanan. Jika Anda tidak menentukan kunci, kunci enkripsi Amazon EBS default akan digunakan.

1. (Opsional) Untuk **kunci KMS**, tentukan kunci KMS untuk mengenkripsi input dan output sumber data Amazon S3 yang digunakan oleh pekerjaan pemrosesan.

1. (Opsional) Untuk **konfigurasi memori Spark**, lakukan hal berikut:

   1. Masukkan **memori Driver dalam MB** untuk node driver Spark yang menangani koordinasi dan penjadwalan pekerjaan.

   1. Masukkan **memori Executor dalam MB** untuk node pelaksana Spark yang menjalankan tugas individual dalam pekerjaan.

1. (Opsional) Untuk **konfigurasi Jaringan**, lakukan hal berikut:

   1. Untuk **konfigurasi Subnet**, masukkan IDs subnet VPC untuk instance pemrosesan yang akan diluncurkan. Secara default, pekerjaan menggunakan pengaturan VPC default Anda.

   1. Untuk **konfigurasi grup Keamanan**, masukkan IDs grup keamanan untuk mengontrol aturan konektivitas masuk dan keluar.

   1. Aktifkan opsi **Aktifkan enkripsi lalu lintas antar kontainer** untuk mengenkripsi komunikasi jaringan antara wadah pemrosesan selama pekerjaan.

1. (Opsional) Untuk **jadwal Associate**, Anda dapat memilih buat EventBridge jadwal Amazon agar pekerjaan pemrosesan berjalan pada interval berulang. Pilih **Buat jadwal baru** dan isi kotak dialog. Untuk informasi selengkapnya tentang mengisi bagian ini dan menjalankan pekerjaan pemrosesan sesuai jadwal, lihat[Buat jadwal untuk memproses data baru secara otomatis](canvas-data-export-schedule-job.md).

1. (Opsional) Tambahkan **Tag** sebagai pasangan nilai kunci sehingga Anda dapat mengkategorikan dan mencari pekerjaan pemrosesan.

1. Pilih **Ekspor** untuk memulai pekerjaan pemrosesan.

------

Setelah mengekspor data, Anda akan menemukan kumpulan data yang diproses sepenuhnya di lokasi Amazon S3 yang ditentukan.

# Ekspor aliran data
<a name="canvas-export-data-flow"></a>

Mengekspor aliran data Anda menerjemahkan operasi yang telah Anda buat di Data Wrangler dan mengekspornya ke notebook Jupyter kode Python yang dapat Anda modifikasi dan jalankan. Ini dapat membantu untuk mengintegrasikan kode untuk transformasi data Anda ke dalam pipeline pembelajaran mesin Anda.

Anda dapat memilih node data apa pun dalam aliran data Anda dan mengekspornya. Mengekspor node data mengekspor transformasi yang diwakili oleh node dan transformasi yang mendahuluinya.

**Untuk mengekspor aliran data sebagai notebook Jupyter**

1. Arahkan ke aliran data Anda.

1. Pilih ikon elipsis di sebelah simpul yang ingin Anda ekspor.

1. Di menu konteks, arahkan kursor ke **Ekspor**, lalu arahkan kursor ke **Ekspor melalui notebook Jupyter**.

1. Pilih salah satu cara berikut:
   + **SageMaker Pipa**
   + **Amazon S3**
   + **SageMaker Pipa Inferensi AI**
   + **SageMaker Toko Fitur AI**
   + **Kode Python**

1. Kotak dialog **Ekspor aliran data sebagai buku catatan** terbuka. Pilih salah satu dari berikut ini:
   + **Unduh salinan lokal**
   + **Ekspor ke lokasi S3**

1. Jika Anda memilih **Ekspor ke lokasi S3**, masukkan lokasi Amazon S3 yang ingin Anda ekspor notebook.

1. Pilih **Ekspor**.

Notebook Jupyter Anda harus mengunduh ke komputer lokal Anda, atau Anda dapat menemukannya disimpan di lokasi Amazon S3 yang Anda tentukan.

# Tambahkan node tujuan
<a name="canvas-destination-nodes-add"></a>

Node tujuan di SageMaker Canvas menentukan tempat menyimpan data yang diproses dan diubah. Saat Anda memilih untuk mengekspor data yang diubah ke Amazon S3, Canvas menggunakan lokasi node tujuan yang ditentukan, menerapkan semua transformasi yang telah Anda konfigurasikan dalam alur data Anda. Untuk informasi selengkapnya tentang pekerjaan ekspor ke Amazon S3, lihat bagian sebelumnya. [Ekspor ke Amazon S3](canvas-export-data.md#canvas-export-data-s3)

Secara default, memilih untuk mengekspor data Anda ke Amazon S3 menambahkan node tujuan ke aliran data Anda. Namun, Anda dapat menambahkan beberapa node tujuan ke alur Anda, memungkinkan Anda untuk secara bersamaan mengekspor berbagai set transformasi atau variasi data Anda ke lokasi Amazon S3 yang berbeda. Misalnya, Anda dapat membuat satu node tujuan yang mengekspor data setelah menerapkan semua transformasi, dan node tujuan lain yang mengekspor data setelah hanya transformasi awal tertentu, seperti operasi gabungan. Fleksibilitas ini memungkinkan Anda untuk mengekspor dan menyimpan berbagai versi atau himpunan bagian dari data Anda yang diubah di lokasi S3 terpisah untuk berbagai kasus penggunaan.

Gunakan prosedur berikut untuk menambahkan node tujuan ke aliran data Anda.

**Untuk menambahkan node tujuan**

1. Arahkan ke aliran data Anda.

1. Pilih ikon elipsis di sebelah simpul tempat Anda ingin menempatkan simpul tujuan.

1. Di menu konteks, arahkan kursor ke **Ekspor**, lalu pilih **Tambahkan tujuan**.

1. Di panel sisi **tujuan Ekspor**, masukkan nama **Dataset untuk memberi nama** output.

1. Untuk lokasi **Amazon S3, masukkan lokasi** Amazon S3 yang ingin Anda ekspor outputnya. Anda dapat memasukkan URI S3, alias, atau ARN dari lokasi S3 atau titik akses S3. Untuk informasi selengkapnya, lihat [Mengelola akses data dengan jalur akses Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-points.html) di Panduan Pengguna *Amazon S3*.

1. Untuk **pengaturan Ekspor**, tentukan bidang berikut:

   1. **Jenis file** - Format file dari data yang diekspor.

   1. **Delimiter** — Pembatas yang digunakan untuk memisahkan nilai dalam file.

   1. **Kompresi** — Metode kompresi yang digunakan untuk mengurangi ukuran file.

1. Untuk **Partisi**, tentukan bidang berikut:

   1. **Jumlah partisi** — Jumlah file dataset yang ditulis SageMaker Canvas sebagai output dari pekerjaan.

   1. **Pilih kolom** - Anda dapat memilih subset kolom dari data yang akan disertakan dalam partisi.

1. Pilih **Tambah** jika Anda ingin menambahkan node tujuan ke aliran data Anda, atau pilih **Tambah** dan kemudian pilih **Ekspor** jika Anda ingin menambahkan node dan memulai pekerjaan ekspor.

Anda sekarang harus melihat node tujuan baru dalam alur Anda.

# Mengedit simpul tujuan
<a name="canvas-destination-nodes-edit"></a>

*Node tujuan* dalam aliran data Amazon SageMaker Canvas menentukan lokasi Amazon S3 tempat data yang diproses dan diubah disimpan, menerapkan semua transformasi yang dikonfigurasi dalam aliran data Anda. Anda dapat mengedit konfigurasi node tujuan yang ada dan kemudian memilih untuk menjalankan kembali pekerjaan untuk menimpa data di lokasi Amazon S3 yang ditentukan. Untuk informasi selengkapnya tentang menambahkan node tujuan baru, lihat[Tambahkan node tujuan](canvas-destination-nodes-add.md).

Gunakan prosedur berikut untuk mengedit node tujuan dalam aliran data Anda dan memulai pekerjaan ekspor.

**Untuk mengedit node tujuan**

1. Arahkan ke aliran data Anda.

1. Pilih ikon elipsis di sebelah simpul tujuan yang ingin Anda edit.

1. Di menu konteks, pilih **Edit**.

1. Panel sisi **tujuan Edit** terbuka. Dari panel ini, Anda dapat mengedit detail seperti nama dataset, lokasi Amazon S3, dan pengaturan ekspor dan partisi.

1. (Opsional) Di **Node tambahan untuk diekspor**, Anda dapat memilih lebih banyak node tujuan untuk diproses saat Anda menjalankan pekerjaan ekspor.

1. Biarkan opsi **Proses seluruh kumpulan data** dipilih jika Anda ingin Canvas menerapkan transformasi aliran data Anda ke seluruh kumpulan data Anda dan mengekspor hasilnya. Jika Anda membatalkan pilihan ini, Canvas hanya menerapkan transformasi ke sampel kumpulan data Anda yang digunakan dalam aliran data Wrangler Data interaktif.

1. Biarkan opsi **konfigurasi pekerjaan Otomatis** dipilih jika Anda ingin Canvas menentukan secara otomatis apakah akan menjalankan pekerjaan menggunakan memori aplikasi Canvas atau pekerjaan EMR Tanpa Server. Jika Anda tidak memilih opsi ini dan mengonfigurasi pekerjaan Anda secara manual, maka Anda dapat memilih untuk menggunakan EMR Tanpa Server atau pekerjaan Pemrosesan. SageMaker Untuk petunjuk tentang cara mengonfigurasi EMR Tanpa Server atau pekerjaan SageMaker Pemrosesan, lihat bagian sebelumnya. [Ekspor ke Amazon S3](canvas-export-data.md#canvas-export-data-s3)

1. Setelah selesai membuat perubahan, pilih **Perbarui**.

Menyimpan perubahan pada konfigurasi node tujuan Anda tidak secara otomatis menjalankan kembali pekerjaan atau menimpa data yang telah diproses dan diekspor. Ekspor data Anda lagi untuk menjalankan pekerjaan dengan konfigurasi baru. Jika Anda memutuskan untuk mengekspor data Anda lagi dengan pekerjaan, Canvas menggunakan konfigurasi node tujuan yang diperbarui untuk mengubah dan mengeluarkan data ke lokasi yang ditentukan, menimpa data yang ada.

# Buat jadwal untuk memproses data baru secara otomatis
<a name="canvas-data-export-schedule-job"></a>

**catatan**  
Bagian berikut hanya berlaku untuk pekerjaan SageMaker Pemrosesan. Jika Anda menggunakan pengaturan Canvas default atau EMR Tanpa Server untuk membuat pekerjaan jarak jauh untuk menerapkan transformasi ke kumpulan data lengkap Anda, bagian ini tidak berlaku.

Jika Anda memproses data secara berkala, Anda dapat membuat jadwal untuk menjalankan pekerjaan pemrosesan secara otomatis. Misalnya, Anda dapat membuat jadwal yang menjalankan pekerjaan pemrosesan secara otomatis saat Anda mendapatkan data baru. Untuk informasi selengkapnya tentang memproses pekerjaan, lihat[Ekspor ke Amazon S3](canvas-export-data.md#canvas-export-data-s3).

Saat membuat pekerjaan, Anda harus menentukan peran IAM yang memiliki izin untuk membuat pekerjaan. Anda dapat menggunakan [AmazonSageMakerCanvasDataPrepFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerCanvasDataPrepFullAccess.html)kebijakan untuk menambahkan izin.

Tambahkan kebijakan kepercayaan berikut ke peran untuk memungkinkan untuk EventBridge mengasumsikannya.

```
{
    "Effect": "Allow",
    "Principal": {
        "Service": "events.amazonaws.com"
    },
    "Action": "sts:AssumeRole"
}
```

**penting**  
Saat Anda membuat jadwal, Data Wrangler membuat `eventRule` in. EventBridge Anda dikenakan biaya untuk aturan acara yang Anda buat dan instance yang digunakan untuk menjalankan pekerjaan pemrosesan.  
Untuk informasi tentang EventBridge harga, lihat [ EventBridge harga Amazon](https://aws.amazon.com/eventbridge/pricing/). Untuk informasi tentang memproses harga lowongan kerja, lihat [ SageMaker Harga Amazon](https://aws.amazon.com/sagemaker/pricing/).

Anda dapat mengatur jadwal menggunakan salah satu metode berikut:
+ [Ekspresi CRON](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule-schedule.html)
**catatan**  
Data Wrangler tidak mendukung ekspresi berikut:  
LW\$1
Singkatan untuk hari
Singkatan untuk bulan
+ [Ekspresi RATE](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule-schedule.html#eb-rate-expressions)
+ Berulang — Tetapkan interval per jam atau harian untuk menjalankan pekerjaan.
+ Waktu spesifik - Tetapkan hari dan waktu tertentu untuk menjalankan pekerjaan.

Bagian berikut menyediakan prosedur penjadwalan pekerjaan saat mengisi pengaturan pekerjaan Pemrosesan SageMaker AI saat [mengekspor data Anda ke Amazon S3](canvas-export-data.md#canvas-export-data-s3). Semua instruksi berikut dimulai di bagian **Jadwal asosiasi** dari pengaturan pekerjaan SageMaker Pemrosesan.

------
#### [ CRON ]

Gunakan prosedur berikut untuk membuat jadwal dengan ekspresi CRON.

1. **Di panel samping **Ekspor ke Amazon S3**, pastikan Anda telah mematikan sakelar **konfigurasi pekerjaan Otomatis** dan pilih opsi SageMaker Pemrosesan.**

1. Di pengaturan pekerjaan **SageMaker Pemrosesan**, buka bagian **Jadwal asosiasi** dan pilih **Buat jadwal baru**.

1. Kotak dialog **Buat jadwal baru** terbuka. Untuk **Nama Jadwal**, tentukan nama jadwal.

1. Untuk **Run Frequency**, pilih **CRON**.

1. Untuk setiap bidang **Menit**, **Jam**, **Hari bulan****, Bulan**, dan **Hari dalam seminggu**, masukkan nilai ekspresi CRON yang valid.

1. Pilih **Buat**.

1. (Opsional) Pilih **Tambahkan jadwal lain** untuk menjalankan pekerjaan pada jadwal tambahan.
**catatan**  
Anda dapat mengaitkan maksimal dua jadwal. Jadwal independen dan tidak mempengaruhi satu sama lain kecuali waktu tumpang tindih.

1. Pilih salah satu cara berikut:
   + **Jadwalkan dan jalankan sekarang** — Pekerjaan berjalan segera dan kemudian berjalan sesuai jadwal.
   + **Hanya jadwal** — Pekerjaan hanya berjalan pada jadwal yang Anda tentukan.

1. Pilih **Ekspor** setelah Anda mengisi sisa pengaturan pekerjaan ekspor.

------
#### [ RATE ]

Gunakan prosedur berikut untuk membuat jadwal dengan ekspresi RATE.

1. **Di panel samping **Ekspor ke Amazon S3**, pastikan Anda telah mematikan sakelar **konfigurasi pekerjaan Otomatis** dan pilih opsi SageMaker Pemrosesan.**

1. Di pengaturan pekerjaan **SageMaker Pemrosesan**, buka bagian **Jadwal asosiasi** dan pilih **Buat jadwal baru**.

1. Kotak dialog **Buat jadwal baru** terbuka. Untuk **Nama Jadwal**, tentukan nama jadwal.

1. Untuk **Run Frequency**, pilih **Rate**.

1. Untuk **Nilai**, tentukan bilangan bulat.

1. Untuk **Unit**, pilih salah satu dari berikut ini:
   + **Menit**
   + **Jam**
   + **Hari**

1. Pilih **Buat**.

1. (Opsional) Pilih **Tambahkan jadwal lain** untuk menjalankan pekerjaan pada jadwal tambahan.
**catatan**  
Anda dapat mengaitkan maksimal dua jadwal. Jadwal independen dan tidak mempengaruhi satu sama lain kecuali waktu tumpang tindih.

1. Pilih salah satu cara berikut:
   + **Jadwalkan dan jalankan sekarang** — Pekerjaan berjalan segera dan kemudian berjalan sesuai jadwal.
   + **Hanya jadwal** — Pekerjaan hanya berjalan pada jadwal yang Anda tentukan.

1. Pilih **Ekspor** setelah Anda mengisi sisa pengaturan pekerjaan ekspor.

------
#### [ Recurring ]

Gunakan prosedur berikut untuk membuat jadwal yang menjalankan pekerjaan secara berulang.

1. **Di panel samping **Ekspor ke Amazon S3**, pastikan Anda telah mematikan sakelar **konfigurasi pekerjaan Otomatis** dan pilih opsi SageMaker Pemrosesan.**

1. Di pengaturan pekerjaan **SageMaker Pemrosesan**, buka bagian **Jadwal asosiasi** dan pilih **Buat jadwal baru**.

1. Kotak dialog **Buat jadwal baru** terbuka. Untuk **Nama Jadwal**, tentukan nama jadwal.

1. Untuk **Run Frequency**, pilih **Recurring**.

1. Untuk **Setiap x jam**, tentukan frekuensi per jam yang dijalankan pekerjaan pada siang hari. Nilai yang valid adalah bilangan bulat dalam rentang inklusif dan**1**. **23**

1. Untuk **Pada hari**, pilih salah satu opsi berikut:
   + **Setiap hari**
   + **Akhir pekan**
   + **Hari kerja**
   + **Pilih Hari**

   1. (Opsional) Jika Anda telah memilih **Pilih** Hari, pilih hari dalam seminggu untuk menjalankan pekerjaan.
**catatan**  
Jadwal diatur ulang setiap hari. Jika Anda menjadwalkan pekerjaan untuk dijalankan setiap lima jam, itu berjalan pada waktu-waktu berikut di siang hari:  
00:00
05:00
10:00
15:00
20:00

1. Pilih **Buat**.

1. (Opsional) Pilih **Tambahkan jadwal lain** untuk menjalankan pekerjaan pada jadwal tambahan.
**catatan**  
Anda dapat mengaitkan maksimal dua jadwal. Jadwal independen dan tidak mempengaruhi satu sama lain kecuali waktu tumpang tindih.

1. Pilih salah satu cara berikut:
   + **Jadwalkan dan jalankan sekarang** — Pekerjaan berjalan segera dan kemudian berjalan sesuai jadwal.
   + **Hanya jadwal** — Pekerjaan hanya berjalan pada jadwal yang Anda tentukan.

1. Pilih **Ekspor** setelah Anda mengisi sisa pengaturan pekerjaan ekspor.

------
#### [ Specific time ]

Gunakan prosedur berikut untuk membuat jadwal yang menjalankan pekerjaan pada waktu tertentu.

1. **Di panel samping **Ekspor ke Amazon S3**, pastikan Anda telah mematikan sakelar **konfigurasi pekerjaan Otomatis** dan pilih opsi SageMaker Pemrosesan.**

1. Di pengaturan pekerjaan **SageMaker Pemrosesan**, buka bagian **Jadwal asosiasi** dan pilih **Buat jadwal baru**.

1. Kotak dialog **Buat jadwal baru** terbuka. Untuk **Nama Jadwal**, tentukan nama jadwal.

1. Untuk **Run Frequency**, pilih **Waktu mulai**.

1. Untuk **Waktu mulai**, masukkan waktu dalam format UTC (misalnya,**09:00**). Waktu mulai default ke zona waktu di mana Anda berada.

1. Untuk **Pada hari**, pilih salah satu opsi berikut:
   + **Setiap hari**
   + **Akhir pekan**
   + **Hari kerja**
   + **Pilih Hari**

   1. (Opsional) Jika Anda telah memilih **Pilih** Hari, pilih hari dalam seminggu untuk menjalankan pekerjaan.

1. Pilih **Buat**.

1. (Opsional) Pilih **Tambahkan jadwal lain** untuk menjalankan pekerjaan pada jadwal tambahan.
**catatan**  
Anda dapat mengaitkan maksimal dua jadwal. Jadwal independen dan tidak mempengaruhi satu sama lain kecuali waktu tumpang tindih.

1. Pilih salah satu cara berikut:
   + **Jadwalkan dan jalankan sekarang** — Pekerjaan berjalan segera dan kemudian berjalan sesuai jadwal.
   + **Hanya jadwal** — Pekerjaan hanya berjalan pada jadwal yang Anda tentukan.

1. Pilih **Ekspor** setelah Anda mengisi sisa pengaturan pekerjaan ekspor.

------

Anda dapat menggunakan SageMaker AI Konsol Manajemen AWS untuk melihat pekerjaan yang dijadwalkan untuk dijalankan. Pekerjaan pemrosesan Anda berjalan di dalam Pipelines. Setiap pekerjaan pemrosesan memiliki pipa sendiri. Ini berjalan sebagai langkah pemrosesan di dalam pipa. Anda dapat melihat jadwal yang telah Anda buat dalam pipeline. Untuk informasi tentang melihat pipeline, lihat[Lihat detail pipa](pipelines-studio-list.md).

Gunakan prosedur berikut untuk melihat pekerjaan yang telah Anda jadwalkan.

Untuk melihat pekerjaan yang telah Anda jadwalkan, lakukan hal berikut.

1. Buka Amazon SageMaker Studio Classic.

1. Buka Pipa

1. Lihat saluran pipa untuk pekerjaan yang telah Anda buat.

   Pipeline yang menjalankan pekerjaan menggunakan nama pekerjaan sebagai awalan. Misalnya, jika Anda telah membuat pekerjaan bernama`housing-data-feature-enginnering`, nama pipeline adalah`canvas-data-prep-housing-data-feature-engineering`.

1. Pilih pipeline yang berisi pekerjaan Anda.

1. Lihat status jaringan pipa. Pipelines dengan **Status** **Sukses telah menjalankan pekerjaan pemrosesan dengan sukses**.

Untuk menghentikan pekerjaan pemrosesan berjalan, lakukan hal berikut:

Untuk menghentikan pekerjaan pemrosesan agar tidak berjalan, hapus aturan acara yang menentukan jadwal. Menghapus aturan acara menghentikan semua pekerjaan yang terkait dengan jadwal berjalan. Untuk informasi tentang menghapus aturan, lihat [Menonaktifkan atau menghapus](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-delete-rule.html) aturan Amazon. EventBridge 

Anda dapat menghentikan dan menghapus saluran pipa yang terkait dengan jadwal juga. Untuk informasi tentang menghentikan pipa, lihat [StopPipelineExecution](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_StopPipelineExecution.html). Untuk informasi tentang menghapus pipeline, lihat [DeletePipeline](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DeletePipeline.html#API_DeletePipeline_RequestSyntax).