

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Pembuatan dataset sintetis yang ditingkatkan privasi
<a name="synthetic-data-generation"></a>

*Dataset sintetis* memiliki sifat statistik yang mirip dengan kumpulan data asli yang menjadi dasarnya, tetapi tidak berisi pengamatan dunia nyata yang ada dalam kumpulan data asli. Dengan menggunakan kumpulan data sintetis yang ditingkatkan privasi, Anda dapat membuka kasus penggunaan pelatihan model pembelajaran mesin (ML) baru yang sebelumnya dicegah oleh masalah privasi data. Saat membuat saluran input ML, Anda dapat menghasilkan data sintetis untuk melindungi informasi sensitif saat melatih model ML. 

Saat membuat template dengan data sintetis, Anda harus:
+ Memerlukan output template menjadi sintetis
+ Klasifikasi kolom skema keluaran sebagai numerik atau kategoris
+ Sesuaikan data sintetis berdasarkan kebutuhan organisasi
+ Sesuaikan pengaturan privasi:
  + Tetapkan tingkat privasi (epsilon)
  + Konfigurasikan ambang privasi

**Awas**  
Pembuatan data sintetis melindungi dari menyimpulkan atribut individu apakah individu tertentu hadir dalam kumpulan data asli atau atribut pembelajaran individu tersebut hadir. Namun, itu tidak mencegah nilai literal dari kumpulan data asli, termasuk informasi yang dapat diidentifikasi secara pribadi (PII) muncul di kumpulan data sintetis.  
Sebaiknya hindari nilai dalam kumpulan data input yang hanya terkait dengan satu subjek data karena ini dapat mengidentifikasi kembali subjek data. Misalnya, jika hanya satu pengguna yang tinggal dalam kode pos, keberadaan kode pos itu dalam kumpulan data sintetis akan mengonfirmasi bahwa pengguna berada dalam kumpulan data asli. Teknik seperti memotong nilai presisi tinggi atau mengganti katalog yang tidak biasa dengan yang *lain* dapat digunakan untuk mengurangi risiko ini. Transformasi ini dapat menjadi bagian dari query yang digunakan untuk membuat saluran input ML.

Untuk informasi selengkapnya tentang cara menghasilkan data sintetis untuk pelatihan model kustom, lihat[Membuat templat analisis SQL](create-sql-analysis-template.md).

Template analisis dengan output sintetis hanya dapat digunakan untuk membuat saluran input ML. Untuk informasi selengkapnya, lihat [Membuat saluran input ML di AWS Clean Rooms](create-ml-input-channel.md).

# Pertimbangan untuk pembuatan data sintetis
<a name="considerations-for-data-generation"></a>

Dengan AWS Clean Rooms, anggota kolaborasi dapat membuat kumpulan data sintetis yang secara permanen menghapus identifikasi subjek kumpulan data asli dari kumpulan data kolektif mereka untuk melatih model pembelajaran mesin khusus. Saat membuat kolaborasi, Anda harus mengonfigurasi informasi pembayaran untuk menentukan siapa yang membayar untuk pembuatan data sintetis. Berikut adalah langkah-langkah tingkat tinggi untuk menghasilkan kumpulan data sintetis dan melatih model pembelajaran mesin khusus:

1. Anggota kolaborasi membuat templat analisis yang mencakup:
   + SQL diperlukan untuk mendefinisikan dataset yang akan disintesis.
   + Konfigurasi terkait privasi yang digunakan untuk memastikan data sintetis memenuhi persyaratan kepatuhan penyedia data.

1. Setelah semua penyedia data menyetujui template analisis, pelari kueri kolaborasi membuat saluran input machine learning (ML), menggunakan template.

1. Clean Rooms MS menghasilkan dataset sintetis dan memverifikasi bahwa itu memenuhi ambang privasi yang ditentukan dalam template analisis. 

1. Jika semua ambang batas terpenuhi, saluran input ML diisi dengan kumpulan data sintetis.

1. Pelanggan kemudian dapat menggunakan saluran input ML ini untuk melatih model ML kustom yang terkait dengan kolaborasi.

Pertimbangan penting:
+ Data sintetis yang dihasilkan di Clean Rooms ML **tidak** menghapus, menyunting, mengaburkan, atau membersihkan nilai individu apa pun, termasuk informasi identitas pribadi (PII) yang ditemukan dalam kumpulan data asli. Dataset sintetis dihasilkan oleh nilai pengambilan sampel, tetapi tidak seluruh catatan, dari kumpulan data asli.
+ Jika kumpulan data asli berisi baris yang serupa, ada kemungkinan data sintetis berisi baris yang terlihat identik dengan baris dalam kumpulan data asli.

Persiapan dataset:
+ Hindari kolom dengan distribusi kelas yang tidak seimbang secara signifikan. Ini sangat penting untuk nilai prediksi atau kolom “Y”. Ketidakseimbangan ekstrim mengurangi privasi keseluruhan kumpulan data sintetis.
+ Clean Rooms MLtidak mendukung pembuatan data sintetis dari data deret waktu di mana menjaga korelasi di seluruh catatan sekuensial adalah penting.
+ Clean Rooms ML tidak mendukung pembuatan data sintetis dari teks atau data tidak terstruktur.
+  tipe data berikut didukung:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/clean-rooms/latest/userguide/considerations-for-data-generation.html)

Pembatasan:
+ Untuk pembuatan data sintetis, jumlah maksimum kolom prediktif adalah satu.
+ Jika kolom target kategoris, jumlah maksimum kategori dalam kumpulan data asli adalah 100.
+ Dalam kumpulan data asli, jumlah baris harus antara 1.500 dan 2,5 juta dan jumlah kolom maksimum adalah 1.000. Untuk nilai non-null di kolom target, jumlah baris minimum adalah 1.000.

Metrik privasi:
+ Clean Rooms ML memberikan skor privasi yang mengukur seberapa terlindungi data sintetis yang dihasilkan terhadap serangan inferensi keanggotaan (MIAs). Layanan ini menyimpan 5% dari data asli dari proses sintesis untuk menghitung skor ini.
+ Skor mendekati 50% dianggap baik; skor yang lebih tinggi menunjukkan perlindungan yang lebih sedikit terhadap MIAs. Skor secara signifikan di bawah 50% jarang terjadi dan mungkin karena non-representasi pola dari data asli dalam data yang disintesis.

Model kustom hilir:
+ Data sintetis yang dihasilkan di Clean Rooms ML paling cocok untuk melatih model klasifikasi biner dan model klasifikasi multi-kelas hingga lima kelas.
+ Model regresi pelatihan menggunakan data sintetis yang dihasilkan di Clean Rooms MLdapat menghasilkan akurasi model yang rendah, yang diukur dengan Root Mean Square Error (RMSE).