

Amazon Fraud Detector tidak lagi terbuka untuk pelanggan baru per 7 November 2025. Untuk kemampuan yang mirip dengan Amazon Fraud Detector, jelajahi Amazon SageMaker AutoGluon,, dan AWS WAF.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Pilih jenis model
<a name="choosing-model-type"></a>

Jenis model berikut tersedia di Amazon Fraud Detector. Pilih jenis model yang sesuai untuk kasus penggunaan Anda. 
+ **Wawasan Penipuan Online**

  Jenis model *Wawasan Penipuan Online* dioptimalkan untuk mendeteksi penipuan ketika sedikit data historis tersedia tentang entitas yang sedang dievaluasi, misalnya, pelanggan baru yang mendaftar secara online untuk akun baru.
+ **Wawasan Penipuan Transaksi**

  Jenis model *Transaction Fraud Insights* paling cocok untuk mendeteksi kasus penggunaan penipuan di mana entitas yang sedang dievaluasi mungkin memiliki riwayat interaksi yang dapat dianalisis model untuk meningkatkan akurasi prediksi (misalnya, pelanggan yang sudah ada dengan riwayat pembelian sebelumnya).
+ **Wawasan Pengambilalihan Akun**

  Jenis model *Account Takeover Insights* mendeteksi jika akun dikompromikan oleh phishing atau jenis serangan lainnya. Data login dari akun yang disusupi, seperti browser dan perangkat yang digunakan saat login, berbeda dari data login historis yang terkait dengan akun tersebut. 

# Wawasan penipuan online
<a name="online-fraud-insights"></a>

Online Fraud Insights adalah model pembelajaran mesin yang diawasi, yang berarti menggunakan contoh historis transaksi penipuan dan sah untuk melatih model tersebut. Model Online Fraud Insights dapat mendeteksi penipuan berdasarkan sedikit data historis. Masukan model fleksibel, sehingga Anda dapat menyesuaikannya untuk mendeteksi berbagai risiko penipuan termasuk ulasan palsu, penyalahgunaan promosi, dan penipuan checkout tamu. 

Model Online Fraud Insights menggunakan ansambel algoritma pembelajaran mesin untuk pengayaan data, transformasi, dan klasifikasi penipuan. Sebagai bagian dari proses pelatihan model, Online Fraud Insights memperkaya elemen data mentah seperti alamat IP dan nomor BIN dengan data pihak ketiga seperti geolokasi alamat IP atau bank penerbit untuk kartu kredit. Selain data pihak ketiga, Online Fraud Insights menggunakan algoritma pembelajaran mendalam yang memperhitungkan pola penipuan yang telah terlihat di Amazon dan. AWS Pola penipuan ini menjadi fitur masukan untuk model Anda menggunakan algoritma peningkatan pohon gradien.

Untuk meningkatkan kinerja, Online Fraud Insights mengoptimalkan parameter hiper dari algoritma peningkatan pohon gradien melalui proses optimasi Bayesian. Ini secara berurutan melatih lusinan model yang berbeda dengan parameter model yang bervariasi (seperti jumlah pohon, kedalaman pohon, dan jumlah sampel per daun). Ini juga menggunakan strategi optimasi yang berbeda seperti meningkatkan populasi penipuan minoritas untuk menjaga tingkat penipuan yang sangat rendah.

## Memilih sumber data
<a name="selecting-training-data-source-OFI"></a>

Saat melatih model Wawasan Penipuan Online, Anda dapat memilih untuk melatih model pada data peristiwa yang disimpan secara eksternal (di luar Amazon Fraud Detector) atau disimpan dalam Amazon Fraud Detector. Penyimpanan eksternal yang saat ini didukung Amazon Fraud Detector adalah Amazon Simple Storage Service (Amazon S3). Jika Anda menggunakan penyimpanan eksternal, kumpulan data acara harus diunggah sebagai format nilai yang dipisahkan koma (CSV) ke bucket Amazon S3. Opsi penyimpanan data ini disebut dalam konfigurasi pelatihan model sebagai EXTERNAL\$1EVENTS (untuk penyimpanan eksternal) dan INGESTED\$1EVENTS (untuk penyimpanan internal). Untuk informasi selengkapnya tentang sumber data yang tersedia dan cara menyimpan data di dalamnya, lihat[Penyimpanan data acara](event-data-storage.md).

## Mempersiapkan data
<a name="preparing-training-data-OFI"></a>

Di mana pun Anda memilih untuk menyimpan data acara Anda (Amazon S3 atau Amazon Fraud Detector), persyaratan untuk jenis model Wawasan Penipuan Online adalah sama.

Dataset Anda harus berisi header kolom EVENT\$1LABEL. Variabel ini mengklasifikasikan suatu peristiwa sebagai penipuan atau sah. Saat menggunakan file CSV (penyimpanan eksternal), Anda harus menyertakan EVENT\$1LABEL untuk setiap peristiwa dalam file. Untuk penyimpanan internal, bidang EVENT\$1LABEL bersifat opsional tetapi semua peristiwa harus diberi label untuk disertakan dalam kumpulan data pelatihan. Saat mengonfigurasi pelatihan model, Anda dapat memilih apakah akan mengabaikan peristiwa yang tidak berlabel, mengambil label yang sah untuk peristiwa yang tidak berlabel, atau mengasumsikan label penipuan untuk semua peristiwa yang tidak berlabel. 

## Memilih data
<a name="selecting-training-data-OFI"></a>

Lihat [Mengumpulkan data acara](https://docs.aws.amazon.com//frauddetector/latest/ug/create-event-dataset.html#gather-event-data) untuk informasi tentang memilih data untuk melatih model Wawasan Penipuan Online Anda.

Pelatihan Online Fraud Insights memproses sampel dan mempartisi data historis berdasarkan EVENT\$1TIMESTAMP. Tidak perlu mengambil sampel data secara manual dan melakukannya dapat berdampak negatif pada hasil model Anda.

## Variabel peristiwa
<a name="input-variables-OFI"></a>

Model Wawasan Penipuan Online membutuhkan setidaknya dua variabel, terlepas dari metadata peristiwa yang diperlukan, yang telah lulus [validasi data](https://docs.aws.amazon.com//frauddetector/latest/ug/create-event-dataset.html#dataset-validation) untuk pelatihan model dan memungkinkan hingga 100 variabel per model. Umumnya, semakin banyak variabel yang Anda berikan, semakin baik model dapat membedakan antara penipuan dan peristiwa yang sah. Meskipun model Wawasan Penipuan Online dapat mendukung lusinan variabel, termasuk variabel khusus, kami merekomendasikan menyertakan alamat IP dan alamat email karena variabel ini biasanya paling efektif dalam mengidentifikasi entitas yang sedang dievaluasi. 

## Memvalidasi data
<a name="training-data-validations-OFI"></a>

Sebagai bagian dari proses pelatihan, Wawasan Penipuan Online akan memvalidasi kumpulan data untuk masalah kualitas data yang dapat memengaruhi pelatihan model. Setelah memvalidasi data, Amazon Fraud Detector akan mengambil tindakan yang tepat untuk membangun model terbaik. Ini termasuk mengeluarkan peringatan untuk masalah kualitas data potensial, secara otomatis menghapus variabel yang memiliki masalah kualitas data, atau mengeluarkan kesalahan dan menghentikan proses pelatihan model. Untuk informasi selengkapnya, lihat [validasi kumpulan data](https://docs.aws.amazon.com//frauddetector/latest/ug/create-event-dataset.html#dataset-validation). 

# Wawasan penipuan transaksi
<a name="transaction-fraud-insights"></a>

Jenis model Transaction Fraud Insights dirancang untuk mendeteksi penipuan online, atau card-not-present, transaksi. Transaction Fraud Insights adalah model pembelajaran mesin yang diawasi, yang berarti menggunakan contoh historis transaksi penipuan dan sah untuk melatih model tersebut.

Model Transaction Fraud Insights menggunakan ansambel algoritma pembelajaran mesin untuk pengayaan data, transformasi, dan klasifikasi penipuan. Ini memanfaatkan mesin rekayasa fitur untuk membuat agregat tingkat entitas dan tingkat peristiwa. Sebagai bagian dari proses pelatihan model, Transaction Fraud Insights memperkaya elemen data mentah seperti alamat IP dan nomor BIN dengan data pihak ketiga seperti geolokasi alamat IP atau bank penerbit untuk kartu kredit. Selain data pihak ketiga, Transaction Fraud Insights menggunakan algoritme pembelajaran mendalam yang memperhitungkan pola penipuan yang telah terlihat di Amazon dan Pola penipuan AWS ini menjadi fitur input untuk model Anda menggunakan algoritme peningkatan pohon gradien.

Untuk meningkatkan kinerja, Transaction Fraud Insights mengoptimalkan parameter hiper algoritme peningkatan pohon gradien melalui proses optimasi Bayesian, secara berurutan melatih lusinan model berbeda dengan parameter model yang bervariasi (seperti jumlah pohon, kedalaman pohon, jumlah sampel per daun) serta strategi pengoptimalan yang berbeda seperti meningkatkan populasi penipuan minoritas untuk menangani tingkat penipuan yang sangat rendah.

Sebagai bagian dari proses pelatihan model, mesin rekayasa fitur model Transaction Fraud menghitung nilai untuk setiap entitas unik dalam kumpulan data pelatihan Anda untuk membantu meningkatkan prediksi penipuan. Misalnya, selama proses pelatihan, Amazon Fraud Detector menghitung dan menyimpan terakhir kali entitas melakukan pembelian dan memperbarui nilai ini secara dinamis setiap kali Anda memanggil `GetEventPrediction` atau `SendEvent` API. Selama prediksi penipuan, variabel peristiwa digabungkan dengan entitas lain dan metadata peristiwa untuk memprediksi apakah transaksi tersebut curang.

## Memilih sumber data
<a name="selecting-training-data-source-TFI"></a>

Model Transaction Fraud Insights dilatih pada kumpulan data yang disimpan secara internal hanya dengan Amazon Fraud Detector (INGESTED\$1EVENTS). Hal ini memungkinkan Amazon Fraud Detector untuk terus memperbarui nilai terhitung tentang entitas yang Anda evaluasi. Untuk informasi selengkapnya tentang sumber data yang tersedia, lihat [Penyimpanan data acara](event-data-storage.md)

## Mempersiapkan data
<a name="preparing-training-data-TFI"></a>

Sebelum Anda melatih model Transaction Fraud Insights, pastikan bahwa file data Anda berisi semua header seperti yang disebutkan dalam [Siapkan dataset acara](https://docs.aws.amazon.com//frauddetector/latest/ug/create-event-dataset.html#prepare-event-dataset). Model Transaction Fraud Insights membandingkan entitas baru yang diterima dengan contoh entitas penipuan dan sah dalam kumpulan data, sehingga sangat membantu untuk memberikan banyak contoh untuk setiap entitas. 

Amazon Fraud Detector secara otomatis mengubah kumpulan data peristiwa yang disimpan menjadi format yang benar untuk pelatihan. Setelah model menyelesaikan pelatihan, Anda dapat meninjau metrik kinerja dan menentukan apakah Anda harus menambahkan entitas ke kumpulan data pelatihan Anda. 

## Memilih data
<a name="selecting-training-data-TFI"></a>

Secara default, Insights Penipuan Transaksi melatih seluruh kumpulan data yang disimpan untuk Jenis Peristiwa yang Anda pilih. Anda dapat secara opsional mengatur rentang waktu untuk mengurangi peristiwa yang digunakan untuk melatih model Anda. Saat menetapkan rentang waktu, pastikan bahwa catatan yang digunakan untuk melatih model memiliki waktu yang cukup untuk matang. Artinya, cukup waktu telah berlalu untuk memastikan catatan yang sah dan penipuan telah diidentifikasi dengan benar. Misalnya, untuk penipuan tolak bayar, seringkali dibutuhkan 60 hari atau lebih untuk mengidentifikasi peristiwa penipuan dengan benar. Untuk kinerja model terbaik, pastikan bahwa semua catatan dalam kumpulan data pelatihan Anda sudah matang. 

Tidak perlu memilih rentang waktu yang mewakili tingkat penipuan yang ideal. Amazon Fraud Detector secara otomatis mengambil sampel data Anda untuk mencapai keseimbangan antara tingkat penipuan, rentang waktu, dan jumlah entitas. 

Amazon Fraud Detector mengembalikan kesalahan validasi selama pelatihan model jika Anda memilih rentang waktu yang tidak cukup acara untuk berhasil melatih model. Untuk kumpulan data yang disimpan, bidang EVENT\$1LABEL bersifat opsional, tetapi peristiwa harus diberi label untuk disertakan dalam kumpulan data pelatihan Anda. Saat mengonfigurasi pelatihan model, Anda dapat memilih apakah akan mengabaikan peristiwa yang tidak berlabel, mengambil label yang sah untuk peristiwa yang tidak berlabel, atau mengasumsikan label penipuan untuk peristiwa yang tidak berlabel. 

## Variabel peristiwa
<a name="input-variables-TFI"></a>

Jenis peristiwa yang digunakan untuk melatih model harus berisi setidaknya 2 variabel, selain dari metadata peristiwa yang diperlukan, yang telah melewati [validasi data](https://docs.aws.amazon.com//frauddetector/latest/ug/create-event-dataset.html#dataset-validation) dan dapat berisi hingga 100 variabel. Umumnya, semakin banyak variabel yang Anda berikan, semakin baik model dapat membedakan antara penipuan dan peristiwa yang sah. Meskipun model Transaction Fraud Insight dapat mendukung lusinan variabel, termasuk variabel kustom, kami menyarankan Anda menyertakan alamat IP, alamat email, jenis instrumen pembayaran, harga pesanan, dan BIN kartu. 

## Memvalidasi data
<a name="training-data-validations-TFI"></a>

Sebagai bagian dari proses pelatihan, Transaction Fraud Insights memvalidasi kumpulan data pelatihan untuk masalah kualitas data yang mungkin memengaruhi pelatihan model. Setelah memvalidasi data, Amazon Fraud Detector mengambil tindakan yang tepat untuk membangun model terbaik. Ini termasuk mengeluarkan peringatan untuk masalah kualitas data potensial, secara otomatis menghapus variabel yang memiliki masalah kualitas data, atau mengeluarkan kesalahan dan menghentikan proses pelatihan model. Untuk informasi selengkapnya, lihat [Validasi kumpulan data](https://docs.aws.amazon.com//frauddetector/latest/ug/create-event-dataset.html#dataset-validation). 

Amazon Fraud Detector akan mengeluarkan peringatan tetapi terus melatih model jika jumlah entitas unik kurang dari 1.500 karena ini dapat memengaruhi kualitas data pelatihan. Jika Anda menerima peringatan, tinjau [metrik kinerja](training-performance-metrics.md).

# Wawasan pengambilalihan akun
<a name="account-takeover-insights"></a>

Jenis model Account Takeover Insights (ATI) mengidentifikasi aktivitas online penipuan dengan mendeteksi apakah akun dikompromikan melalui pengambilalihan berbahaya, phishing, atau dari kredensi yang dicuri. Account Takeover Insights adalah model pembelajaran mesin yang menggunakan acara login dari bisnis online Anda untuk melatih model tersebut. 

Anda dapat menyematkan model Wawasan Pengambilalihan Akun yang terlatih dalam alur login waktu nyata Anda untuk mendeteksi apakah akun dikompromikan. Model ini menilai berbagai jenis otentikasi dan login. Mereka termasuk login aplikasi web, otentikasi berbasis API, dan single-sign-on (SSO). Untuk menggunakan model Account Takeover Insights, panggil [GetEventPrediction](https://docs.aws.amazon.com/frauddetector/latest/api/API_GetEventPrediction.html)API setelah kredensyal login yang valid ditampilkan. API menghasilkan skor yang mengukur risiko akun dikompromikan. Amazon Fraud Detector menggunakan skor dan aturan yang Anda tetapkan untuk mengembalikan satu atau beberapa hasil untuk peristiwa login. Hasilnya adalah yang Anda konfigurasikan. Berdasarkan hasil yang Anda terima, Anda dapat mengambil tindakan yang tepat untuk setiap login. Artinya, Anda dapat menyetujui atau menantang kredensyal yang disajikan untuk login. Misalnya, Anda dapat menantang kredensialnya dengan meminta PIN akun sebagai verifikasi tambahan.

Anda juga dapat menggunakan model Account Takeover Insights untuk mengevaluasi login akun secara asinkron dan mengambil tindakan pada akun berisiko tinggi. Misalnya, akun berisiko tinggi dapat ditambahkan ke antrian investigasi untuk peninjau manusia untuk menentukan apakah tindakan lebih lanjut perlu diambil, seperti menangguhkan akun.

Model Account Takeover Insights dilatih menggunakan kumpulan data yang berisi peristiwa login historis bisnis Anda. Anda memberikan data ini. Anda dapat secara opsional melabeli akun sebagai sah atau curang. Namun, ini tidak diperlukan untuk melatih model. Model Account Takeover Insights mendeteksi anomali berdasarkan riwayat login akun yang berhasil. Ini juga mempelajari cara mendeteksi anomali dalam perilaku pengguna yang menunjukkan peningkatan risiko peristiwa pengambilalihan akun berbahaya. Misalnya, pengguna yang biasanya masuk dari perangkat dan alamat IP yang sama. Penipu biasanya masuk dari perangkat dan geolokasi yang berbeda. Teknik ini menghasilkan skor risiko dari suatu aktivitas yang anomali, yang biasanya merupakan karakteristik utama dari pengambilalihan akun berbahaya.

Sebelum melatih model Account Takeover Insights, Amazon Fraud Detector menggunakan kombinasi teknik pembelajaran mesin untuk melakukan pengayaan data, agregasi data, dan transformasi data. Kemudian, selama proses pelatihan, Amazon Fraud Detector memperkaya elemen data mentah yang Anda berikan. Contoh elemen data mentah termasuk alamat IP dan agen pengguna. Amazon Fraud Detector menggunakan elemen-elemen ini untuk membuat input tambahan yang menjelaskan data login. Input ini termasuk perangkat, browser, dan input geolokasi. Amazon Fraud Detector juga menggunakan data login yang Anda berikan untuk terus menghitung variabel agregat yang menggambarkan perilaku pengguna sebelumnya. Contoh perilaku pengguna termasuk berapa kali pengguna masuk dari alamat IP tertentu. Menggunakan pengayaan dan agregat tambahan ini, Amazon Fraud Detector dapat menghasilkan kinerja model yang kuat dari sekumpulan kecil input dari peristiwa login Anda.

Model Account Takeover Insights mendeteksi contoh di mana akun yang sah diakses oleh aktor jahat, terlepas dari apakah aktor jahat itu manusia atau robot. Model ini menghasilkan skor tunggal yang menunjukkan risiko relatif kompromi akun. Akun yang mungkin telah disusupi ditandai sebagai akun berisiko tinggi. Anda dapat memproses akun berisiko tinggi dengan salah satu dari dua cara. Anda juga dapat menerapkan verifikasi identitas tambahan. Atau, Anda dapat mengirim akun ke antrian untuk penyelidikan manual. 

## Memilih sumber data
<a name="selection-training-data-source-ATI"></a>

Model Account Takeover Insights dilatih pada kumpulan data yang disimpan secara internal, di Amazon Fraud Detector. Untuk menyimpan data peristiwa login Anda dengan Amazon Fraud Detector, buat file CSV dengan peristiwa login pengguna. Untuk setiap acara, sertakan data login seperti stempel waktu acara, ID pengguna, alamat IP, agen pengguna, dan apakah data login valid. Setelah membuat file CSV, pertama upload file ke Amazon Fraud Detector, dan kemudian gunakan fitur impor untuk menyimpan data. Anda kemudian dapat melatih model Anda menggunakan data yang disimpan. Untuk informasi selengkapnya tentang menyimpan kumpulan data acara Anda dengan Amazon Fraud Detector, lihat [Simpan data acara Anda secara internal dengan Amazon Fraud Detector](storing-event-data-afd.md)

## Mempersiapkan data
<a name="preparing-training-data-ATI"></a>

Amazon Fraud Detector mengharuskan Anda memberikan data login akun pengguna Anda dalam file nilai yang dipisahkan koma (CSV) yang dikodekan dalam format UTF-8. Baris pertama file CSV Anda harus berisi header file. Header file terdiri dari metadata peristiwa dan variabel peristiwa yang menggambarkan setiap elemen data. Data acara mengikuti header. Setiap baris dalam data acara terdiri dari data dari satu peristiwa login.

Untuk model Wawasan Pengambilalihan Akun, Anda harus menyediakan metadata peristiwa dan variabel peristiwa berikut di baris header file CSV Anda. 

**Metadata acara**

Kami menyarankan Anda memberikan metadata berikut di header file CSV Anda. Metadata acara harus dalam huruf besar.
+ EVENT\$1ID - Sebuah identifier unik untuk acara login.
+ ENTITY\$1TYPE - Entitas yang melakukan peristiwa login, seperti pedagang atau pelanggan.
+ ENTITY\$1ID - Sebuah identifier untuk entitas melakukan peristiwa login. 
+ EVENT\$1TIMESTAMP - Stempel waktu saat peristiwa login terjadi. Stempel waktu harus dalam standar ISO 8601 di UTC.
+ EVENT\$1LABEL (direkomendasikan) - Label yang mengklasifikasikan acara sebagai penipuan atau sah. Anda dapat menggunakan label apa pun, seperti “penipuan”, “legit”, “1", atau “0".

**catatan**  
Metadata peristiwa harus dalam huruf besar. Ini peka huruf besar/kecil.
Label tidak diperlukan untuk acara login. Namun, kami menyarankan Anda menyertakan metadata EVENT\$1LABEL dan memberikan label untuk peristiwa login Anda. Tidak apa-apa jika labelnya tidak lengkap atau sporadis. Jika Anda memberikan label, Amazon Fraud Detector akan menggunakannya untuk menghitung Account Takeover Discovery Rate secara otomatis dan menampilkannya dalam bagan dan tabel kinerja model.

**Variabel peristiwa**

Untuk model Account Takeover Insights, ada variabel wajib (wajib) yang harus Anda sediakan dan variabel opsional. Saat Anda membuat variabel, pastikan untuk menetapkan variabel ke tipe variabel yang tepat. Sebagai bagian dari proses pelatihan model, Amazon Fraud Detector menggunakan tipe variabel yang terkait dengan variabel untuk melakukan pengayaan variabel dan rekayasa fitur.

**catatan**  
Nama variabel peristiwa harus dalam huruf kecil. Mereka peka huruf besar/kecil.

**Variabel wajib**

Variabel berikut diperlukan untuk melatih model Accounts Takeover Insights.


| Kategori | Jenis variabel | Deskripsi | 
| --- | --- | --- | 
| Alamat IP | IP\$1ALAMAT | Alamat IP yang digunakan dalam acara login | 
| Browser dan perangkat | AGEN PENGGUNA | Browser, perangkat, dan OS yang digunakan dalam acara login | 
| Kredensi yang valid | VALIDCRED | Menunjukkan apakah kredensyal yang digunakan untuk login valid | 

**Variabel opsional**

Variabel berikut bersifat opsional untuk melatih model Accounts Takeover Insights.


| Kategori | Tipe | Deskripsi | 
| --- | --- | --- | 
| Browser dan perangkat | SIDIK JARI | Pengidentifikasi unik untuk browser atau sidik jari perangkat | 
| Id Sesi | SESSION\$1ID | Pengidentifikasi untuk sesi otentikasi | 
| Label | EVENT\$1LABEL | Label yang mengklasifikasikan acara sebagai penipuan atau sah. Anda dapat menggunakan label apa pun, seperti “penipuan”, “legit”, “1", atau “0". | 
| Stempel waktu | LABEL\$1TIMESTAMP | Stempel waktu saat label terakhir diperbarui. Ini diperlukan jika EVENT\$1LABEL disediakan. | 

**catatan**  
Anda dapat memberikan nama variabel untuk kedua variabel wajib variabel opsional. Penting bahwa setiap variabel wajib dan opsional ditetapkan ke jenis variabel yang tepat.
Anda dapat memberikan variabel tambahan. Namun, Amazon Fraud Detector tidak akan menyertakan variabel-variabel ini untuk melatih model Accounts Takeover Insights. 

## Memilih data
<a name="selecting-training-data-ATI"></a>

Mengumpulkan data merupakan langkah penting untuk membuat model Account Takeover Insights Anda. Saat Anda mulai mengumpulkan data login Anda, pertimbangkan persyaratan dan rekomendasi berikut:

**Diperlukan**
+ Berikan setidaknya 1.500 contoh akun pengguna, masing-masing dengan setidaknya dua peristiwa login terkait.
+ Dataset Anda harus mencakup setidaknya 30 hari peristiwa login. Anda nantinya dapat menentukan rentang waktu tertentu dari peristiwa yang akan digunakan untuk melatih model.

**Direkomendasikan**
+ Dataset Anda mencakup contoh peristiwa login yang gagal. Anda dapat secara opsional memberi label login yang gagal ini sebagai “penipuan” atau “sah.”
+ Siapkan data historis dengan acara login yang mencakup lebih dari enam bulan dan sertakan 100 ribu entitas.

Jika Anda tidak memiliki kumpulan data yang sudah memenuhi persyaratan minimum, pertimbangkan streaming data peristiwa ke Amazon Fraud Detector dengan memanggil operasi [SendEvent](https://docs.aws.amazon.com/frauddetector/latest/api/API_SendEvent.html)API.

## Memvalidasi data
<a name="training-data-validations-ATI"></a>

Sebelum membuat model Account Takeover Insights, Amazon Fraud Detector memeriksa apakah metadata dan variabel yang Anda sertakan dalam kumpulan data untuk melatih model memenuhi persyaratan ukuran dan format. Untuk informasi selengkapnya, lihat [Validasi kumpulan data](create-event-dataset.md#dataset-validation). Ini juga memeriksa persyaratan lain. Jika dataset tidak lulus validasi, model tidak dibuat. Agar model berhasil dibuat, pastikan untuk memperbaiki data yang tidak lulus validasi sebelum Anda berlatih lagi.

**Kesalahan kumpulan data umum**

Saat memvalidasi kumpulan data untuk melatih model Account Takeover Insights, Amazon Fraud Detector memindai masalah ini dan masalah lainnya dan menimbulkan error jika mengalami satu atau beberapa masalah.
+ File CSV tidak dalam format UTF-8.
+ Header file CSV tidak berisi setidaknya satu dari metadata berikut:`EVENT_ID`,, `ENTITY_ID` atau. `EVENT_TIMESTAMP`
+ Header file CSV tidak berisi setidaknya satu variabel dari jenis variabel berikut:`IP_ADDRESS`,`USERAGENT`, atau`VALIDCRED`. 
+ Ada lebih dari satu variabel yang terkait dengan tipe variabel yang sama. 
+ Lebih dari 0,1% nilai dalam `EVENT_TIMESTAMP` berisi nol atau nilai selain format tanggal dan stempel waktu yang didukung.
+ Jumlah hari antara acara pertama dan terakhir kurang dari 30 hari.
+ Lebih dari 10% variabel tipe `IP_ADDRESS` variabel tidak valid atau null.
+ Lebih dari 50% variabel dari tipe `USERAGENT` variabel mengandung null.
+ Semua variabel dari tipe `VALIDCRED` variabel diatur ke`false`.