Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
FileUniqueness
Keunikan File memungkinkan Anda untuk memastikan bahwa tidak ada file duplikat dalam data yang Anda terima dari produsen data Anda.
Ini mengumpulkan statistik data berikut:
-
Jumlah file yang dipindai oleh aturan
-
Rasio Keunikan file
Dataset.*.FileUniquenessRatio: 1.00, Dataset.*.FileCount: 8.00
Temukan file duplikat dalam folder:
FileUniqueness "s3://bucket/" > 0.5 FileUniqueness "s3://bucket/folder/" = 1
Menyimpulkan nama folder langsung dari bingkai data untuk mendeteksi duplikat:
Anda tidak selalu harus menyediakan jalur file. Misalnya, ketika Anda menulis aturan di Katalog Data AWS Glue, mungkin sulit untuk menemukan folder mana yang digunakan tabel katalog. AWS Glue Data Quality dapat menemukan folder atau file tertentu yang digunakan untuk mengisi bingkai data Anda.
catatan
Saat menggunakan inferensi, aturan berbasis file hanya dapat mendeteksi file yang berhasil dibaca ke dalam atau. DynamicFrame DataFrame
FileUniqueness > 0.5
Tag Aturan Berbasis File Opsional:
Tag memungkinkan Anda untuk mengontrol perilaku aturan.
RecentFiles
Tag ini membatasi jumlah file yang diproses dengan menyimpan file terbaru terlebih dahulu.
FileUniqueness "s3://amzn-s3-demo-bucket/" > 0.5 with recentFiles = 1
UriRegex
catatan
uriRegexTag tersedia di AWS Glue 5.0 dan yang lebih baru.
Tag ini memfilter file dengan menerapkan pola regex ke jalur file. Hanya file yang jalurnya cocok dengan pola yang diproses. Anda juga dapat menggunakan lookahead negatif untuk mengecualikan file yang cocok dengan pola.
# Match only files with a .csv extension FileUniqueness "s3://bucket/" > 0.5 with uriRegex = "\.csv$" # Exclude files ending in .tmp using a negative lookahead FileUniqueness "s3://bucket/" > 0.5 with uriRegex = "(?!.*\.tmp$).*"
FilterOrder
catatan
filterOrderTag tersedia di AWS Glue 5.0 dan yang lebih baru.
Bila Anda menggunakan beberapa tag filter seperti recentFiles dan uriRegex bersama-sama, filterOrder tag mengontrol urutan penerapannya. Urutan default adalah yang recentFiles pertama, laluuriRegex.
FileUniqueness "s3://bucket/" > 0.5 with recentFiles = 5 with uriRegex = "\.csv$" with filterOrder = ["uriRegex","recentFiles"]
matchFileName
Tag ini memastikan bahwa file tidak memiliki nama duplikat. Perilaku default adalah false.
FileUniqueness "s3://amzn-s3-demo-bucket/" > 0.5 with matchFileName = "true"
Ada beberapa pertimbangan:
-
Di AWS Glue ETL, Anda harus memiliki EvaluateDataQualityTransform segera setelah transformasi Amazon S3 atau AWS Glue Data Catalog.
-
Aturan ini tidak akan berfungsi di AWS Glue Interactive Sessions.