

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Memulai dengan AWS Glue Data Quality untuk Data Catalog
<a name="data-quality-getting-started"></a>

 Bagian  memulai ini memberikan petunjuk untuk membantu Anda memulai AWS Glue Data Quality di AWS Glue konsol. Anda akan belajar cara menyelesaikan tugas-tugas penting seperti menghasilkan rekomendasi aturan kualitas data dan mengevaluasi kumpulan aturan terhadap data Anda. 

**Topics**
+ [

## Prasyarat
](#data-quality-prereqs)
+ [

## Step-by-step contoh
](#data-quality-step-by-step-example)
+ [

## Menghasilkan rekomendasi aturan
](#data-quality-get-recommendations)
+ [

## Rekomendasi aturan pemantauan
](#data-quality-monitor-recommendations)
+ [

## Mengedit set aturan yang direkomendasikan
](#data-quality-edit-ruleset)
+ [

## Membuat ruleset baru
](#data-quality-create-ruleset)
+ [

## Menjalankan kumpulan aturan untuk mengevaluasi kualitas data
](#data-quality-run-data-quality-task)
+ [

## Melihat skor kualitas data dan hasil
](#data-quality-view-results)
+ [

## Menggunakan kueri pra-pemrosesan
](#data-quality-preprocessing-queries)
+ [

## Jenis sumber yang didukung
](#data-quality-get-started-supported-source-types)
+ [

## Topik terkait
](#data-quality-get-started-related)

## Prasyarat
<a name="data-quality-prereqs"></a>

 Sebelum Anda menggunakanAWS Glue Data Quality, Anda harus terbiasa menggunakan Data Catalog dan crawler diAWS Glue. DenganAWS Glue Data Quality, Anda dapat mengevaluasi kualitas untuk tabel dalam Data Catalog database. Anda juga memerlukan hal berikut: 
+  Tabel di Data Catalog untuk mengevaluasi aturan kualitas data Anda terhadap. 
+  Peran IAM untuk AWS Glue yang Anda berikan saat Anda membuat rekomendasi aturan atau menjalankan tugas kualitas data. Peran ini harus memiliki izin untuk mengakses sumber daya yang diperlukan berbagai AWS Glue Data Quality proses untuk dijalankan atas nama Anda. Sumber daya ini termasukAWS Glue, Amazon S3, dan. CloudWatch Untuk melihat contoh kebijakan yang menyertakan izin minimumAWS Glue Data Quality, lihat[Contoh kebijakan IAM](data-quality-authorization.md#data-quality-authorization-example-policy). 

   Untuk mempelajari lebih lanjut tentang peran IAMAWS Glue, lihat [Membuat kebijakan IAM untuk AWS Glue layanan](https://docs.aws.amazon.com/glue/latest/dg/create-service-policy.html) dan [Membuat peran IAM untuk](https://docs.aws.amazon.com/glue/latest/dg/create-an-iam-role.html) layanan. AWS Glue Anda juga dapat melihat daftar semua AWS Glue izin yang khusus untuk kualitas data di [Otorisasi untuk AWS Glue Data Quality tindakan](https://docs.aws.amazon.com/glue/latest/dg/data-quality-authorization.html). 
+  Database dengan setidaknya satu tabel yang berisi berbagai data. Tabel yang digunakan dalam tutorial ini diberi nama`yyz-tickets`, dengan tabel`tickets`. Data ini adalah kumpulan informasi yang tersedia untuk umum dari Kota Toronto untuk kutipan parkir. Jika Anda membuat tabel Anda sendiri, pastikan bahwa itu diisi dengan berbagai data yang valid untuk mendapatkan set terbaik dari aturan yang direkomendasikan. 

## Step-by-step contoh
<a name="data-quality-step-by-step-example"></a>

 Untuk step-by-step contoh dengan kumpulan data sampel, lihat [posting blog AWS Glue Data Quality](https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-from-the-aws-glue-data-catalog/). 

## Menghasilkan rekomendasi aturan
<a name="data-quality-get-recommendations"></a>

 Rekomendasi aturan memudahkan untuk memulai dengan kualitas data tanpa menulis kode. Dengan AWS Glue Data Quality, Anda dapat menganalisis data Anda, mengidentifikasi aturan, dan membuat kumpulan aturan yang dapat Anda evaluasi dalam tugas kualitas data. Rekomendasi berjalan secara otomatis dihapus setelah 90 hari.

**Untuk menghasilkan rekomendasi aturan kualitas data**

1.  Buka konsol AWS Glue di [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/). 

1.  Pilih **Tabel** di panel navigasi. Kemudian pilih tabel yang ingin Anda hasilkan rekomendasi aturan kualitas data. 

1.  Pada halaman detail tabel, pilih tab **Kualitas data** untuk mengakses aturan dan pengaturan Kualitas Data AWS Glue untuk tabel Anda. 

1.  Pada tab **Kualitas data**, pilih **Tambahkan aturan dan pantau kualitas data**. 

1.  Pada halaman **pembuat Ruleset**, peringatan di bagian atas halaman akan meminta Anda untuk memulai tugas rekomendasi jika tidak ada rekomendasi aturan yang berjalan. 

1.  Pilih **Rekomendasikan aturan** untuk membuka modal dan memasukkan parameter Anda untuk tugas rekomendasi. 

1.  Pilih peran IAM dengan akses ke AWS Glue. Peran ini harus memiliki izin untuk mengakses sumber daya yang diperlukan oleh berbagai proses AWS Glue Data Quality untuk dijalankan atas nama Anda. 

1.  Setelah bidang selesai sesuai dengan preferensi Anda, pilih **Rekomendasikan aturan** untuk memulai tugas rekomendasi dijalankan. Jika rekomendasi berjalan atau selesai, Anda dapat mengelola proses Anda di peringatan ini. Anda mungkin perlu menyegarkan peringatan untuk melihat perubahan status. Tugas rekomendasi yang sudah selesai dan sedang berjalan muncul di halaman **Riwayat Jalankan** yang mencantumkan semua rekomendasi yang berjalan selama 90 hari terakhir. 

### Apa arti aturan yang direkomendasikan
<a name="data-quality-recommend-rules"></a>

 AWS Glue Data Quality menghasilkan aturan berdasarkan data dari setiap kolom tabel input. Ini menggunakan aturan untuk mengidentifikasi batas-batas potensial di mana data dapat disaring untuk mempertahankan persyaratan kualitas. Daftar aturan yang dihasilkan berikut mencakup contoh yang berguna untuk memahami apa arti aturan dan apa yang mungkin mereka lakukan ketika diterapkan pada data Anda. 

 Untuk daftar lengkap tipe aturan Data Quality Definition Language (DQDL) yang dihasilkan, lihat referensi tipe aturan [DQDL](https://docs.aws.amazon.com/glue/latest/dg/dqdl.html#dqdl-rule-types). 
+  `IsComplete "SET_FINE_AMOUNT"``IsComplete`—Aturan memverifikasi bahwa kolom diisi untuk setiap baris yang diberikan. Gunakan aturan ini untuk menandai kolom sebagai non-opsional dalam data. 
+  `Uniqueness "TICKET_NUMBER" > 0.95`— `Uniqueness` Aturan memverifikasi bahwa data dalam kolom memenuhi beberapa ambang keunikan. Dalam contoh ini, data yang mengisi setiap baris tertentu ditentukan paling banyak 95% identik dalam konten untuk semua baris lainnya, yang menunjukkan aturan ini. `"TICKET_NUMBER"` 
+  `ColumnValues "PROVINCE" in ["ON", "QC", "AB", "NY",...]`— `ColumnValues` Aturan mendefinisikan nilai yang valid untuk kolom, berdasarkan isi kolom yang ada. Dalam contoh ini, data untuk setiap baris adalah plat kode nomor 2 huruf untuk negara bagian atau provinsi. 
+  `ColumnLength "INFRACTION_DESCRIPTION" between 15 and 31`— `ColumnLength` Aturan memberlakukan pembatasan panjang pada data kolom. Aturan ini dihasilkan dari data sampel berdasarkan panjang minimum dan maksimum yang direkam untuk kolom string. 

## Rekomendasi aturan pemantauan
<a name="data-quality-monitor-recommendations"></a>

 Saat rekomendasi aturan kualitas data berjalan, halaman **Tambahkan aturan dan monitor kualitas data** menampilkan informasi dan tindakan tambahan yang dapat Anda lakukan di bilah atas. 

 Saat rekomendasi aturan sedang berlangsung, Anda dapat memilih **Stop run** sebelum tugas rekomendasi selesai. Saat tugas sedang berlangsung, Anda akan melihat status, **dalam proses**, dan tanggal dan waktu saat proses dimulai. 

 Ketika rekomendasi aturan selesai, bilah rekomendasi aturan menampilkan jumlah aturan yang direkomendasikan, status rekomendasi terakhir yang dijalankan, dan tanggal serta stempel waktu saat selesai. 

 Anda dapat menambahkan aturan yang disarankan dengan memilih **Sisipkan Rekomendasi Aturan**. Untuk melihat aturan yang direkomendasikan sebelumnya, pilih tanggal tertentu. Untuk menjalankan rekomendasi baru, pilih **Tindakan lainnya**, lalu pilih **Aturan yang disarankan**. 

 Tetapkan pengaturan default dengan memilih **Kelola pengaturan pengguna**. Anda dapat mengatur jalur default Amazon S3 untuk menyimpan kumpulan aturan atau mengatur peran default untuk menjalankan Katalog Data. 

## Mengedit set aturan yang direkomendasikan
<a name="data-quality-edit-ruleset"></a>

Karena Kualitas Data AWS Glue menghasilkan aturan berdasarkan data yang ada yang tersedia, Anda mungkin melihat beberapa aturan yang tidak terduga atau tidak diinginkan dalam saran otomatis. Untuk mendapatkan hasil maksimal dari aturan yang direkomendasikan, Anda perlu mengevaluasi dan memodifikasinya. Untuk langkah tutorial ini, Anda mengambil aturan yang dihasilkan pada langkah sebelumnya dan menyesuaikannya untuk menegakkan kualitas yang lebih ketat pada beberapa data. Anda juga melonggarkan aturan lain untuk memastikan bahwa data unik yang benar dapat ditambahkan nanti. 

**Edit kumpulan aturan yang disarankan**

1.  Di konsol AWS Glue, pilih **Katalog Data**, lalu pilih **tabel Database** di panel navigasi. Pilih tabel `tickets`. 

1. Pada halaman detail tabel, pilih tab **Kualitas data** untuk mengakses aturan dan pengaturan Kualitas Data AWS Glue untuk tabel.

1.  Di bagian **Rulesets**, pilih ruleset yang dihasilkan di. [Menghasilkan rekomendasi aturan](#data-quality-get-recommendations) 

1.  Pilih **Tindakan**, lalu pilih **Edit** di jendela konsol. Editor ruleset dimuat di konsol. Ini termasuk panel pengeditan untuk aturan Anda dan referensi cepat untuk DQDL. 

1. `2`Hapus baris skrip. Ini melonggarkan persyaratan bahwa ukuran database dibatasi dalam sejumlah baris tertentu. Setelah pengeditan, file Anda harus berisi yang berikut pada baris 1-3:

   ```
   Rules = [
       IsComplete "TAG_NUMBER_MASKED",
       ColumnLength "TAG_NUMBER_MASKED" between 6 and 9,
   ```

1. `25`Hapus baris skrip. Ini melonggarkan persyaratan bahwa 96% dari provinsi yang tercatat adalah. `ON` Setelah pengeditan, file Anda harus berisi yang berikut dari baris `24` ke akhir kumpulan aturan:

   ```
   ColumnValues "PROVINCE" in ["ON", "QC", "AB", "NY", "AZ", "NS", "BC", "MI", "PQ", "MB", "PA", "FL", "SK", "NJ", "OH", "NB", "IL", "MA", "CA",
       "VA", "TX", "NF", "MD", "PE", "CT", "NC", "GA", "IN", "OR", "MN", "TN", "WI", "KY", "MO", "WA", "NH", "SC", "CO", "OK", "VT", "RI", "ME", "AL",
       "YT", "IA", "DE", "AR", "LA", "XX", "WV", "MT", "KS", "NT", "DC", "NV", "NE", "UT", "MS", "NM", "ID", "SD", "ND", "AK", "NU", "GO", "WY", "HI"],
   ColumnLength "PROVINCE" = 2
   ]
   ```

1. Ubah baris `14` menjadi berikut:

   ```
   IsComplete "TIME_OF_INFRACTION",
   ```

    Ini *memperkuat* persyaratan pada kolom dengan membatasi database hanya untuk tiket yang berisi waktu pelanggaran yang tercatat. Anda harus selalu menganggap tiket tanpa waktu pelanggaran yang tercatat sebagai data yang tidak valid dalam kumpulan data ini. Ini berbeda dari situasi di mana partisi atau transformasi mungkin lebih tepat untuk penggunaan data lebih lanjut atau inspeksi untuk menentukan aturan kualitas.

1. Pilih **Perbarui Aturan di** bagian bawah halaman konsol.

## Membuat ruleset baru
<a name="data-quality-create-ruleset"></a>

 Kumpulan aturan adalah sekelompok aturan kualitas data yang Anda evaluasi terhadap data Anda. Di AWS Glue konsol, Anda dapat membuat aturan khusus menggunakan Data Quality Definition Language (DQDL). 

**Untuk membuat kumpulan aturan kualitas data**

1.  Di konsol AWS Glue, pilih **Katalog Data**, pilih **Database**, lalu pilih **Tabel** di panel navigasi. Pilih tabel`tickets`. 

1. Buka tab **Kualitas data**.

1.  Di bagian **Rulesets**, pilih **Create** ruleset. Editor DQDL diluncurkan di konsol. Ini memiliki area teks untuk pengeditan langsung, dan referensi cepat untuk aturan DQDL dan skema tabel. 

1.  Mulai menambahkan aturan ke area teks editor DQDL. Anda dapat menulis aturan langsung dari tutorial ini, atau menggunakan fitur **pembuat aturan DQDL dari editor aturan** kualitas data. 
**catatan**  
 Pilih jenis aturan dari daftar, dan pilih tanda plus untuk menyisipkan sintaks contoh ke panel editor. 
Tukarkan nama kolom placeholder dengan nama kolom Anda sendiri. Nama kolom dari tabel tersedia di tab **Skema**. 
 Perbarui parameter ekspresi sesuai keinginan Anda. Untuk daftar lengkap ekspresi yang didukung DQDL, lihat. [Ekspresi](dqdl.md#dqdl-syntax-rule-expressions) 

    Sebagai contoh, aturan berikut adalah kendala untuk validasi data `ticket_number` kolom dalam tabel. `tickets` Untuk menambahkan aturan berikut, gunakan pembuat aturan DQDL atau langsung edit kumpulan aturan Anda: 

   ```
   IsComplete "ticket_number",
   IsUnique "ticket_number",
   ColumnValues "ticket_number" > 9000000000
   ```

1. Berikan nama untuk kumpulan aturan baru Anda di bidang nama **Ruleset**.

1. Pilih **Simpan ruleset**.

### Mengevaluasi kualitas data di beberapa kumpulan data
<a name="data-quality-create-ruleset-referential-integrity"></a>

 Anda dapat mengatur aturan kualitas data di beberapa kumpulan data menggunakan ReferentialIntegrity dan DatasetMatch kumpulan aturan. ReferentialIntegritymemeriksa untuk melihat apakah data dalam kumpulan data utama ada di kumpulan data lain. 

Untuk menambahkan kumpulan data referensi, pilih tab **Skema** dan kemudian pilih **Perbarui tabel referensi**. Anda akan diminta untuk memilih database dan tabel. Anda dapat menambahkan tabel dan kemudian mengatur aturan kualitas data. Jenis aturan seperti AggregateMatch, RowCountMatch, ReferentialIntegrity, SchemaMatch, dan DatasetMatch mendukung kemampuan untuk melakukan pemeriksaan kualitas data di beberapa kumpulan data. 

## Menjalankan kumpulan aturan untuk mengevaluasi kualitas data
<a name="data-quality-run-data-quality-task"></a>

 Saat Anda menjalankan tugas kualitas data, AWS Glue Data Quality mengevaluasi kumpulan aturan terhadap data Anda dan menghitung skor kualitas data. Skor ini mewakili persentase aturan kualitas data yang diteruskan untuk input. 

**Untuk menjalankan tugas kualitas data**

1. Di konsol AWS Glue, pilih **Katalog Data**, pilih **Database**, lalu pilih **Tabel** di panel navigasi. Pilih tabel`tickets`.

1. Pilih tab **Kualitas data**.

1. Dalam daftar **Rulesets**, pilih kumpulan aturan yang ingin Anda evaluasi terhadap tabel. Untuk langkah ini, sebaiknya gunakan kumpulan aturan yang sudah Anda tulis atau modifikasi daripada membuat aturan. Pilih **Jalankan**. 

1.  Dalam modal, pilih peran IAM Anda. Peran ini harus memiliki izin untuk mengakses sumber daya yang diperlukan oleh berbagai proses AWS Glue Data Quality untuk dijalankan atas nama Anda. Anda dapat menyimpan peran IAM sebagai default atau memodifikasinya dengan membuka halaman **Pengaturan Default**. 

1.  Di bawah **Tindakan kualitas data**, pilih apakah Anda ingin **Menerbitkan metrik ke Amazon CloudWatch**. Ketika opsi ini dipilih, AWS Glue Data Quality menerbitkan metrik yang menunjukkan jumlah aturan yang disahkan dan jumlah aturan yang gagal. Untuk mengambil tindakan pada metrik yang disimpan dengan cara ini, Anda dapat menggunakan CloudWatch alarm. Metrik kunci juga dipublikasikan Amazon EventBridge agar Anda dapat mengatur peringatan. Untuk informasi selengkapnya, lihat [Menyiapkan peringatan, penerapan, dan penjadwalan](https://docs.aws.amazon.com/glue/latest/dg/data-quality-alerts.html). 

1.  Di **Run Frequency**, pilih run on demand atau jadwalkan aturan. Saat Anda menjadwalkan kumpulan aturan, Anda akan diminta untuk nama tugas. Jadwal akan dibuat di Amazon EventBridge. Anda dapat mengedit jadwal Anda di Amazon EventBridge. 

1.  Untuk menyimpan hasil kualitas data di Amazon S3, pilih lokasi **hasil kualitas data**. Peran IAM yang sebelumnya Anda pilih untuk tugas ini harus memiliki akses tulis ke lokasi ini. 

1.  Di bawah **Konfigurasi Tambahan**, masukkan **jumlah pekerja yang diminta** yang ingin AWS Glue alokasikan untuk tugas kualitas data Anda. 

1.  Anda dapat secara opsional mengatur filter di sumber data. Ini membantu Anda mengurangi data yang Anda baca. Anda juga dapat menggunakan filter untuk menjalankan validasi inkremental dengan memilih informasi partisi dan meneruskannya sebagai parameter melalui panggilan API. Untuk meningkatkan kinerja, Anda dapat memberikan predikat partisi. 

1.  Pilih **Jalankan**. Anda akan melihat tugas baru Anda dalam daftar **tugas kualitas data berjalan**. Ketika kolom **status Jalankan** untuk tugas ditampilkan sebagai **Selesai**, Anda dapat melihat hasil skor kualitas. Anda mungkin perlu menyegarkan jendela konsol agar status diperbarui dengan benar. 

1.  Untuk melihat kolom untuk detail hasil kualitas data, pilih ikon “\$1” untuk memperluas kumpulan aturan. Hasilnya menunjukkan kepada Anda aturan yang lulus dan gagal dalam evaluasi, dan apa yang memicu kegagalan aturan. 

## Melihat skor kualitas data dan hasil
<a name="data-quality-view-results"></a>

**Untuk melihat proses terbaru pada semua set aturan yang dibuat**

1.  Di konsol AWS Glue, pilih **Tabel** di panel navigasi. Kemudian pilih tabel yang ingin Anda jalankan tugas kualitas data. 

1.  Pilih tab **Kualitas data**. 

1.  **Snapshot kualitas data** menunjukkan tren umum berjalan dari waktu ke waktu. 10 run terakhir di semua set aturan ditampilkan secara default. Untuk memfilter berdasarkan aturan, pilih yang diinginkan dari daftar dropdown. Jika ada kurang dari 10 run, semua proses selesai yang tersedia akan ditampilkan. 

1.  Dalam tabel **kualitas Data**, setiap kumpulan aturan dengan proses terbarunya (jika ada) ditampilkan, bersama dengan skor. Memperluas ruleset menampilkan aturan yang ada di ruleset itu, bersama dengan hasil aturan untuk menjalankan itu. 



**Untuk melihat proses terbaru pada kumpulan aturan tertentu**

1.  Di konsol AWS Glue, pilih **Tabel** di panel navigasi. Kemudian pilih tabel yang ingin Anda jalankan tugas kualitas data. 

1.  Pilih tab **Kualitas data**. 

1.  Dalam tabel **kualitas data**, pilih pada set aturan tertentu. 

1.  Pada halaman **Rincian Ruleset**, pilih tab **Run history**. 

    Semua evaluasi berjalan untuk kumpulan aturan khusus ini tercantum dalam tabel di dalam tab ini. Anda dapat melihat sejarah skor dan status lari. 

1.  Untuk melihat informasi selengkapnya tentang proses tertentu, pilih **Run ID** untuk membuka halaman **Evaluasi run details**. Di halaman ini, Anda dapat melihat secara spesifik tentang proses dan detail lebih lanjut tentang status hasil aturan individu. 

## Menggunakan kueri pra-pemrosesan
<a name="data-quality-preprocessing-queries"></a>

 AWS Glue Data Quality mendukung kueri pra-pemrosesan yang memungkinkan Anda mengubah data sebelum menjalankan pemeriksaan kualitas data. Fitur ini memungkinkan Anda untuk: 
+ Buat kolom turunan untuk validasi kualitas data.
+ Filter data berdasarkan kondisi tertentu.
+ Lakukan perhitungan atau transformasi untuk pemeriksaan kualitas.
+ Validasi hubungan antar kolom.

**catatan**  
 Fitur ini hanya didukung APIs dan tidak didukung melalui konsol. 

### Menggunakan kueri preprocessing dengan CLI dan SDK
<a name="data-quality-preprocessing-queries-cli-sdk"></a>

#### Rekomendasi berjalan
<a name="data-quality-preprocessing-queries-recommendation-runs"></a>

 Contoh berikut menunjukkan cara menggunakan kueri preprocessing dengan rekomendasi berjalan. 

 **AWS CLI:** 

```
aws glue start-data-quality-rule-recommendation-run \
  --data-source '{"DataQualityGlueTable": { \
    "DatabaseName": "mydatabase", \
    "TableName": "mytable", \
    "PreProcessingQuery": "SELECT sepal_length, sepal_width, petal_length, petal_width, class, (sepal_length + sepal_width) as sepal_total FROM `mydatabase.mytable`" \
  }}' \
  --role "arn:aws:iam::123456789012:role/GlueDataQualityRole" \
  --created-ruleset-name "my-ruleset-with-preprocessing"
```

 **SDK Java:** 

```
StartDataQualityRuleRecommendationRunRequest request = new StartDataQualityRuleRecommendationRunRequest()
    .withDataSource(new DataSource()
        .withDataQualityGlueTable(new DataQualityGlueTable()
            .withDatabaseName("mydatabase")
            .withTableName("mytable")
            .withPreProcessingQuery("SELECT sepal_length, sepal_width, " + 
                "(sepal_length + sepal_width) as sepal_total " +
                "FROM `mydatabase.mytable`")))
    .withRole("arn:aws:iam::123456789012:role/GlueDataQualityRole")
    .withCreatedRulesetName("my-ruleset-with-preprocessing");

glueClient.startDataQualityRuleRecommendationRun(request);
```

#### Evaluasi Ruleset berjalan
<a name="data-quality-preprocessing-queries-evaluation-runs"></a>

 Contoh berikut menunjukkan cara menggunakan kueri preprocessing dengan evaluasi ruleset berjalan. 

 **AWS CLI:** 

```
aws glue start-data-quality-ruleset-evaluation-run \
  --data-source '{"DataQualityGlueTable": { \
    "DatabaseName": "mydatabase", \
    "TableName": "mytable", \
    "PreProcessingQuery": "SELECT order_id, amount, (tax + shipping) as total_fees FROM `mydatabase.mytable`" \
  }}' \
  --role "arn:aws:iam::123456789012:role/GlueDataQualityRole" \
  --ruleset-names '["my-ruleset"]'
```

 **SDK Java:** 

```
StartDataQualityRulesetEvaluationRunRequest request = new StartDataQualityRulesetEvaluationRunRequest()
    .withDataSource(new DataSource()
        .withDataQualityGlueTable(new DataQualityGlueTable()
            .withDatabaseName("mydatabase")
            .withTableName("mytable")
            .withPreProcessingQuery("SELECT order_id, amount, " +
                "(tax + shipping) as total_fees " +
                "FROM `mydatabase.mytable`")))
    .withRole("arn:aws:iam::123456789012:role/GlueDataQualityRole")
    .withRulesetNames(Arrays.asList("my-ruleset"));

glueClient.startDataQualityRulesetEvaluationRun(request);
```

### Pertimbangan saat membuat kueri pra-pemrosesan
<a name="data-quality-preprocessing-queries-considerations"></a>

 Saat menulis kueri pra-pemrosesan: 
+ Referensi tabel harus diformat ``databaseName.tableName`` menggunakan backticks.
+ Kueri harus berupa pernyataan SELECT yang valid.
+ Nama kolom dalam output kueri akan digunakan untuk aturan kualitas data.

 Contoh berikut menunjukkan query preprocessing: 

```
SELECT 
    sepal_length, 
    sepal_width, 
    petal_length, 
    petal_width, 
    class,
    (sepal_length + sepal_width) as sepal_total 
FROM `mydatabase.mytable`
```

### Batasan
<a name="data-quality-preprocessing-queries-limitations"></a>
+ Kueri harus mereferensikan tabel menggunakan backticks dan format lengkap``databaseName.tableName``.
+ Panjang kueri maksimum adalah 51.200 karakter.
+ Kueri harus mengembalikan setidaknya satu baris data.
+ Semua kolom yang direferensikan dalam kumpulan aturan Anda harus ada dalam output kueri.

## Jenis sumber yang didukung
<a name="data-quality-get-started-supported-source-types"></a>


**Dukungan tipe tabel berdasarkan AWS Lake Formation konfigurasi**  

| Tipe Tabel | AWS Lake Formation - Semua Akses Tabel | AWS Lake Formation Diaktifkan dengan Kolom | AWS Lake Formation Diaktifkan dengan Filter Data |  AWS Lake Formation Dukungan Lintas Akun - Semua Akses Tabel | AWS Lake Formation Dinonaktifkan | 
| --- | --- | --- | --- | --- | --- | 
| Parquet | Didukung | Tidak Didukung | Tidak Didukung | Didukung | Didukung | 
| ORC | Didukung | Tidak Didukung | Tidak Didukung | Didukung | Didukung | 
| CSV, JSON, TSV | Didukung | Tidak Didukung | Tidak Didukung | Didukung | Didukung | 
| Avro | Didukung | Tidak Didukung | Tidak Didukung | Didukung | Didukung | 
| JSON | Didukung | Tidak Didukung | Tidak Didukung | Didukung | Didukung | 
| Gunung es | Didukung | Tidak Didukung | Tidak Didukung | Didukung | Didukung | 
| HUDI | Tidak Didukung | Tidak Didukung | Tidak Didukung | Tidak Didukung | Didukung | 
| kuala | Tidak Didukung | Tidak Didukung | Tidak Didukung | Tidak Didukung | Didukung | 
| RMS | Didukung\$1 | Didukung\$1 | Didukung\$1 | Tidak Didukung | Tidak Didukung | 
| Tabel Amazon S3 | Didukung\$1 | Tidak Didukung | Tidak Didukung | Tidak berlaku | Didukung | 
| Amazon RDS dan Aurora | Tidak berlaku | Tidak berlaku | Tidak berlaku | Tidak berlaku | Tidak Didukung | 
| JDBC | Tidak berlaku | Tidak berlaku | Tidak berlaku | Tidak berlaku | Didukung | 

 \$1 Tabel Amazon S3 dan SageMaker dukungan Lakehouse di AWS Glue Console tidak didukung. Saat ini, tabel Amazon S3 dan SageMaker Lakehouse Data Catalog Rekomendasi Runs dan Data Catalog Data Quality Evaluation berjalan hanya didukung melalui CLI. 

### Keterbatasan lain yang diketahui
<a name="w2aac49c43c47b7"></a>
+  Tabel Symlink Delta Lake: Tidak didukung untuk menjalankan rekomendasi Kualitas Data AWS Glue atau evaluasi Kualitas Data Katalog Data berjalan. 
+  Penerbitan Aset Tabel Amazon S3 di Studio SageMaker Terpadu: Saat ini, menerbitkan Tabel Amazon S3 sebagai Aset di Studio SageMaker Terpadu tidak tersedia; memvisualisasikan Kualitas Data Tabel Amazon S3 berjalan tidak tersedia dari Unified Studio sebagai hasilnya. SageMaker 

## Topik terkait
<a name="data-quality-get-started-related"></a>
+ [Referensi tipe aturan DQDL](dqdl-rule-types.md)
+ [Referensi Bahasa Definisi Kualitas Data (DQDL)](dqdl.md)