

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Mengevaluasi kualitas data dengan AWS Glue Studio
<a name="data-quality-gs-studio"></a>

 AWS GlueKualitas Data mengevaluasi dan memantau kualitas data Anda berdasarkan aturan yang Anda tetapkan. Ini memudahkan untuk mengidentifikasi data yang membutuhkan tindakan. DiAWS Glue Studio, Anda dapat menambahkan node kualitas data ke pekerjaan visual Anda untuk membuat aturan kualitas data pada tabel di Katalog Data Anda. Anda kemudian dapat memantau dan mengevaluasi perubahan pada kumpulan data Anda saat mereka berkembang dari waktu ke waktu. Untuk gambaran umum tentang cara bekerja dengan Kualitas AWS Glue Data diAWS Glue Studio, lihat video berikut.

[![AWS Videos](http://img.youtube.com/vi/https://www.youtube.com/embed/DUd5s_CFtBM/0.jpg)](http://www.youtube.com/watch?v=https://www.youtube.com/embed/DUd5s_CFtBM)


 Berikut ini adalah langkah-langkah tingkat tinggi untuk bagaimana Anda bekerja dengan Kualitas AWS Glue Data: 

1. **Buat aturan kualitas data** — Buat seperangkat aturan kualitas data menggunakan pembuat DQDL dengan memilih kumpulan aturan bawaan yang Anda konfigurasikan. 

1.  **Konfigurasikan pekerjaan kualitas data** - Tentukan tindakan berdasarkan hasil kualitas data dan opsi keluaran. 

1.  **Simpan dan jalankan pekerjaan berkualitas data** — Buat dan jalankan pekerjaan. Menyimpan pekerjaan akan menyimpan aturan yang Anda buat untuk pekerjaan itu. 

1.  **Pantau dan tinjau hasil kualitas data** — Tinjau hasil kualitas data setelah pekerjaan selesai. Secara opsional, jadwalkan pekerjaan untuk kencan masa depan. 

## Manfaat
<a name="gs-data-quality-benefits"></a>

 Analis data, insinyur data, dan ilmuwan data dapat menggunakan node Evaluate Data Quality AWS Glue Studio untuk menganalisis, mengkonfigurasi, memantau, dan meningkatkan kualitas data dari editor pekerjaan visual. Manfaat menggunakan node kualitas data meliputi: 
+  **Anda dapat mendeteksi masalah kualitas data** - Anda dapat memeriksa masalah dengan membuat aturan yang memeriksa karakteristik kumpulan data Anda. 
+  **Sangat mudah untuk memulai** - Anda dapat mulai dengan aturan dan tindakan pra-dibangun. 
+  **Integrasi ketat** - Anda dapat menggunakan node kualitas AWS Glue data AWS Glue Studio karena Kualitas Data berjalan di atas Katalog AWS Glue Data. 

# Mengevaluasi kualitas data untuk pekerjaan ETL di AWS Glue Studio
<a name="tutorial-data-quality"></a>

Dalam tutorial ini, Anda memulai dengan Kualitas AWS Glue Data diAWS Glue Studio. Anda akan mempelajari cara: 
+  Buat aturan menggunakan pembuat aturan Data Quality Definition Language (DQDL). 
+  Tentukan tindakan kualitas data, data ke output, dan lokasi output dari hasil kualitas data. 
+  Tinjau hasil kualitas data. 

 Untuk berlatih dengan contoh, tinjau posting blog [https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/](https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/). 

## Langkah 1: Tambahkan node transformasi Kualitas Data Evaluasi ke pekerjaan visual
<a name="tutorial-data-quality-step1"></a>

Pada langkah ini, Anda menambahkan node Evaluate Data Quality ke editor pekerjaan visual. 

**Untuk menambahkan node kualitas data**

1.  Di konsol AWS Glue Studio, pilih **Visual dengan sumber dan target** dari bagian **Buat pekerjaan**, lalu pilih **Buat**. 

1.  Pilih node  yang ingin Anda terapkan transformasi kualitas data. Biasanya, ini akan menjadi node transformasi atau sumber data. 

1.  Buka panel sumber daya di sebelah kiri dengan memilih ikon “\$1”. Kemudian cari **Evaluasi Kualitas Data** di bilah pencarian dan pilih **Evaluasi Kualitas Data** dari hasil pencarian. 

1.  Editor pekerjaan visual menampilkan **Evaluate Data Quality** transform node percabangan dari node yang Anda pilih. Di sisi kanan konsol, tab **Transform** dibuka secara otomatis. Jika Anda perlu mengubah node induk, pilih tab **Properti Node**, lalu pilih induk simpul dari menu tarik-turun. 

    Ketika Anda memilih induk node baru, koneksi baru dibuat antara node induk dan node **Evaluate Data Quality**. Hapus semua node induk yang tidak diinginkan. Hanya satu node induk yang dapat dihubungkan ke satu node **Evaluate Data Quality**. 

1.  Transformasi Evaluasi Kualitas Data mendukung beberapa induk sehingga Anda dapat memvalidasi aturan kualitas data di beberapa kumpulan data. Aturan yang mendukung beberapa kumpulan data termasuk ReferentialIntegrity,,, DatasetMatch SchemaMatch RowCountMatch, dan. AggregateMatch 

   Saat Anda menambahkan beberapa input ke transformasi Evaluasi Kualitas Data, Anda harus memilih input “primer” Anda. Masukan utama Anda adalah kumpulan data yang ingin Anda validasi kualitas data. Semua node atau input lainnya diperlakukan sebagai referensi. 

   Anda dapat menggunakan transformasi Evaluasi Kualitas Data untuk mengidentifikasi catatan tertentu yang gagal memeriksa kualitas data. Kami menyarankan Anda memilih kumpulan data utama karena kolom baru yang menandai catatan buruk ditambahkan ke kumpulan data utama. 

1.  Anda dapat menentukan alias untuk sumber data input. Alias menyediakan cara lain untuk mereferensikan sumber input saat Anda menggunakan ReferentialIntegrity aturan. Karena hanya satu sumber data yang dapat ditetapkan sebagai sumber utama, setiap sumber data tambahan yang Anda tambahkan akan memerlukan alias. 

   Dalam contoh berikut, ReferentialIntegrity aturan menentukan sumber data input dengan nama alias dan melakukan one-to-one perbandingan dengan sumber data primer. 

   ```
   Rules = [
   	ReferentialIntegrity “Aliasname.name” = 1
   ]
   ```

## Langkah 2: Buat aturan menggunakan DQDL
<a name="tutorial-data-quality-step2"></a>

Pada langkah ini, Anda membuat aturan menggunakan DQDL. Untuk tutorial ini, Anda membuat aturan tunggal menggunakan tipe aturan **Kelengkapan**. Jenis aturan ini memeriksa persentase nilai lengkap (non-null) dalam kolom terhadap ekspresi yang diberikan. [Untuk informasi selengkapnya tentang penggunaan DQDL, lihat DQDL.](https://docs.aws.amazon.com/glue/latest/dg/dqdl.html) 

1.  Pada tab **Transform**, tambahkan **tipe Rule** dengan memilih tombol **Insert**. Ini menambahkan jenis aturan ke editor aturan, di mana Anda dapat memasukkan parameter untuk aturan. 
**catatan**  
 Saat Anda mengedit aturan, pastikan aturan berada dalam tanda kurung dan aturan dipisahkan dengan koma. Misalnya, ekspresi aturan lengkap akan terlihat seperti berikut:   

   ```
   Rules= [
       Completeness "year">0.8, Completeness "month">0.8
   ]
   ```
 Contoh ini menentukan parameter untuk kelengkapan untuk kolom bernama 'tahun' dan 'bulan'. Agar aturan dapat lulus, kolom ini harus lebih besar dari 80% 'lengkap', atau harus memiliki data di lebih dari 80% contoh untuk setiap kolom masing-masing. 

    Dalam contoh ini, cari dan masukkan tipe aturan **Kelengkapan**. Ini menambahkan jenis aturan ke editor aturan. Jenis aturan ini memiliki sintaks berikut:`Completeness <COL_NAME> <EXPRESSION>`. 

   Sebagian besar tipe aturan mengharuskan Anda memberikan ekspresi sebagai parameter untuk membuat respons Boolean. [Untuk informasi selengkapnya tentang ekspresi DQDL yang didukung,  lihat ekspresi DQDL.](https://docs.aws.amazon.com/glue/latest/dg/dqdl.html#dqdl-syntax) Selanjutnya, Anda akan menambahkan nama kolom. 

1.  **Di pembuat aturan DQDL, pilih tab Skema.** Gunakan bilah pencarian untuk menemukan nama kolom dalam skema input. Skema input menampilkan nama kolom dan tipe data. 

1.  Di editor aturan, klik di sebelah kanan jenis aturan untuk menyisipkan kursor tempat kolom akan dimasukkan. Bergantian, Anda dapat memasukkan nama kolom dalam aturan. 

    Misalnya, dari daftar kolom dalam daftar skema input, pilih tombol **Sisipkan** di sebelah kolom (dalam contoh ini, **tahun**). Ini menambahkan kolom ke aturan. 

1.  Kemudian, di editor aturan, tambahkan ekspresi untuk mengevaluasi aturan. Karena tipe aturan **Kelengkapan** memeriksa persentase nilai lengkap (non-null) dalam kolom terhadap ekspresi yang diberikan, masukkan ekspresi seperti. `> 0.8` Aturan ini memeriksa kolom jika lebih besar dari 80% nilai lengkap (non-null). 

## Langkah 3: Konfigurasikan output kualitas data
<a name="tutorial-data-quality-step3"></a>

 Setelah membuat aturan kualitas data, Anda dapat memilih opsi tambahan untuk menentukan output node kualitas data. 

1.  Dalam **output transformasi kualitas data**, pilih dari opsi berikut: 
   +  **Data asli** - Pilih untuk mengeluarkan data input asli. Saat Anda memilih opsi ini, simpul anak baru “rowLevelOutcomes” ditambahkan ke pekerjaan. Skema cocok dengan skema kumpulan data utama yang diteruskan sebagai input ke transformasi. Opsi ini berguna jika Anda hanya ingin meneruskan data dan gagal dalam pekerjaan ketika masalah kualitas terjadi. 

     Kasus penggunaan lainnya adalah ketika Anda ingin mendeteksi catatan buruk yang gagal memeriksa kualitas data. Untuk mendeteksi catatan buruk, pilih opsi **Tambahkan kolom baru untuk menunjukkan kesalahan kualitas data**. Tindakan ini menambahkan empat kolom baru ke skema transformasi “rowLevelOutcomes”. 
     +  **DataQualityRulesPass**(string array) - Menyediakan array aturan yang lulus pemeriksaan kualitas data. 
     +  **DataQualityRulesFail**(string array) - Menyediakan array aturan yang gagal pemeriksaan kualitas data. 
     +  **DataQualityRulesSkip**(string array) - Menyediakan array aturan yang dilewati. Aturan berikut tidak dapat mengidentifikasi catatan kesalahan karena diterapkan pada tingkat kumpulan data. 
       +  AggregateMatch 
       +  ColumnCount 
       +  ColumnExists 
       +  ColumnNamesMatchPattern 
       +  CustomSql 
       +  RowCount 
       +  RowCountMatch 
       +  StandardDeviation 
       +  Berarti 
       +  ColumnCorrelation 
     +  **DataQualityEvaluationResult**— Menyediakan status “Lulus” atau “Gagal” di tingkat baris. Perhatikan bahwa hasil keseluruhan Anda bisa GAGAL, tetapi catatan tertentu mungkin lolos. Misalnya, RowCount aturan mungkin gagal, tetapi semua aturan lain mungkin berhasil. Dalam kasus seperti itu, status bidang ini adalah 'Lulus'. 

1.  **Hasil kualitas data** — Pilih untuk menampilkan aturan yang dikonfigurasi dan status lulus atau gagalnya. Opsi ini berguna jika Anda ingin menulis hasil Anda ke Amazon S3 atau database lainnya. 

1. **Pengaturan keluaran kualitas data** (Opsional) - Pilih **pengaturan keluaran kualitas data** **untuk mengungkapkan bidang lokasi hasil kualitas data**. Kemudian, pilih **Browse** untuk mencari lokasi Amazon S3 untuk ditetapkan sebagai target output kualitas data. 

## Langkah 4. Konfigurasikan tindakan kualitas data
<a name="tutorial-data-quality-step4"></a>

 Anda dapat menggunakan tindakan untuk mempublikasikan metrik ke CloudWatch atau menghentikan pekerjaan berdasarkan kriteria tertentu. Tindakan hanya tersedia setelah Anda membuat aturan. Saat Anda memilih opsi ini, metrik yang sama juga dipublikasikan ke Amazon EventBridge. Anda dapat menggunakan opsi ini untuk [membuat peringatan untuk pemberitahuan](https://docs.aws.amazon.com/glue/latest/dg/data-quality-alerts.html). 
+  **Pada kegagalan ruleset** — Anda dapat memilih apa yang harus dilakukan jika kumpulan aturan gagal saat pekerjaan sedang berjalan. Jika Anda ingin pekerjaan gagal jika kualitas data gagal, pilih kapan pekerjaan harus gagal dengan memilih salah satu opsi berikut. Secara default, tindakan ini tidak dipilih, dan pekerjaan menyelesaikan jalannya meskipun aturan kualitas data gagal. 
  +  **None** - Jika Anda memilih **None** (default), pekerjaan tidak gagal dan terus berjalan meskipun ruleset gagal. 
  +  **Gagal pekerjaan setelah memuat data ke target** - Pekerjaan gagal dan tidak ada data yang disimpan. Untuk menyimpan hasil, pilih lokasi Amazon S3 di mana hasil kualitas data akan disimpan. 
  +  **Gagal pekerjaan tanpa memuat ke data target** - Opsi ini gagal pekerjaan segera ketika kesalahan kualitas data terjadi. Itu tidak memuat target data apa pun, termasuk hasil dari transformasi kualitas data. 

## Langkah 5: Lihat hasil kualitas data
<a name="tutorial-data-quality-step5"></a>

 Setelah menjalankan pekerjaan, lihat hasil kualitas data dengan memilih tab **Kualitas data**. 

1.  Untuk setiap pekerjaan yang dijalankan, lihat hasil kualitas data. Setiap node menampilkan status kualitas data dan detail status. Pilih node untuk melihat semua aturan dan status setiap aturan. 

1.  Pilih **Unduh hasil** untuk mengunduh file CSV yang berisi informasi tentang pekerjaan dan hasil kualitas data. 

1.  Jika Anda memiliki lebih dari satu pekerjaan yang dijalankan dengan hasil kualitas data, Anda dapat memfilter hasil berdasarkan tanggal dan rentang waktu. Pilih *Filter berdasarkan tanggal dan rentang waktu* untuk memperluas jendela filter. 

1.  Pilih rentang relatif atau rentang absolut. Untuk rentang absolut, gunakan kalender untuk memilih tanggal, dan masukkan nilai untuk waktu mulai dan waktu akhir. Setelah selesai, pilih **Terapkan**. 

## Kualitas Data Otomatis
<a name="automatic-data-quality"></a>

 Saat Anda membuat pekerjaan AWS Glue ETL dengan Amazon S3 sebagai target, AWS Glue ETL secara otomatis mengaktifkan aturan Kualitas Data yang memeriksa apakah data yang dimuat memiliki setidaknya satu kolom. Aturan ini dirancang untuk memastikan bahwa data yang dimuat tidak kosong atau rusak. Namun, jika aturan ini gagal, pekerjaan tidak akan gagal; sebagai gantinya, Anda akan melihat penurunan skor kualitas data Anda. Selain itu, Deteksi Anomali diaktifkan secara default, yang memantau jumlah kolom dalam data. Jika ada variasi atau kelainan dalam jumlah kolom, AWS Glue ETL akan memberi tahu Anda tentang anomali ini. Fitur ini membantu Anda mengidentifikasi potensi masalah dengan data dan mengambil tindakan yang tepat. Untuk melihat aturan Kualitas Data dan konfigurasinya, Anda dapat mengklik target Amazon S3 di pekerjaan AWS Glue ETL Anda. Konfigurasi aturan akan ditampilkan, seperti yang ditunjukkan pada tangkapan layar yang disediakan. 

![\[Tangkapan layar menunjukkan opsi kualitas data otomatis yang tersedia untuk dipilih.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/automatic-data-quality.png)


 Anda dapat menambahkan aturan kualitas data tambahan dengan memilih **Edit konfigurasi kualitas data**. 

## Metrik Agregat
<a name="data-quality-aggregated-metrics"></a>

Anda mungkin memerlukan metrik agregat seperti jumlah catatan yang lulus, gagal, dilewati pada tingkat aturan atau pada tingkat aturan untuk membangun dasbor. Untuk mendapatkan Metrik Agregat dan Metrik Aturan untuk setiap aturan, pertama, aktifkan Metrik Teragregasi dengan menambahkan opsi ke `publishAggregatedMetrics` fungsi Anda. `EvaluateDataQuality`

Opsi yang memungkinkan untuk `additional_options` `publishAggregatedMetrics` adalah `ENABLED` dan`DISABLED`. Sebagai contoh:

```
EvaluateDataQualityMultiframe = EvaluateDataQuality().process_rows(
    frame=medicare_dyf,
    ruleset=EvaluateDataQuality_ruleset,
    publishing_options={
        "dataQualityEvaluationContext": "EvaluateDataQualityMultiframe",
        "enableDataQualityCloudWatchMetrics": False,
        "enableDataQualityResultsPublishing": False,
    },
    additional_options={"publishAggregatedMetrics.status": "ENABLED"},
)
```

Jika tidak ditentukan, `publishAggregatedMetrics.status` is secara `DISABLED` default dan RuleMetrics dan metrik agregat sekarang akan dihitung. Fitur ini saat ini didukung di AWS Glue Interactive Sessions dan dalam pekerjaan Glue ETL. Ini tidak didukung dalam Kualitas Data Katalog Glue APIs.

### Mengambil hasil metrik agregat
<a name="data-quality-aggregated-metrics-results"></a>

Kapan `additionalOptions``"publishAggregatedMetrics.status": "ENABLED"`, Anda bisa mendapatkan hasilnya di dua tempat:

1. `AggregatedMetrics`dan `RuleMetrics` dikembalikan melalui `GetDataQualityResult()` saat memberikan `resultId` tempat `AggregatedMetrics` dan `RuleMetrics` termasuk:

   **Metrik Agregat:**
   + Total baris diproses
   + Total baris yang dilewati
   + Total baris gagal
   + Total Aturan Diproses
   + Total Aturan Lulus
   + Total Aturan Gagal  
![\[Tangkapan layar menunjukkan metrik agregat dan struktur metrik aturan untuk evaluasi Kualitas Data AWS Glue.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/data-quality-aggregated-metrics.png)

   Juga, pada tingkat aturan, metrik berikut disediakan:

   **Metrik Aturan:**
   + Baris Lulus
   + Baris Gagal
   + Baris Dilewati
   + Total Baris Diproses

1. `AggregatedMetrics`dikembalikan sebagai bingkai data tambahan dan bingkai `RuleOutcomes` data ditambah untuk disertakan`RuleMetrics`.

### Contoh implementasi
<a name="data-quality-aggregated-metrics-example"></a>

Contoh berikut menunjukkan cara menerapkan metrik agregat di Scala:

```
// Script generated for node Evaluate Data Quality
val EvaluateDataQuality_node1741974822533_ruleset = """
  # Example rules: Completeness "colA" between 0.4 and 0.8, ColumnCount > 10
  Rules = [
      IsUnique "customer_identifier",
      RowCount > 10,
      Completeness "customer_identifier" > 0.5
  ]
"""

val EvaluateDataQuality_node1741974822533 = EvaluateDataQuality.processRows(frame=ChangeSchema_node1742850392012, ruleset=EvaluateDataQuality_node1741974822533_ruleset, publishingOptions=JsonOptions("""{"dataQualityEvaluationContext": "EvaluateDataQuality_node1741974822533", "enableDataQualityCloudWatchMetrics": "true", "enableDataQualityResultsPublishing": "true"}"""), additionalOptions=JsonOptions("""{"compositeRuleEvaluation.method":"ROW","observations.scope":"ALL","performanceTuning.caching":"CACHE_NOTHING", "publishAggregatedMetrics.status": "ENABLED"}"""))

println("--------------------------------ROW LEVEL OUTCOMES--------------------------------")
val rowLevelOutcomes_node = EvaluateDataQuality_node1741974822533("rowLevelOutcomes")

rowLevelOutcomes_node.show(10)

 println("--------------------------------RULE LEVEL OUTCOMES--------------------------------")

val ruleOutcomes_node = EvaluateDataQuality_node1741974822533("ruleOutcomes")

ruleOutcomes_node.show()

 println("--------------------------------AGGREGATED METRICS--------------------------------")

val aggregatedMetrics_node = EvaluateDataQuality_node1741974822533("aggregatedMetrics")

aggregatedMetrics_node.show()
```

### Hasil sampel
<a name="data-quality-aggregated-metrics-sample-results"></a>

Hasil dikembalikan sebagai berikut:

```
{
    "Rule": "IsUnique \"customer_identifier\"",
    "Outcome": "Passed",
    "FailureReason": null,
    "EvaluatedMetrics": {
        "Column.customer_identifier.Uniqueness": 1
    },
    "EvaluatedRule": "IsUnique \"customer_identifier\"",
    "PassedCount": 10,
    "FailedCount": 0,
    "SkippedCount": 0,
    "TotalCount": 10
}
{
    "Rule": "RowCount > 10",
    "Outcome": "Failed",
    "FailureReason": "Value: 10 does not meet the constraint requirement!",
    "EvaluatedMetrics": {
        "Dataset.*.RowCount": 10
    },
    "EvaluatedRule": "RowCount > 10",
    "PassedCount": 0,
    "FailedCount": 0,
    "SkippedCount": 10,
    "TotalCount": 10
}
{
    "Rule": "Completeness \"customer_identifier\" > 0.5",
    "Outcome": "Passed",
    "FailureReason": null,
    "EvaluatedMetrics": {
        "Column.customer_identifier.Completeness": 1
    },
    "EvaluatedRule": "Completeness \"customer_identifier\" > 0.5",
    "PassedCount": 10,
    "FailedCount": 0,
    "SkippedCount": 0,
    "TotalCount": 10
}
```

Metrik Agregat adalah sebagai berikut:

```
{ "TotalRowsProcessed": 10, "PassedRows": 10, "FailedRows": 0, "TotalRulesProcessed": 3, "RulesPassed": 2, "RulesFailed": 1 }
```

# Pembuat aturan Kualitas Data
<a name="data-quality-rule-builder"></a>

Dengan pembuat aturan Data Quality Definition Language (DQDL), Anda dapat membuat aturan kualitas data untuk mengevaluasi data Anda. Mulailah dengan memilih jenis aturan, lalu tentukan parameter di editor aturan. Editor aturan juga menunjukkan kesalahan dan peringatan apa pun saat Anda membuat aturan. 

 [Panduan DQDL](https://docs.aws.amazon.com/glue/latest/dg/dqdl.html) menyediakan dokumentasi komprehensif tentang cara membuat aturan menggunakan sintaks DQDL, tipe aturan bawaan, dan contoh. 

## Mengevaluasi node Kualitas Data
<a name="gs-data-quality-transform-expand-view"></a>

 Saat Anda bekerja dengan node transformasi **Evaluate Data Quality** dan pembuat aturan DQDL, Anda dapat memperluas ruang kerja. 
+  Untuk memperluas tab **Transform** untuk mengisi seluruh layar, pilih ikon perluas di sudut kanan atas panel detail simpul. 
+  **Untuk memperluas editor aturan DQDL, pilih ikon  **<<** untuk memperluas editor aturan dan menciutkan tab **Rule types** dan Schema.**   
![\[Tangkapan layar menunjukkan diagram pekerjaan dengan node Evaluate Data Quality.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/data_quality_example.png)

## Komponen-komponen
<a name="gs-data-quality-rule-builder-components"></a>

 Ada 26 jenis aturan yang dibangun ke dalamAWS Glue Studio. Setiap jenis aturan memiliki deskripsi dan contoh bagaimana mereka dapat digunakan. 

### Jenis aturan kualitas data
<a name="gs-data-quality-rule-types"></a>

 AWS Glue Studiomenyediakan tipe aturan bawaan untuk kemudahan dalam membuat aturan. Untuk informasi selengkapnya tentang jenis aturan, lihat referensi tipe [aturan DQDL](https://docs.aws.amazon.com/glue/latest/dg/dqdl.html#dqdl-rule-types). 

### Skema
<a name="gs-data-quality-schema"></a>

 Tab **Skema** menampilkan nama kolom dan tipe data dari node induk. Skema dari beberapa node ditampilkan. Anda dapat melihat skema input, mencari berdasarkan nama kolom, dan menyisipkan kolom ke editor aturan. 

![\[Tangkapan layar menunjukkan editor aturan dengan aturan lengkap yang menggunakan tipe aturan Kelengkapan.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/data_quality_schema.png)


### Editor aturan
<a name="gs-dataquality-rule-editor"></a>

 Editor aturan adalah editor teks tempat Anda dapat menulis dan mengedit aturan. Jika Anda memilih jenis aturan dari pembuat aturan DQDL, jenis aturan ditambahkan ke editor aturan. Anda kemudian dapat menentukan parameter, menambahkan aturan, dan mengedit aturan sesuai kebutuhan dengan memodifikasi teks. AWS Glue Studiomemvalidasi aturan di editor aturan dan menampilkan kesalahan dan peringatan jika ada. 

 **Kesalahan dan peringatan** 

 Jika aturan tidak mengikuti sintaks aturan DQDL, editor aturan menunjukkan beberapa indikator visual bahwa ada kesalahan: 
+  Editor aturan menampilkan ikon kesalahan dan warna merah pada baris dengan kesalahan. 
+  Editor aturan menampilkan jumlah kesalahan di sebelah ikon kesalahan merah. 
+  Ketika Anda memilih baris dengan kesalahan, deskripsi kesalahan dan lokasi (baris dan kolom) ditampilkan di bagian bawah editor aturan. 

![\[Tangkapan layar menunjukkan editor aturan DQDL dengan indikator kesalahan pada baris 1 dan di bagian bawah editor aturan dengan jumlah kesalahan. Di bawah ini adalah deskripsi kesalahan.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/data_quality_rule_editor_error.png)


## 
<a name="gs-data-quality-settings"></a>

 **Tindakan kualitas data** 

 Secara default, tindakan ini tidak dipilih dan pekerjaan akan menyelesaikan jalannya bahkan jika aturan kualitas data gagal. 

 Pilih di antara tindakan berikut. Anda dapat menggunakan tindakan untuk mempublikasikan hasil CloudWatch atau menghentikan pekerjaan berdasarkan kriteria tertentu. Tindakan hanya tersedia setelah Anda membuat aturan. 
+  **Publikasikan hasil ke CloudWatch** — Saat Anda menjalankan pekerjaan, tambahkan hasilnya ke CloudWatch. 
+  **Gagal pekerjaan ketika kualitas data gagal** - Jika aturan kualitas data gagal, pekerjaan juga akan gagal sebagai hasilnya. 

 **Output transformasi kualitas data** 
+  **Data asli** - Pilih untuk mengeluarkan data input asli. Opsi ini sangat ideal jika Anda ingin menghentikan pekerjaan ketika masalah kualitas terdeteksi. 
+  **Metrik kualitas data** — Pilih untuk menampilkan aturan yang dikonfigurasi dan status lulus atau gagalnya. Opsi ini berguna jika Anda ingin mengambil tindakan khusus. 

 **Pengaturan output kualitas data** 

 Tetapkan lokasi hasil kualitas data dengan menentukan lokasi Amazon S3 sebagai target keluaran kualitas data. 

# Mengkonfigurasi deteksi anomali dalam pekerjaan Glue AWS ETL
<a name="data-quality-configuring-anomaly-detection-etl-jobs"></a>

 Untuk memulai dengan deteksi anomali di AWS Glue Studio, buka pekerjaan AWS Glue Studio dan klik **Evaluate Data Quality** Transform. 

 Dengan mengaktifkan fitur ini, AWS Glue Data Quality akan menganalisis data Anda dari waktu ke waktu untuk mendeteksi anomali. Ini memberikan statistik data berharga dan pengamatan tentang data Anda, memungkinkan Anda untuk mengambil tindakan pada anomali yang diidentifikasi. 

 Tinjau dokumentasi [Deteksi Anomali](data-quality-anomaly-detection.md) untuk memahami cara kerja bagian dalam fitur ini. 

## Mengaktifkan deteksi anomali
<a name="data-quality-enabling-anomaly-detection"></a>

**Untuk mengaktifkan deteksi anomali di: AWS Glue Studio**

1.  Pilih node **Kualitas Data** di pekerjaan Anda, lalu pilih tab **Deteksi anomali**. Beralih untuk mengaktifkan **Aktifkan Deteksi Anomali**.   
![\[Tangkapan layar menunjukkan sakelar untuk “Aktifkan deteksi anomali” aktif. Ini dapat diaktifkan atau dimatikan.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/data-quality-enable-anomaly-detection.png)

1.  Tentukan data untuk memantau anomali dengan memilih **Add** analyzer. Ada dua bidang yang dapat Anda isi: Statistik dan Data. 
   +  **Statistik** adalah informasi tentang bentuk data Anda dan properti lainnya. Anda dapat memilih satu atau lebih statistik sekaligus, atau memilih **Semua statistik**. Statistik meliputi: Kelengkapan, Keunikan, Mean, Jumlah,, Entropi, StandardDeviation, dan banyak lagi. DistinctValuesCount UniqueValueRatio Lihat dokumentasi [Analyzers](dqdl.md#dqdl-analyzers) untuk detail selengkapnya. 
   +  **Data** adalah kolom dalam dataset Anda. Anda dapat memilih semua kolom atau kolom individual.   
![\[Tangkapan layar menunjukkan bidang untuk Statistik dan Data. Anda dapat memilih statistik mana yang ingin Anda terapkan ke kumpulan data Anda dan kolom mana.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/data-quality-add-analyzer.png)

1.  Pilih **Tambahkan cakupan deteksi anomali** untuk menyimpan perubahan Anda. Setelah menambahkan penganalisis, Anda dapat melihatnya di bagian cakupan **deteksi anomali**. 

    Anda juga dapat menggunakan menu **Tindakan** untuk mengedit penganalisis Anda, atau memilih tab **editor Ruleset dan mengedit penganalisis langsung di notepad editor** ruleset. Anda akan melihat penganalisis yang Anda simpan di bawah aturan apa pun yang telah Anda buat. 

   ```
   Rules = [
   
   ]
   
   Analyzers = [
       Completeness “id”
   ]
   ```

 Setelah set aturan dan penganalisis yang diperbarui dikonfigurasi, AWS Glue Data Quality terus memantau aliran data yang masuk. Ini dapat menandakan anomali potensial melalui peringatan atau penghentian pekerjaan, tergantung pada pengaturan Anda. Pemantauan proaktif ini membantu memastikan kualitas dan integritas data di seluruh jalur data Anda. 

 Di bagian selanjutnya, Anda akan belajar cara memantau anomali yang diidentifikasi oleh sistem secara efektif. Anda juga akan belajar cara melihat dan menganalisis statistik data yang dikumpulkan oleh AWS Glue Data Quality. Selain itu, Anda akan memahami cara memberikan umpan balik ke model pembelajaran mesin yang mendukung fitur Deteksi Anomali. Lingkaran umpan balik ini sangat penting untuk meningkatkan akurasi model dan memastikannya dapat secara efektif mendeteksi anomali yang sesuai dengan kebutuhan bisnis dan pola data spesifik Anda. 

# Melihat skor kualitas data dan anomali
<a name="data-quality-viewing-scores-and-anomalies"></a>

 Di bagian ini, kita akan menjelajahi dasbor kualitas data dan berbagai fungsi yang disediakannya. 

## Visualisasikan dan pahami metrik dan tren kualitas data tingkat tinggi
<a name="data-quality-visualize-metrics-and-trends"></a>

 Setelah pekerjaan Anda berhasil, pilih tab **Kualitas Data** untuk melihat skor kualitas data dan anomali. 

![\[Tangkapan layar menunjukkan tab Kualitas data yang dipilih dan skor serta metrik.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/data-quality-visualize-data-quality-metrics.png)


 Komponen berikut di tab Kualitas data memberikan informasi yang berguna. 

1.  Pilih tab **Kualitas Data** untuk melihat metrik kualitas data. 

1.  Pilih ID job run tertentu untuk melihat skor Kualitas Data. 

1.  Panel ini menampilkan tiga informasi penting. Anda dapat memilih masing-masing untuk menavigasi ke tabel tertentu untuk melihat anomali, statistik data, atau aturan. 
   +  Skor Kualitas Data saat aturan dikonfigurasi. 
   +  Jumlah statistik yang dikumpulkan oleh Aturan dan Analyzer. 
   +  Jumlah anomali yang terdeteksi. 

1.  Grafik tren ini menunjukkan bagaimana kualitas data menjadi tren dari waktu ke waktu. Anda dapat mengarahkan kursor ke tren dan pergi ke waktu tertentu ketika skor kualitas data memburuk. 

1.  Tren anomali dari waktu ke waktu akan menunjukkan kepada Anda jumlah anomali yang terdeteksi dari waktu ke waktu. 

1.  Tab: 
   +  Aturan Tab adalah tab default yang menampilkan daftar semua aturan dan status. Aturan yang Dievaluasi berguna dalam kasus aturan dinamis untuk melihat nilai aktual aturan yang dievaluasi. 
   +  Statistik Tab mencantumkan semua statistik, memungkinkan Anda untuk melihat metrik dan tren dari waktu ke waktu. 
   +  Tab anomali menunjukkan daftar anomali yang terdeteksi. 

## Melihat anomali dan melatih algoritma deteksi anomali
<a name="data-quality-visualize-anomalies"></a>

![\[Tangkapan layar menunjukkan tab Anomali dengan metrik.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/data-quality-visualize-anomaly-detection.png)


 Panggilan untuk gambar di atas: 

1.  Ketika anomali terdeteksi, klik anomali atau pilih tab Anomali 

1.  AWS Glue Data Quality memberikan penjelasan rinci tentang anomali, nilai aktual, rentang prediksi 

1.  AWS Glue Data Quality menunjukkan garis tren. Ini memiliki nilai aktual, tren turunan berdasarkan nilai aktual (garis merah), batas atas dan batas bawah 

1.  AWS Glue Data Quality merekomendasikan aturan kualitas data yang dapat digunakan untuk menangkap pola untuk masa depan. Anda dapat menyalin semua aturan yang direkomendasikan kepada Anda dan menerapkannya ke node kualitas data Anda untuk menangkap pola-pola ini secara efektif. 

1.  Anda dapat memberikan input ke model machine learning (ML) untuk mengecualikan nilai anomali, memastikan bahwa future run mendeteksi anomali secara akurat. Jika Anda tidak secara eksplisit mengecualikan anomali, AWS Glue Data Quality akan secara otomatis menganggapnya sebagai bagian dari model untuk prediksi masa depan. Penting untuk dicatat bahwa hanya proses terbaru yang akan mencerminkan input model yang Anda berikan. Misalnya, jika Anda kembali dan mengecualikan titik anomali dari beberapa proses sebelumnya, model tidak akan mencerminkan perubahan tersebut kecuali Anda melihat dan memperbarui input model dalam proses terbaru. Model akan terus menggunakan input yang disediakan sebelumnya sampai Anda membuat penyesuaian yang diperlukan dalam proses terbaru. Dengan secara aktif mengelola pengecualian nilai anomali, Anda dapat menyempurnakan pemahaman model ML tentang apa yang merupakan anomali untuk pola dan persyaratan data spesifik Anda, yang mengarah ke deteksi anomali yang lebih akurat dari waktu ke waktu. 

## Melihat Statistik Data dari waktu ke waktu dan memberikan masukan pelatihan
<a name="data-quality-visualize-data-statistics-over-time"></a>

 Terkadang, Anda mungkin ingin melihat statistik data atau profil data dan melihat perkembangannya dari waktu ke waktu. Untuk melakukan ini, pilih **Statistik** atau buka tab **Statistik**. Anda kemudian dapat melihat statistik data terbaru yang dikumpulkan oleh AWS Glue Data Quality. 

![\[Tangkapan layar menunjukkan tab Statistik dengan kumpulan data dan statistik kolom.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/data-quality-visualize-data-statistics-over-time.png)


 Mengklik **Tren Tampilan** menunjukkan kepada Anda bagaimana masing-masing statistik berkembang dari waktu ke waktu. 

![\[Tangkapan layar menunjukkan tab Statistik dengan kumpulan data dan statistik kolom.\]](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/data-quality-view-trends-over-time.png)


1.  Anda dapat memilih statistik untuk kolom tertentu 

1.  Anda dapat melihat bagaimana tren berkembang 

1.  Anda dapat memilih nilai anomali dan memilih untuk mengecualikan atau memasukkannya. Dengan memberikan umpan balik ini, algoritme akan mengecualikan atau menyertakan titik data anomali yang diidentifikasi dan melatih kembali model. Proses pelatihan ulang ini memastikan deteksi anomali yang akurat bergerak maju, karena model belajar dari umpan balik yang Anda berikan tentang nilai mana yang harus dianggap anomali atau tidak. 

    Melalui loop umpan balik ini, Anda memiliki kemampuan untuk menyempurnakan pemahaman algoritme tentang apa yang merupakan anomali untuk pola data spesifik dan persyaratan bisnis Anda. Dengan mengecualikan nilai yang tidak boleh ditandai sebagai anomali, atau termasuk nilai yang terlewatkan, model yang dilatih ulang akan menjadi lebih baik dalam membedakan antara titik data yang diharapkan dan benar-benar anomali. 