

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 資料品質檢查
<a name="data-quality-checks"></a>

資料品質是資料清理過程中不可或缺但經常被忽略的部分。下圖顯示資料品質檢查如何符合資料工程自動化和存取控制生命週期。

![\[資料品質圖表\]](http://docs.aws.amazon.com/zh_tw/prescriptive-guidance/latest/modern-data-centric-use-cases/images/data_quality_checks.png)


下表根據使用案例提供不同資料品質解決方案的概觀。


|  |  |  | 
| --- |--- |--- |
| **使用案例** | **解決方案** | **範例** | 
| 新增資料欄層級或資料表層級品質條件的無程式碼解決方案 | [AWS Glue DataBrew](https://aws.amazon.com/glue/features/databrew/) | 檢查所有資料欄值是否介於 1 到 12 之間，或資料表或資料欄是否為空 | 
| 新增至 AWS Glue 任務或無程式碼解決方案 （預覽） 的自訂程式碼，以新增資料欄層級或資料表層級的品質條件 | [AWS Glue 資料品質](https://docs.aws.amazon.com/glue/latest/dg/glue-data-quality.html) | 檢查資料欄是否`first_name`不是 null，或資料欄是否只`phone_number`包含數字或 "\$1" 運算子和/或統計函數，例如平均值或總和 | 
| 自訂檢查 | 選擇的 ETL，例如 [AWS Lambda](https://aws.amazon.com/lambda/)、[AWS Glue](https://aws.amazon.com/glue/) 或 [Amazon EMR](https://aws.amazon.com/emr/) | 檢查欄 A 的值是否一律大於欄 B 和欄 C 的對應值，或欄的值是否一律`continent`在地理上正確且衍生自`city`欄 | 
| 具有指標報告、限制驗證和限制建議的複雜解決方案 | [Deequ](https://aws.amazon.com/blogs/big-data/test-data-quality-at-scale-with-deequ/) | 檢查資料欄指標的`CompletenessConstraint`完整性是否`review_id`等於 `1` | 