

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# データ品質検証を有効にする
<a name="emr-spark-upgrade-agent-data-quality-validation"></a>

プロンプトでソースクラスター ID とターゲットクラスター IDsの両方を指定することで、データ品質チェックを有効にできます。システムはソースクラスターで既存のアプリケーションを実行して、比較用のベースラインメタデータを収集します。

**注: データ品質を追跡できるのは Spark 書き込みオペレーションのみです。**

```
Upgrade my pyspark application <local-path>/pyspark-example-24/ from EMR version 6.0.0 to 7.12.0. Use EMR-EC2 Cluster <source-cluster-id> for source version run  
and <target-cluster-id> for target version run. Use s3 path s3://<please fill in your staging bucket path> to store updated application artifacts  
and s3://<please fill in your staging bucket path>/metadata for storing metadata. Enable data quality checks.
```

## Data Quality ワークフローの違い
<a name="emr-spark-upgrade-agent-data-quality-workflow"></a>

ワークフローは、上記の順序でこれらの追加ステップを使用して、標準アップグレードプロセスと同じステップに従います。
+ **[ステップ 3 の後: レビューとカスタマイズを計画する]**
  + **現在の設定でビルド**する: ソースクラスターの送信用に現在の設定でアプリケーションを構築します。
  + **ソース EMR クラスターで検証**: ソース Spark バージョンで元のアプリケーションを実行し、ベースライン比較のために出力メタデータを収集します。
+ **[ステップ 7 の後: アップグレードの概要] データ品質の概要**: バージョンと分析間のデータ品質比較レポート。

### 現在、データ品質の不一致機能には以下が含まれます。
<a name="emr-spark-upgrade-agent-data-quality-mismatch"></a>
+ **スキーマチェック**: 列構造の欠落または新しく追加された列、データ型の違い、nullability の変更を検出します。
+ **値チェック** *(数値列と文字列列のみ)*
  + 最小、最大、平均 (数値列のみの平均) を比較します。
  + 文字列の場合、最小と最大は辞書順に基づいています。
+ **集計統計チェック**: ソース出力とターゲット出力の合計行数を比較します。

## データ品質検証: 範囲と制限
<a name="emr-spark-upgrade-agent-data-quality-scope"></a>

データ品質検証では、Spark バージョン >= 3.0 の spark-submit コマンドを使用した EMR-EC2 ステップがサポートされており、EMR クラスターに StepConcurrencyLevel > 1 を含めることはできません。Data Quality Validation は、Spark クエリプランのデータシンクノードの統計を評価し (データソース/変換のメタデータはキャプチャされません）、ファイル書き込み、データベース挿入、テーブル作成、さまざまなデータソース出力などの一般的な Spark 書き込みオペレーションをカバーします。