翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。 # データ品質検証を有効にするプロンプトでソースクラスター ID とターゲットクラスター IDsの両方を指定することで、データ品質チェックを有効にできます。システムはソースクラスターで既存のアプリケーションを実行して、比較用のベースラインメタデータを収集します。 **注: データ品質を追跡できるのは Spark 書き込みオペレーションのみです。** ``` Upgrade my pyspark application /pyspark-example-24/ from EMR version 6.0.0 to 7.12.0. Use EMR-EC2 Cluster for source version run and for target version run. Use s3 path s3:// to store updated application artifacts and s3:///metadata for storing metadata. Enable data quality checks. ``` ## Data Quality ワークフローの違いワークフローは、上記の順序でこれらの追加ステップを使用して、標準アップグレードプロセスと同じステップに従います。 + **[ステップ 3 の後: レビューとカスタマイズを計画する]** + **現在の設定でビルド**する: ソースクラスターの送信用に現在の設定でアプリケーションを構築します。 + **ソース EMR クラスターで検証**: ソース Spark バージョンで元のアプリケーションを実行し、ベースライン比較のために出力メタデータを収集します。 + **[ステップ 7 の後: アップグレードの概要] データ品質の概要**: バージョンと分析間のデータ品質比較レポート。 ### 現在、データ品質の不一致機能には以下が含まれます。 + **スキーマチェック**: 列構造の欠落または新しく追加された列、データ型の違い、nullability の変更を検出します。 + **値チェック** *(数値列と文字列列のみ)* + 最小、最大、平均 (数値列のみの平均) を比較します。 + 文字列の場合、最小と最大は辞書順に基づいています。 + **集計統計チェック**: ソース出力とターゲット出力の合計行数を比較します。 ## データ品質検証: 範囲と制限データ品質検証では、Spark バージョン >= 3.0 の spark-submit コマンドを使用した EMR-EC2 ステップがサポートされており、EMR クラスターに StepConcurrencyLevel > 1 を含めることはできません。Data Quality Validation は、Spark クエリプランのデータシンクノードの統計を評価し (データソース/変換のメタデータはキャプチャされません）、ファイル書き込み、データベース挿入、テーブル作成、さまざまなデータソース出力などの一般的な Spark 書き込みオペレーションをカバーします。