Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà. # Abilita la convalida della qualità dei dati Puoi abilitare i controlli di qualità dei dati fornendo IDs nel prompt sia il cluster di origine che quello di destinazione. Il sistema esegue l'applicazione esistente sul cluster di origine per raccogliere i metadati di base per il confronto. **Nota: solo le operazioni di scrittura di Spark possono essere monitorate per la qualità dei dati.** ``` Upgrade my pyspark application /pyspark-example-24/ from EMR version 6.0.0 to 7.12.0. Use EMR-EC2 Cluster for source version run and for target version run. Use s3 path s3:// to store updated application artifacts and s3:///metadata for storing metadata. Enable data quality checks. ``` ## Differenze nel flusso di lavoro relativo alla qualità Il flusso di lavoro segue gli stessi passaggi del processo di aggiornamento standard, con questi passaggi aggiuntivi nell'ordine precedente: + **[Dopo la fase 3: revisione e personalizzazione del piano]** + **Crea con la configurazione corrente**: crea l'applicazione con la configurazione corrente per l'invio del cluster di origine. + **Convalida sul cluster EMR di origine**: esegui l'applicazione originale sulla versione Spark di origine e raccogli i metadati di output per il confronto di base. + **[Dopo la fase 7: riepilogo dell'aggiornamento] Riepilogo sulla qualità dei dati**: rapporto di confronto sulla qualità dei dati tra versioni e analisi. ### La funzionalità di mancata corrispondenza della qualità dei dati attualmente include: + **Controlli dello schema**: rileva le modifiche nella struttura delle colonne: colonne mancanti o aggiunte di recente, differenze tra i tipi di dati e modifiche di annullabilità. + **Controlli dei valori** *(solo colonne numeriche e stringhe*) + Confronta min, max e mean (media solo per le colonne numeriche). + Per le stringhe, min e max si basano sull'ordine lessicografico. + **Controlli statistici aggregati**: confronta il numero totale di righe tra gli output di origine e di destinazione. ## Convalida della qualità dei dati: ambito e limiti Data Quality Validation supporta EMR EC2 - step utilizzando il comando spark-submit con la versione Spark >= 3.0 e il cluster EMR non può avere > 1. StepConcurrencyLevel La Data Quality Validation valuta le statistiche sui nodi data sink del piano di query Spark (i metadati di Data Source/Transforms non vengono acquisiti) e copre le operazioni di scrittura più comuni di Spark, tra cui scritture di file, inserimenti di database, creazione di tabelle e vari output di fonti di dati.