

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Abilita la convalida della qualità dei dati
<a name="emr-spark-upgrade-agent-data-quality-validation"></a>

Puoi abilitare i controlli di qualità dei dati fornendo IDs nel prompt sia il cluster di origine che quello di destinazione. Il sistema esegue l'applicazione esistente sul cluster di origine per raccogliere i metadati di base per il confronto.

**Nota: solo le operazioni di scrittura di Spark possono essere monitorate per la qualità dei dati.**

```
Upgrade my pyspark application <local-path>/pyspark-example-24/ from EMR version 6.0.0 to 7.12.0. Use EMR-EC2 Cluster <source-cluster-id> for source version run  
and <target-cluster-id> for target version run. Use s3 path s3://<please fill in your staging bucket path> to store updated application artifacts  
and s3://<please fill in your staging bucket path>/metadata for storing metadata. Enable data quality checks.
```

## Differenze nel flusso di lavoro relativo alla qualità
<a name="emr-spark-upgrade-agent-data-quality-workflow"></a>

Il flusso di lavoro segue gli stessi passaggi del processo di aggiornamento standard, con questi passaggi aggiuntivi nell'ordine precedente:
+ **[Dopo la fase 3: revisione e personalizzazione del piano]**
  + **Crea con la configurazione corrente**: crea l'applicazione con la configurazione corrente per l'invio del cluster di origine.
  + **Convalida sul cluster EMR di origine**: esegui l'applicazione originale sulla versione Spark di origine e raccogli i metadati di output per il confronto di base.
+ **[Dopo la fase 7: riepilogo dell'aggiornamento] Riepilogo sulla qualità dei dati**: rapporto di confronto sulla qualità dei dati tra versioni e analisi.

### La funzionalità di mancata corrispondenza della qualità dei dati attualmente include:
<a name="emr-spark-upgrade-agent-data-quality-mismatch"></a>
+ **Controlli dello schema**: rileva le modifiche nella struttura delle colonne: colonne mancanti o aggiunte di recente, differenze tra i tipi di dati e modifiche di annullabilità.
+ **Controlli dei valori** *(solo colonne numeriche e stringhe*)
  + Confronta min, max e mean (media solo per le colonne numeriche).
  + Per le stringhe, min e max si basano sull'ordine lessicografico.
+ **Controlli statistici aggregati**: confronta il numero totale di righe tra gli output di origine e di destinazione.

## Convalida della qualità dei dati: ambito e limiti
<a name="emr-spark-upgrade-agent-data-quality-scope"></a>

Data Quality Validation supporta EMR EC2 - step utilizzando il comando spark-submit con la versione Spark >= 3.0 e il cluster EMR non può avere > 1. StepConcurrencyLevel La Data Quality Validation valuta le statistiche sui nodi data sink del piano di query Spark (i metadati di Data Source/Transforms non vengono acquisiti) e copre le operazioni di scrittura più comuni di Spark, tra cui scritture di file, inserimenti di database, creazione di tabelle e vari output di fonti di dati.