

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Ativar validação da qualidade de dados
<a name="emr-spark-upgrade-agent-data-quality-validation"></a>

Você pode ativar as verificações de qualidade de dados fornecendo o cluster de origem e de destino IDs em seu prompt. O sistema executa seu aplicativo existente no cluster de origem para coletar metadados básicos para comparação.

**Observação: somente as operações de gravação do Spark podem ser monitoradas quanto à qualidade dos dados.**

```
Upgrade my pyspark application <local-path>/pyspark-example-24/ from EMR version 6.0.0 to 7.12.0. Use EMR-EC2 Cluster <source-cluster-id> for source version run  
and <target-cluster-id> for target version run. Use s3 path s3://<please fill in your staging bucket path> to store updated application artifacts  
and s3://<please fill in your staging bucket path>/metadata for storing metadata. Enable data quality checks.
```

## Diferenças no fluxo de trabalho de qualidade de
<a name="emr-spark-upgrade-agent-data-quality-workflow"></a>

O fluxo de trabalho segue as mesmas etapas do processo de atualização padrão com essas etapas adicionais na ordem acima:
+ **[Após a etapa 3: revisão e personalização do plano]**
  + **Crie com a configuração atual**: crie o aplicativo com a configuração atual para envio do cluster de origem.
  + **Validar no cluster EMR de origem**: execute o aplicativo original na versão de origem do Spark e colete metadados de saída para comparação básica.
+ **[Após a etapa 7: Resumo da atualização] Resumo da qualidade dos dados**: relatório de comparação da qualidade dos dados entre versões e análises.

### Atualmente, a capacidade de incompatibilidade de qualidade de dados inclui:
<a name="emr-spark-upgrade-agent-data-quality-mismatch"></a>
+ **Verificações de esquema**: detecta alterações na estrutura da coluna: colunas ausentes ou recém-adicionadas, diferenças de tipo de dados e alterações de nulidade.
+ **Verificações de valor** *(somente colunas numéricas e de string*)
  + Compara mínimo, máximo e média (média somente para colunas numéricas).
  + Para strings, min e max são baseados na ordem lexicográfica.
+ **Verificações estatísticas agregadas**: compara o total de contagens de linhas entre as saídas de origem e de destino.

## Validação da qualidade de dados: escopo e limitações
<a name="emr-spark-upgrade-agent-data-quality-scope"></a>

A Validação de Qualidade de Dados suporta a EC2 etapa EMR usando o comando spark-submit com a versão >= 3.0 do Spark e o cluster do EMR não pode ter > 1. StepConcurrencyLevel A Validação da Qualidade de Dados avalia as estatísticas nos nós do coletor de dados do plano de consulta do Spark (os metadados da fonte de dados/transformações não são capturados) e abrange operações comuns de gravação do Spark, incluindo gravações de arquivos, inserções de banco de dados, criação de tabelas e várias saídas de fontes de dados.