As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá. # Ativar validação da qualidade de dados Você pode ativar as verificações de qualidade de dados fornecendo o cluster de origem e de destino IDs em seu prompt. O sistema executa seu aplicativo existente no cluster de origem para coletar metadados básicos para comparação. **Observação: somente as operações de gravação do Spark podem ser monitoradas quanto à qualidade dos dados.** ``` Upgrade my pyspark application /pyspark-example-24/ from EMR version 6.0.0 to 7.12.0. Use EMR-EC2 Cluster for source version run and for target version run. Use s3 path s3:// to store updated application artifacts and s3:///metadata for storing metadata. Enable data quality checks. ``` ## Diferenças no fluxo de trabalho de qualidade de O fluxo de trabalho segue as mesmas etapas do processo de atualização padrão com essas etapas adicionais na ordem acima: + **[Após a etapa 3: revisão e personalização do plano]** + **Crie com a configuração atual**: crie o aplicativo com a configuração atual para envio do cluster de origem. + **Validar no cluster EMR de origem**: execute o aplicativo original na versão de origem do Spark e colete metadados de saída para comparação básica. + **[Após a etapa 7: Resumo da atualização] Resumo da qualidade dos dados**: relatório de comparação da qualidade dos dados entre versões e análises. ### Atualmente, a capacidade de incompatibilidade de qualidade de dados inclui: + **Verificações de esquema**: detecta alterações na estrutura da coluna: colunas ausentes ou recém-adicionadas, diferenças de tipo de dados e alterações de nulidade. + **Verificações de valor** *(somente colunas numéricas e de string*) + Compara mínimo, máximo e média (média somente para colunas numéricas). + Para strings, min e max são baseados na ordem lexicográfica. + **Verificações estatísticas agregadas**: compara o total de contagens de linhas entre as saídas de origem e de destino. ## Validação da qualidade de dados: escopo e limitações A Validação de Qualidade de Dados suporta a EC2 etapa EMR usando o comando spark-submit com a versão >= 3.0 do Spark e o cluster do EMR não pode ter > 1. StepConcurrencyLevel A Validação da Qualidade de Dados avalia as estatísticas nos nós do coletor de dados do plano de consulta do Spark (os metadados da fonte de dados/transformações não são capturados) e abrange operações comuns de gravação do Spark, incluindo gravações de arquivos, inserções de banco de dados, criação de tabelas e várias saídas de fontes de dados.