

# Evaluación de la calidad de los datos con AWS Glue Studio
<a name="data-quality-gs-studio"></a>

 Calidad de datos de AWS Glue evalúa y supervisa la calidad de sus datos en función de las reglas que defina. Esto facilita la identificación de los datos que requieren acción. En AWS Glue Studio, puede agregar nodos de calidad de datos a su trabajo visual para crear reglas de calidad de datos en las tablas del catálogo de datos. Puede monitorear y evaluar los cambios aplicados en sus conjuntos de datos a medida que evolucionan. Para obtener información general sobre cómo trabajar con Data Quality de AWS Glue en AWS Glue Studio, consulte el siguiente vídeo.

[![AWS Videos](http://img.youtube.com/vi/https://www.youtube.com/embed/DUd5s_CFtBM/0.jpg)](http://www.youtube.com/watch?v=https://www.youtube.com/embed/DUd5s_CFtBM)


 A continuación se indican los pasos generales para trabajar con Calidad de datos de AWS Glue: 

1. **Cree reglas de calidad de datos**: cree un conjunto de reglas de calidad de datos con el generador de DQDL; para ello, seleccione los conjuntos de reglas integrados que configure. 

1.  **Configure un trabajo de calidad de datos**: defina acciones en función de los resultados de calidad de los datos y las opciones de salida. 

1.  **Guarde y ejecute un trabajo de calidad de datos**: cree y ejecute un trabajo. Al guardar el trabajo, se guardarán los conjuntos de reglas que creó para el trabajo. 

1.  **Supervise y revise los resultados de calidad de los datos**: revise los resultados de calidad de los datos una vez finalizada la ejecución del trabajo. Si lo desea, programe el trabajo para una fecha futura. 

## Ventajas
<a name="gs-data-quality-benefits"></a>

 Los analistas de datos, ingenieros de datos y científicos de datos pueden utilizar el nodo de evaluación de la calidad de los datos en AWS Glue Studio para analizar, configurar, supervisar y mejorar la calidad de los datos desde el editor de trabajos visuales. Las ventajas de utilizar el nodo de calidad de datos incluyen lo siguiente: 
+  **Puede detectar problemas de calidad de los datos**: puede crear reglas que comprueben las características de los conjuntos de datos para determinar si hay problemas. 
+  **Empezar a trabajar es fácil**: puede empezar con reglas y acciones prediseñadas. 
+  **Integración estrecha**: puede utilizar nodos de calidad de datos en AWS Glue Studio porque Calidad de datos de AWS Glue se ejecuta sobre el Catálogo de datos de AWS Glue. 

# Evaluación de la calidad de los datos para los trabajos de ETL en AWS Glue Studio
<a name="tutorial-data-quality"></a>

En este tutorial, empezará a utilizar la calidad AWS Glue de los datos en AWS Glue Studio. Aprenderá a realizar lo siguiente: 
+  El conjunto de reglas se crea mediante lenguaje de definición de calidad de datos (DQDL). 
+  Especificar las acciones de calidad de datos, los datos que se van a generar y la ubicación de la salida de los resultados de calidad de datos. 
+  Revisar los resultados de calidad de datos. 

 Para practicar con un ejemplo, consulte la entrada del blog [https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/](https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/). 

## Paso 1: agregar el nodo de transformación de evaluación de Calidad de datos al trabajo visual
<a name="tutorial-data-quality-step1"></a>

En este paso, agrega el nodo de evaluación de Calidad de datos al editor de trabajos visuales. 

**Para agregar el nodo de calidad de datos**

1.  En la consola AWS Glue Studio, seleccione **Visual con un origen y un destino** en la sección **Crear trabajo** y, luego, seleccione **Crear**. 

1.  Elija un nodo al que desee aplicar la transformación de calidad de los datos. Normalmente será un nodo de transformación o un origen de datos. 

1.  Abra el panel de recursos de la izquierda mediante la selección del icono “\$1”. También puede escribir **calidad de los datos** en la barra de búsqueda y, luego, elegir **Evaluar la calidad de los datos** en los resultados de la búsqueda. 

1.  El editor de trabajos visual mostrará el nodo de transformación **Evaluar la calidad de los datos** ramificándose a partir del nodo que seleccionó. En la parte derecha de la consola, la pestaña **Transform** (Transformación) se abre automáticamente. Si necesita cambiar el nodo principal, seleccione la pestaña **Propiedades del nodo** y, luego, elija el nodo principal en el menú desplegable. 

    Al elegir un nuevo nodo principal, se establece una nueva conexión entre el nodo principal y el nodo **Evaluate Data Quality** (Evaluar la calidad de los datos). Elimine los nodos principales no deseados. Solo se puede conectar un nodo principal a un nodo **Evaluate Data Quality** (Evaluar la calidad de los datos). 

1.  La transformación de evaluación de la calidad de los datos admite varias fuentes, por lo que puede validar las reglas de calidad de los datos en varios conjuntos de datos. Entre las reglas que admiten varios conjuntos de datos se incluyen ReferentialIntegrity, DatasetMatch, SchemaMatch, RowCountMatch y AggregateMatch. 

   Al agregar varias entradas a la transformación de evaluación de la calidad de los datos, debe seleccionar la entrada “principal”. La entrada principal es el conjunto de datos para el que desea validar la calidad de los datos. Todos los demás nodos o entradas se tratan como referencias. 

   Puede utilizar la transformación de evaluación de la calidad de los datos para identificar registros específicos que no superaron las comprobaciones de calidad de los datos. Recomendamos que elija el conjunto de datos principal, ya que las nuevas columnas que indican los registros incorrectos se agregan al conjunto de datos principal. 

1.  Puede especificar alias para los orígenes de datos de entrada. Los alias proporcionan otra forma de hacer referencia al origen de entrada cuando se utiliza la regla de ReferentialIntegrity. Ya que solo se puede designar un origen de datos como fuente principal, cada origen de datos adicional que agregue necesitará un alias. 

   En el siguiente ejemplo, la regla ReferentialIntegrity especifica el origen de datos de entrada por el nombre del alias y realiza una comparación uno a uno con el origen de datos principal. 

   ```
   Rules = [
   	ReferentialIntegrity “Aliasname.name” = 1
   ]
   ```

## Paso 2: crear una regla con DQDL
<a name="tutorial-data-quality-step2"></a>

En este paso, va a crear una regla con DQDL. Para este tutorial, creará una sola regla con el tipo de regla **Integridad**. Este tipo de regla comprueba el porcentaje de valores completos (no nulos) de una columna con respecto a una expresión determinada. Para obtener más información sobre cómo usar DQDL, consulte [DQDL](https://docs.aws.amazon.com/glue/latest/dg/dqdl.html). 

1.  En la pestaña **Transformación**, haga clic en el botón de **inserción** para agregar un **tipo de regla**. De esta forma, se agrega el tipo de regla al editor de reglas, donde puede ingresar los parámetros de la regla. 
**nota**  
 Al editar las reglas, asegúrese de que estén entre corchetes y separadas por comas. Por ejemplo, una expresión de regla completa tendrá el siguiente aspecto:   

   ```
   Rules= [
       Completeness "year">0.8, Completeness "month">0.8
   ]
   ```
 En este ejemplo se especifica el parámetro de integridad de las columnas denominadas “año” y “mes”. Estas columnas deben estar “completas” en más del 80 % o tener datos en más del 80 % de las instancias de cada columna correspondiente para que la regla se apruebe. 

    En este ejemplo, busque e inserte el tipo de regla **Completeness** (Integridad). De esta forma, se agregará el tipo de regla al editor de reglas. Este tipo de regla tiene la siguiente sintaxis: `Completeness <COL_NAME> <EXPRESSION>`. 

   La mayoría de los tipos de reglas requieren que proporcione una expresión como parámetro para crear una respuesta booleana. Para obtener más información sobre las expresiones de DQDL admitidas, consulte [Expresiones de DQDL](https://docs.aws.amazon.com/glue/latest/dg/dqdl.html#dqdl-syntax). A continuación, agregará el nombre de la columna. 

1.  En el generador de reglas de DQDL, haga clic en la pestaña **Esquema**. Utilice la barra de búsqueda para localizar el nombre de la columna en el esquema de entrada. El esquema de entrada muestra el nombre de la columna y el tipo de datos. 

1.  En el editor de reglas, haga clic a la derecha del tipo de regla para insertar el cursor en el lugar en el que se insertará la columna. También puede escribir el nombre de la columna en la regla. 

    Por ejemplo, en la lista de columnas de la lista del esquema de entrada, haga clic en el botón de **inserción** situado junto a la columna (en este ejemplo, **year**). De esta forma, se agregará la columna a la regla. 

1.  A continuación, en el editor de reglas, agregue una expresión para evaluar la regla. Dado que el tipo de regla **Integridad** compara el porcentaje de valores completos (no nulos) de una columna con una expresión determinada, ingrese una expresión como `> 0.8`. Esta regla comprobará la columna si tiene más del 80 % de valores completos (no nulos). 

## Paso 3: configurar las acciones y la salida de Calidad de datos
<a name="tutorial-data-quality-step3"></a>

 Tras crear las reglas de calidad de los datos, puede seleccionar opciones adicionales para especificar la salida del nodo de calidad de datos. 

1.  En **Data quality transform output** (Salida de la transformación de calidad de datos), elija una de las siguientes opciones: 
   +  **Datos originales**: elija generar los datos de entrada originales. Al elegir esta opción, se agrega un nuevo nodo secundario, “rowLevelOutcomes”, al trabajo. El esquema coincide con el esquema del conjunto de datos principal que se pasó como entrada a la transformación. Esta opción es útil si solo quieres pasar los datos y fallar en el trabajo cuando se producen problemas de calidad. 

     Otro caso de uso es cuando se desean detectar registros defectuosos que no superaron las comprobaciones de calidad de los datos. Para detectar registros incorrectos, elija la opción **Agregar nuevas columnas para indicar errores en la calidad de los datos**. Esta acción agrega cuatro columnas nuevas al esquema de la transformación “rowLevelOutcomes”. 
     +  **DataQualityRulesPass** (Matriz de cadenas): proporciona una serie de reglas que han superado las comprobaciones de calidad de los datos. 
     +  **DataQualityRulesFail** (Matriz de cadenas): proporciona una serie de reglas que no superaron las comprobaciones de calidad de los datos. 
     +  **DataQualityRulesSkip** (Matriz de cadenas): proporciona una serie de reglas que se omitieron. Las siguientes reglas no pueden identificar los registros de errores, ya que se aplican a nivel de conjunto de datos. 
       +  AggregateMatch 
       +  ColumnCount 
       +  ColumnExists 
       +  ColumnNamesMatchPattern 
       +  CustomSql 
       +  RowCount 
       +  RowCountMatch 
       +  StandardDeviation 
       +  Media 
       +  ColumnCorrelation 
     +  **DataQualityEvaluationResult**: proporciona el estado “Aprobado” o “Fallido” a nivel de fila. Tenga en cuenta que los resultados generales pueden ser FALLA, pero es posible que se apruebe un registro determinado. Por ejemplo, es posible que la regla RowCount haya fallado, pero es posible que todas las demás reglas se hayan aplicado correctamente. En esos casos, el estado de este campo es “Aprobado”. 

1.  **Resultados de calidad de datos**: elija generar las reglas configuradas y el estado correspondiente que indique que han aprobado o suspendido. Esta opción es útil para escribir los resultados en Amazon S3 u otras bases de datos. 

1. **Configuración de la salida de calidad de datos** (Opcional): elija la **Configuración de la salida de calidad de datos** para mostrar el campo **Ubicación del resultado de calidad de datos**. Luego, haga clic en **Explorar** para buscar una ubicación de Amazon S3 y establecerla como destino de la salida de la calidad de los datos. 

## Paso 4. Configurar acciones de calidad de datos
<a name="tutorial-data-quality-step4"></a>

 Las acciones permiten publicar métricas en CloudWatch o detener trabajos en función de criterios específicos. Las acciones solo están disponibles después de crear una regla. Al elegir esta opción, también se publican las mismas métricas en Amazon EventBridge. Puedes usar estas opciones para [crear alertas para las notificaciones](https://docs.aws.amazon.com/glue/latest/dg/data-quality-alerts.html). 
+  **En caso de error en un conjunto de reglas**: puede elegir qué hacer si un conjunto de reglas falla mientras se ejecuta el trabajo. Si desea que el trabajo no se apruebe si la calidad de los datos no es buena, elija cuándo no debe aprobarse el trabajo mediante la selección de una de las siguientes opciones. De forma predeterminada, esta acción no está seleccionada y el trabajo finalizará su ejecución incluso si las reglas de calidad de los datos no aprueban. 
  +  **Ninguno**: si selecciona **Ninguno** (opción predeterminada), el trabajo no se aprobará y seguirá ejecutándose a pesar de los errores del conjunto de reglas. 
  +  **Error en el trabajo después de cargar los datos en el destino**: se produce un error en el trabajo y no se guarda ningún dato. Para guardar los resultados, elija una ubicación de Amazon S3 en la que se guarden los resultados de calidad de los datos. 
  +  **Trabajo erróneo sin cargar los datos de destino**: esta opción anula el trabajo inmediatamente cuando se produce un error en la calidad de los datos. No carga ningún destino de datos, incluidos los resultados de la transformación de la calidad de los datos. 

## Paso 5: ver resultados de calidad de datos
<a name="tutorial-data-quality-step5"></a>

 Después de ejecutar el trabajo, elija la pestaña **Calidad de los datos** para ver los resultados de calidad de los datos. 

1.  Para cada trabajo ejecutado, consulte los resultados de Calidad de datos. Cada nodo muestra un estado de calidad de datos y detalles del estado. Haga clic en un nodo para ver todas las reglas y el estado de cada una de ellas. 

1.  Haga clic en **Descargar resultados** para descargar un archivo CSV que contenga información sobre la ejecución del trabajo y los resultados de calidad de datos. 

1.  Si ha ejecutado más de un trabajo con resultados de calidad de los datos, puede filtrar los resultados por intervalo de fechas y horas. Haga clic en *Filtrar por intervalo de fechas y horas* para expandir la ventana de filtros. 

1.  Elija un intervalo relativo o un intervalo absoluto. En el caso de los intervalos absolutos, utilice el calendario para seleccionar una fecha e ingrese valores para la hora de inicio y la hora de finalización. Cuando haya finalizado, elija **Aplicar cambios**. 

## Calidad de datos automática
<a name="automatic-data-quality"></a>

 Al crear un trabajo de ETL de AWS Glue con Amazon S3 como destino, ETL de AWS Glue activa automáticamente una regla de calidad de datos que comprueba si los datos que se están cargando tienen al menos una columna. Esta regla está diseñada para garantizar que los datos que cargue no estén vacíos ni dañados. Sin embargo, si esta regla devuelve un error, el trabajo no dejará de realizarse; en su lugar, notará una reducción en la puntuación de calidad de los datos. Además, la detección de anomalías está habilitada de forma predeterminada, por lo que puede supervisar el número de columnas de los datos. Si hay alguna variación o elemento anómalo en el recuento de columnas, ETL de AWS Glue le informará sobre estas anomalías. Esta característica le permite identificar posibles problemas con los datos y a tomar las medidas adecuadas. Para ver la regla de calidad de los datos y su configuración, puede hacer clic en el destino de Amazon S3 en su trabajo de ETL de AWS Glue. Se mostrará la configuración de la regla, tal como se muestra en la captura de pantalla que puede ver aquí. 

![\[La captura de pantalla muestra las opciones de calidad de datos automáticas disponibles para su selección.\]](http://docs.aws.amazon.com/es_es/glue/latest/dg/images/automatic-data-quality.png)


 Puede añadir reglas de calidad de datos adicionales seleccionando **Editar la configuración de calidad de los datos**. 

## Métrica general
<a name="data-quality-aggregated-metrics"></a>

Es posible que necesite métricas generales, como la cantidad de registros que se aprobaron, fallaron o se omitieron a nivel de regla o a nivel de conjunto de reglas, para crear paneles. Para obtener las métricas generales y las métricas de regla para cada regla, primero habilite las métricas generales; para ello, agregue la opción `publishAggregatedMetrics` a su función `EvaluateDataQuality`.

Las opciones posibles para `additional_options` `publishAggregatedMetrics` son `ENABLED` y `DISABLED`. Por ejemplo:

```
EvaluateDataQualityMultiframe = EvaluateDataQuality().process_rows(
    frame=medicare_dyf,
    ruleset=EvaluateDataQuality_ruleset,
    publishing_options={
        "dataQualityEvaluationContext": "EvaluateDataQualityMultiframe",
        "enableDataQualityCloudWatchMetrics": False,
        "enableDataQualityResultsPublishing": False,
    },
    additional_options={"publishAggregatedMetrics.status": "ENABLED"},
)
```

Si no se especifica, `publishAggregatedMetrics.status` está `DISABLED` de forma predeterminada y ahora se calcularán las métricas de regla y las métricas generales. Esta característica se admite actualmente en las sesiones interactivas de AWS Glue y en los trabajos de ETL de Glue. No se admite en las API de calidad de datos del catálogo de Glue.

### Recuperación de resultados de métricas generales
<a name="data-quality-aggregated-metrics-results"></a>

Cuando `additionalOptions` está `"publishAggregatedMetrics.status": "ENABLED"`, puede obtener los resultados en dos lugares:

1. Se devuelven `AggregatedMetrics` y `RuleMetrics` a través de `GetDataQualityResult()` cuando se proporciona `resultId` donde `AggregatedMetrics` y `RuleMetrics` incluyen:

   **Métrica general:**
   + Total de filas procesadas
   + Total de filas aprobadas
   + Total de filas fallidas
   + Total de reglas procesadas
   + Total de reglas aprobadas
   + Total de reglas fallidas  
![\[La captura de pantalla muestra la estructura de las métricas generales y las métricas de regla para las evaluaciones de calidad de datos de AWS Glue.\]](http://docs.aws.amazon.com/es_es/glue/latest/dg/images/data-quality-aggregated-metrics.png)

   Además, a nivel de regla, se proporcionan las siguientes métricas:

   **Métricas de regla:**
   + Filas aprobadas
   + Filas fallidas
   + Fila omitida
   + Total de filas procesadas

1. Se devuelve `AggregatedMetrics` como un marco de datos adicional y se amplía el marco de datos `RuleOutcomes` para incluir `RuleMetrics`.

### Despliegue de ejemplo
<a name="data-quality-aggregated-metrics-example"></a>

En el siguiente ejemplo se muestra cómo desplegar métricas generales en Scala:

```
// Script generated for node Evaluate Data Quality
val EvaluateDataQuality_node1741974822533_ruleset = """
  # Example rules: Completeness "colA" between 0.4 and 0.8, ColumnCount > 10
  Rules = [
      IsUnique "customer_identifier",
      RowCount > 10,
      Completeness "customer_identifier" > 0.5
  ]
"""

val EvaluateDataQuality_node1741974822533 = EvaluateDataQuality.processRows(frame=ChangeSchema_node1742850392012, ruleset=EvaluateDataQuality_node1741974822533_ruleset, publishingOptions=JsonOptions("""{"dataQualityEvaluationContext": "EvaluateDataQuality_node1741974822533", "enableDataQualityCloudWatchMetrics": "true", "enableDataQualityResultsPublishing": "true"}"""), additionalOptions=JsonOptions("""{"compositeRuleEvaluation.method":"ROW","observations.scope":"ALL","performanceTuning.caching":"CACHE_NOTHING", "publishAggregatedMetrics.status": "ENABLED"}"""))

println("--------------------------------ROW LEVEL OUTCOMES--------------------------------")
val rowLevelOutcomes_node = EvaluateDataQuality_node1741974822533("rowLevelOutcomes")

rowLevelOutcomes_node.show(10)

 println("--------------------------------RULE LEVEL OUTCOMES--------------------------------")

val ruleOutcomes_node = EvaluateDataQuality_node1741974822533("ruleOutcomes")

ruleOutcomes_node.show()

 println("--------------------------------AGGREGATED METRICS--------------------------------")

val aggregatedMetrics_node = EvaluateDataQuality_node1741974822533("aggregatedMetrics")

aggregatedMetrics_node.show()
```

### Resultados de ejemplo
<a name="data-quality-aggregated-metrics-sample-results"></a>

Los resultados se devuelven de la siguiente manera:

```
{
    "Rule": "IsUnique \"customer_identifier\"",
    "Outcome": "Passed",
    "FailureReason": null,
    "EvaluatedMetrics": {
        "Column.customer_identifier.Uniqueness": 1
    },
    "EvaluatedRule": "IsUnique \"customer_identifier\"",
    "PassedCount": 10,
    "FailedCount": 0,
    "SkippedCount": 0,
    "TotalCount": 10
}
{
    "Rule": "RowCount > 10",
    "Outcome": "Failed",
    "FailureReason": "Value: 10 does not meet the constraint requirement!",
    "EvaluatedMetrics": {
        "Dataset.*.RowCount": 10
    },
    "EvaluatedRule": "RowCount > 10",
    "PassedCount": 0,
    "FailedCount": 0,
    "SkippedCount": 10,
    "TotalCount": 10
}
{
    "Rule": "Completeness \"customer_identifier\" > 0.5",
    "Outcome": "Passed",
    "FailureReason": null,
    "EvaluatedMetrics": {
        "Column.customer_identifier.Completeness": 1
    },
    "EvaluatedRule": "Completeness \"customer_identifier\" > 0.5",
    "PassedCount": 10,
    "FailedCount": 0,
    "SkippedCount": 0,
    "TotalCount": 10
}
```

Las métricas generales son las siguientes:

```
{ "TotalRowsProcessed": 10, "PassedRows": 10, "FailedRows": 0, "TotalRulesProcessed": 3, "RulesPassed": 2, "RulesFailed": 1 }
```

# Generador de reglas de Calidad de datos
<a name="data-quality-rule-builder"></a>

Con el generador de reglas del lenguaje de definición de calidad de datos (DQDL), puede crear reglas de calidad de datos para evaluar sus datos. Para empezar, seleccione un tipo de regla y, a continuación, especifique los parámetros en el editor de reglas. El editor de reglas también muestra cualquier error y advertencia a medida que cree las reglas. 

 En la [Guía de DQDL](https://docs.aws.amazon.com/glue/latest/dg/dqdl.html), se proporciona documentación completa sobre cómo crear reglas mediante la sintaxis de DQDL, tipos de reglas integrados y ejemplos. 

## Nodo de evaluación de Calidad de datos
<a name="gs-data-quality-transform-expand-view"></a>

 Cuando trabaje con el nodo de transformación **Evaluar la calidad de los datos** y el generador de reglas de DQDL, puede expandir el espacio de trabajo. 
+  A fin de expandir la pestaña **Transformación** para que ocupe toda la pantalla, seleccione el icono de expansión situado en la esquina superior derecha del panel de detalles del nodo. 
+  Para expandir el editor de reglas de DQDL, seleccione el icono **<<** para expandir el editor de reglas y contraer las pestañas **Tipos de reglas** y **Esquema**.   
![\[La captura de pantalla muestra un diagrama de trabajo con el nodo de evaluación de Calidad de datos.\]](http://docs.aws.amazon.com/es_es/glue/latest/dg/images/data_quality_example.png)

## Componentes
<a name="gs-data-quality-rule-builder-components"></a>

 Hay 26 tipos de reglas integrados en AWS Glue Studio. Cada tipo de regla tiene una descripción y ejemplos de cómo se puede utilizar. 

### Tipos de reglas de calidad de datos
<a name="gs-data-quality-rule-types"></a>

 AWS Glue Studio proporciona tipos de reglas integrados para facilitar la creación de una regla. Para obtener más información sobre los tipos de reglas, consulte la [referencia sobre los tipos de reglas de DQDL](https://docs.aws.amazon.com/glue/latest/dg/dqdl.html#dqdl-rule-types). 

### Esquema
<a name="gs-data-quality-schema"></a>

 En la pestaña **Schema** (Esquema), se muestran los nombres de las columnas y el tipo de datos del nodo principal. Se muestran los esquemas de varios nodos. Puede ver el esquema de entrada, buscar por nombre de columna e insertar la columna en el editor de reglas. 

![\[En la captura de pantalla, se muestra el editor de reglas con una regla completa que utiliza el tipo de regla Integridad.\]](http://docs.aws.amazon.com/es_es/glue/latest/dg/images/data_quality_schema.png)


### Editor de reglas
<a name="gs-dataquality-rule-editor"></a>

 El editor de reglas es un editor de texto en el que puede escribir y editar reglas. Si selecciona un tipo de regla en el generador de reglas de DQDL, el tipo de regla se agrega al editor de reglas. A continuación, puede especificar parámetros, agregar y editar reglas según sea necesario, para lo que debe modificar el texto. AWS Glue Studio valida las reglas en el editor de reglas y muestra los errores y advertencias en caso de que haya alguna. 

 **Errores y advertencias** 

 Si una regla no sigue la sintaxis de las reglas de DQDL, el editor de reglas muestra varios indicadores visuales para señalar que hay un error: 
+  El editor de reglas muestra un icono de error en rojo en la línea que tiene el error. 
+  El editor de reglas muestra el número de errores junto al icono de error rojo. 
+  Al seleccionar la línea que tiene el error, se muestran descripciones del error y la ubicación (línea y columna) en la parte inferior del editor de reglas. 

![\[En la captura de pantalla se muestra el editor de reglas de DQDL con indicadores de error en la línea 1 y en la parte inferior del editor de reglas con el número de errores. Debajo aparece la descripción del error.\]](http://docs.aws.amazon.com/es_es/glue/latest/dg/images/data_quality_rule_editor_error.png)


## 
<a name="gs-data-quality-settings"></a>

 **Acciones de calidad de datos** 

 De forma predeterminada, esta acción no está seleccionada y el trabajo finalizará su ejecución incluso si las reglas de calidad de los datos no aprueban. 

 Elija entre las siguientes acciones. Puede utilizar acciones para publicar resultados en CloudWatch o detener trabajos en función de criterios específicos. Las acciones solo están disponibles después de crear una regla. 
+  **Publicar los resultados en CloudWatch**: cuando ejecute un trabajo, agregue los resultados a CloudWatch. 
+  **Producir un error en el trabajo cuando se produzca un error en la calidad de los datos**: si se produce un error en las reglas de calidad de los datos, también se producirá un error en el trabajo como resultado. 

 **Salida de la transformación de calidad de datos** 
+  **Datos originales**: elija generar los datos de entrada originales. Esta opción es ideal si desea detener el trabajo cuando se detecten problemas de calidad. 
+  **Métricas de calidad de datos**: elija generar las reglas configuradas y el estado correspondiente que indique que han aprobado o suspendido. Esta opción es útil si desea llevar a cabo una acción personalizada. 

 **Configuración de la salida de calidad de datos** 

 Para establecer la ubicación de los resultados de calidad de los datos, especifica la ubicación de Amazon S3 como destino de la salida de calidad de los datos. 

# Configuración de la detección de anomalías en los trabajos de ETL de AWS Glue
<a name="data-quality-configuring-anomaly-detection-etl-jobs"></a>

 Para empezar con la detección de anomalías en AWS Glue Studio, abra un trabajo de AWS Glue Studio y haga clic en la **transformación Evaluar la calidad de los datos**. 

 Si habilita esta característica, Calidad de datos de AWS Glue analizará sus datos a lo largo del tiempo para detectar anomalías. Proporciona valiosas estadísticas y observaciones sobre sus datos, lo que le permite tomar medidas ante cualquier anomalía identificada. 

 Consulte la documentación de [Detección de anomalías](data-quality-anomaly-detection.md) para comprender el funcionamiento interno de esta característica. 

## Cómo habilitar la detección de anomalías
<a name="data-quality-enabling-anomaly-detection"></a>

**Para habilitar la detección de anomalías en AWS Glue Studio:**

1.  Elija el nodo de **calidad de datos** de su trabajo y, a continuación, elija la pestaña **Detección de anomalías**. Habilite la opción **Activar la detección de anomalías**.   
![\[La captura de pantalla muestra la opción “Activar la detección de anomalías” activada. Esta opción se puede activar o desactivar.\]](http://docs.aws.amazon.com/es_es/glue/latest/dg/images/data-quality-enable-anomaly-detection.png)

1.  Defina los datos que se van a monitorizar en busca de anomalías seleccionando **Añadir analizador**. Hay dos campos que puede rellenar: Estadísticas y Datos. 
   +  Las **estadísticas** incluyen información sobre la forma de los datos y otras propiedades. Puede elegir una o varias estadísticas a la vez, o elegir **Todas las estadísticas**. Las estadísticas incluyen: integridad, unicidad, media, suma, desviación estándar, entropía, distinctValuesCount, uniqueValueRatio y más. Consulte la documentación [Analizadores](dqdl.md#dqdl-analyzers) para obtener más información. 
   +  Los **datos** incluyen las columnas del conjunto de datos. Puede elegir todas las columnas o columnas individuales.   
![\[La captura de pantalla muestra los campos para Estadísticas y Datos. Puede elegir qué estadísticas quiere aplicar a su conjunto de datos y en qué columnas.\]](http://docs.aws.amazon.com/es_es/glue/latest/dg/images/data-quality-add-analyzer.png)

1.  Elija **Agregar alcance de detección de anomalías** para guardar los cambios. Cuando haya agregado los analizadores, podrá verlos en la sección **Alcance de la detección de anomalías**. 

    También puede utilizar el menú **Acciones** para editar los analizadores, o elegir la pestaña del **Editor de conjuntos de reglas **y editar el analizador directamente en el bloc de notas del editor de conjuntos de reglas. Verá los analizadores que guardó debajo de las reglas que creó. 

   ```
   Rules = [
   
   ]
   
   Analyzers = [
       Completeness “id”
   ]
   ```

 Una vez configurados el conjunto de reglas y los analizadores actualizados, Calidad de datos de AWS monitorea continuamente los flujos de datos entrantes. Puede detectar posibles anomalías mediante alertas o interrupciones del trabajo, según la configuración. Este monitoreo proactivo ayuda a garantizar la calidad y la integridad de los datos en todas las canalizaciones de datos. 

 En la siguiente sección, aprenderá a monitorear de forma eficaz las anomalías identificadas por el sistema. También aprenderá a ver y analizar las estadísticas de datos recopiladas por Calidad de datos de AWS Glue. Además, aprenderá cómo enviar comentarios al modelo de machine learning que alimenta la característica de Detección de anomalías. Este circuito de comentarios es fundamental para mejorar la precisión del modelo y garantizar que pueda detectar eficazmente las anomalías que se ajustan a los requisitos empresariales y los patrones de datos específicos de su empresa. 

# Visualización de puntuaciones de calidad de datos y anomalías
<a name="data-quality-viewing-scores-and-anomalies"></a>

 En esta sección, analizaremos el panel de calidad de los datos y las diferentes funcionalidades que ofrece. 

## Visualice y comprenda las métricas y tendencias generales de calidad de datos
<a name="data-quality-visualize-metrics-and-trends"></a>

 Una vez que complete su trabajo, elija la pestaña **Calidad de datos** para ver las puntuaciones y las anomalías de la calidad de los datos. 

![\[En la captura de pantalla se muestra la pestaña de Calidad de datos seleccionada y las puntuaciones y métricas.\]](http://docs.aws.amazon.com/es_es/glue/latest/dg/images/data-quality-visualize-data-quality-metrics.png)


 Los siguientes componentes de la pestaña Calidad de datos proporcionan información útil. 

1.  Seleccione la pestaña **Calidad de datos** para ver las métricas de calidad de los datos. 

1.  Seleccione un ID de ejecución de trabajo específico para ver la puntuación de calidad de los datos. 

1.  En este panel se muestran tres datos importantes. Puede elegir cada uno de ellos para ir a tablas específicas y ver anomalías, estadísticas de datos o reglas. 
   +  Puntuación de calidad de los datos cuando se configuran reglas. 
   +  Cantidad de estadísticas recopiladas por Reglas y Analizadores. 
   +  La cantidad total de anomalías detectadas. 

1.  En este gráfico de tendencias se muestra la evolución de la calidad de los datos a lo largo del tiempo. Puede pasar el ratón sobre la tendencia e ir a un momento específico en el que las puntuaciones de calidad de los datos hayan empeorado. 

1.  Las tendencias de las anomalías a lo largo del tiempo le mostrarán la cantidad de anomalías detectadas a lo largo del tiempo. 

1.  Pestañas: 
   +  La pestaña Reglas es la pestaña predeterminada en la que se muestra una lista de todas las reglas y los estados. Las reglas evaluadas son útiles en el caso de las reglas dinámicas para ver el valor real con el que se evaluó la regla. 
   +  En la pestaña Estadísticas se muestran todas las estadísticas, lo que le permite ver las métricas y las tendencias a lo largo del tiempo. 
   +  En la pestaña Anomalías se muestra la lista de anomalías detectadas. 

## Visualización de anomalías y entrenamiento del algoritmo de detección de anomalías
<a name="data-quality-visualize-anomalies"></a>

![\[En la captura de pantalla se muestra la pestaña Anomalías con las métricas.\]](http://docs.aws.amazon.com/es_es/glue/latest/dg/images/data-quality-visualize-anomaly-detection.png)


 Indicaciones para la imagen de arriba: 

1.  Cuando se detecten anomalías, haga clic en la anomalía o seleccione la pestaña Anomalías 

1.  Calidad de datos de AWS Glue proporciona una explicación detallada de la anomalía, el valor real y el rango previsto 

1.  Calidad de datos de AWS Glue muestra una línea de tendencia. Tiene el valor real, una tendencia derivada basada en los valores reales (línea roja), el límite superior y el límite inferior 

1.  Calidad de datos de AWS Glue recomienda reglas de calidad de datos que se pueden utilizar para capturar los patrones para el futuro. Puede copiar todas las reglas que se le recomienden y aplicarlas a su nodo de calidad de datos para capturar estos patrones de forma eficaz. 

1.  Puede proporcionar entradas al modelo de machine learning (ML) para excluir valores anómalos y garantizar que las ejecuciones futuras detecten las anomalías con precisión. Si no excluye las anomalías de forma explícita, Calidad de datos de AWS Glue las considerará automáticamente como parte del modelo para futuras predicciones. Es importante tener en cuenta que solo la última ejecución reflejará las entradas del modelo que proporcione. Por ejemplo, si retrocedió y excluyó los puntos anómalos de algunas ejecuciones anteriores, el modelo no reflejará esos cambios a menos que visualice y actualice las entradas del modelo en la última ejecución. El modelo seguirá utilizando las entradas proporcionadas anteriormente hasta que realice los ajustes necesarios en la ejecución más reciente. Mediante la gestión activa de la exclusión de valores anómalos, puede ajustar la comprensión del modelo de ML sobre lo que constituye una anomalía para adaptarla a sus requisitos y patrones de datos específicos, lo que permite detectar las anomalías con más precisión a lo largo del tiempo. 

## Visualización de las estadísticas de datos a lo largo del tiempo y suministro de entradas de entrenamiento
<a name="data-quality-visualize-data-statistics-over-time"></a>

 En algunas ocasiones, puede ver las estadísticas de datos o los perfiles de datos para saber cómo progresan a lo largo del tiempo. Para ello, elija **Estadísticas** o abra la pestaña **Estadísticas**. Podrá ver las últimas estadísticas de datos recopiladas por Calidad de datos de AWS Glue. 

![\[En la captura de pantalla se muestra la pestaña Estadísticas con estadísticas de conjuntos de datos y columnas.\]](http://docs.aws.amazon.com/es_es/glue/latest/dg/images/data-quality-visualize-data-statistics-over-time.png)


 Al hacer clic en **Ver tendencias**, se muestra el progreso de cada una de las estadísticas a lo largo del tiempo. 

![\[En la captura de pantalla se muestra la pestaña Estadísticas con estadísticas de conjuntos de datos y columnas.\]](http://docs.aws.amazon.com/es_es/glue/latest/dg/images/data-quality-view-trends-over-time.png)


1.  Puede seleccionar la estadística de una columna específica 

1.  Puede ver cómo progresan las tendencias 

1.  Puede seleccionar valores anómalos y optar por excluirlos o incluirlos. Al proporcionar esta información, el algoritmo excluirá o incluirá los puntos de datos anómalos identificados y volverá a entrenar el modelo. Este proceso de reentrenamiento garantiza una detección precisa de las anomalías en el futuro, ya que el modelo aprende a partir de los comentarios que usted proporciona acerca de qué valores deben considerarse anómalos o no. 

    Gracias a este ciclo de comentarios, podrá refinar la comprensión del algoritmo sobre lo que constituye una anomalía para adaptarla a sus patrones de datos y requisitos empresariales específicos. Al excluir valores que no deberían marcarse como anomalías o incluir valores que no se hayan detectado, el modelo rediseñado podrá diferenciar mejor entre los puntos de datos esperados y los verdaderamente anómalos. 