

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Sesgo de los datos previo al entrenamiento
<a name="clarify-detect-data-bias"></a>

El sesgo algorítmico, la discriminación, la equidad y temas relacionados se han estudiado en disciplinas como el derecho, la política y la informática. Un sistema de computación puede considerarse sesgado si discrimina a determinadas personas o grupos de personas. Los modelos de machine learning que impulsan estas aplicaciones aprenden de los datos, y estos datos podrían reflejar disparidades u otros sesgos inherentes. Por ejemplo, es posible que los datos de entrenamiento no representen lo suficiente a diversos grupos demográficos o podrían contener etiquetas sesgadas. Los modelos de machine learning basados en conjuntos de datos que presentan estos sesgos podrían terminar aprendiendo esos sesgos y luego reproducirlos o incluso exacerbarlos en sus predicciones. El campo de machine learning brinda la oportunidad de abordar los sesgos al detectarlos y medirlos en cada etapa del ciclo de vida de ML. Puede usar Amazon SageMaker Clarify para determinar si los datos utilizados para los modelos de entrenamiento codifican algún sesgo.

El sesgo se puede medir antes y después del entrenamiento, y se puede supervisar al compararlo con las referencias después de implementar los modelos en los puntos de conexión para realizar inferencias. Las métricas del sesgo previas al entrenamiento están diseñadas para detectar y medir el sesgo en los datos sin procesar antes de usarlos para entrenar un modelo. Las métricas utilizadas son independientes del modelo porque no dependen de los resultados de ningún modelo. Sin embargo, hay diferentes conceptos de equidad que requieren distintas medidas de sesgo. Amazon SageMaker Clarify proporciona métricas de sesgo para cuantificar varios criterios de equidad.

Para obtener información adicional sobre las métricas de sesgo, consulte [Descubra cómo Amazon SageMaker Clarify ayuda a detectar medidas de sesgo](https://aws.amazon.com/blogs/machine-learning/learn-how-amazon-sagemaker-clarify-helps-detect-bias) [y equidad para Machine Learning in Finance](https://pages.awscloud.com/rs/112-TZM-766/images/Fairness.Measures.for.Machine.Learning.in.Finance.pdf).

## Amazon SageMaker aclara los términos de sesgo y equidad
<a name="clarify-bias-and-fairness-terms"></a>

SageMaker Clarify utiliza la siguiente terminología para hablar sobre los prejuicios y la imparcialidad.

**Característica**  
Propiedad o característica medible individual de un fenómeno que se observa, contenida en una columna para datos tabulares.

**Etiqueta**  
Característica que es el objetivo para entrenar un modelo de machine learning. Se conoce como *etiqueta observada* o *resultado observado*.

**Etiqueta predicha**  
La etiqueta según la predice el modelo. También se conoce como *resultado predicho*.

**Muestra**  
Entidad observada que se describe mediante los valores de la característica y el valor de la etiqueta, incluidos en una fila para datos tabulares.

**Conjunto de datos**  
Una colección de muestras.

**Sesgo**  
Un desequilibrio en los datos de entrenamiento o en el comportamiento de predicción del modelo en diferentes grupos, como la edad o el nivel de ingresos. Los sesgos pueden deberse a los datos o el algoritmo utilizados para entrenar el modelo. Por ejemplo, si un modelo de ML se basa principalmente en datos de personas de mediana edad, es posible que sea menos preciso al hacer predicciones que involucren a personas jóvenes y de edad avanzada.

**Métrica de sesgo**  
Función que devuelve valores numéricos que indican el nivel de un sesgo potencial.

**Informe de sesgo**  
Una colección de métricas de sesgo para un conjunto de datos determinado o una combinación de un conjunto de datos y un modelo.

**Valores de etiqueta positivos**  
Valores de etiqueta que son favorables a un grupo demográfico observado en una muestra. En otras palabras, designa que una muestra tiene un *resultado positivo*. 

**Valores de etiqueta negativos**  
Valores de etiqueta que son desfavorables a un grupo demográfico observado en una muestra. En otras palabras, designa que una muestra tiene un *resultado negativo*. 

**Variable de grupo**  
Columna categórica del conjunto de datos que se utiliza para formar subgrupos para la medición de la disparidad demográfica condicional (CDD). Solo se requiere para esta métrica en lo que respecta a la paradoja de Simpson.

**Faceta**  
Columna o característica que contiene los atributos con respecto a los cuales se mide el sesgo.

**Valor de faceta**  
Los valores de la característica de los atributos que el sesgo puede favorecer o desfavorecer.

**Probabilidad predicha**  
La probabilidad, según lo previsto por el modelo, de que una muestra tenga un resultado positivo o negativo.

## Cuadernos de ejemplo
<a name="clarify-data-bias-sample-notebooks"></a>

Amazon SageMaker Clarify proporciona el siguiente ejemplo de cuaderno para la detección de sesgos:
+ [Explicabilidad y detección de sesgos con Amazon SageMaker Clarify](https://sagemaker-examples.readthedocs.io/en/latest/sagemaker-clarify/fairness_and_explainability/fairness_and_explainability.html): utilice SageMaker Clarify para crear un trabajo de procesamiento para detectar sesgos y explicar las predicciones del modelo con atribuciones de características.

Se ha verificado que este portátil solo funciona en Amazon SageMaker Studio. Si necesitas instrucciones sobre cómo abrir un bloc de notas en Amazon SageMaker Studio, consulta[Crear o abrir un bloc de notas Amazon SageMaker Studio Classic](notebooks-create-open.md). Si se le pide que elija un kernel, elija **Python 3 (ciencia de datos)**. 

**Topics**
+ [Amazon SageMaker aclara los términos de sesgo y equidad](#clarify-bias-and-fairness-terms)
+ [Cuadernos de ejemplo](#clarify-data-bias-sample-notebooks)
+ [Métricas de sesgo previas al entrenamiento](clarify-measure-data-bias.md)
+ [Genere informes en Studio para detectar sesgos en los datos previos al entrenamiento SageMaker](clarify-data-bias-reports-ui.md)

# Métricas de sesgo previas al entrenamiento
<a name="clarify-measure-data-bias"></a>

La medición del sesgo en los modelos de ML es un primer paso para mitigarlo. Cada medida del sesgo corresponde a una noción diferente de equidad. Incluso la consideración de conceptos sencillos de equidad puede conducir a muchas medidas diferentes aplicables en diversos contextos. Por ejemplo, consideremos la equidad con respecto a la edad y, para simplificar, consideremos que los dos grupos demográficos pertinentes son los de mediana edad y el resto de los grupos de edad, denominados *facetas*. En el caso de un modelo de préstamos basado en ML, es posible que deseemos que los préstamos para pequeñas empresas se emitan a un número igual de personas de ambos grupos demográficos. O bien, al procesar las solicitudes de empleo, es posible que deseemos que se contrate al mismo número de miembros de cada grupo demográfico. Sin embargo, este enfoque podría dar por supuesto que un número igual de candidatos de ambos grupos de edad solicitan estos puestos, por lo que es posible que deseemos condicionar el número de candidatos. Además, quizá debamos considerar no si se presenta el mismo número de candidatos, sino si tenemos el mismo número de candidatos cualificados. O bien, podemos considerar que la equidad es una tasa de aceptación igual de candidatos cualificados de ambos grupos de edad, o una tasa de rechazo igual de candidatos, o ambas. Puede utilizar conjuntos de datos con diferentes proporciones de datos sobre los atributos de interés. Este desequilibrio puede desvirtuar la medida de sesgo que elija. Los modelos pueden ser más precisos a la hora de clasificar una faceta que otra. Por lo tanto, debe elegir métricas de sesgo que sean conceptualmente apropiadas para la aplicación y la situación.

Usamos la siguiente notación para analizar las métricas de sesgo. El modelo conceptual que se describe aquí es para la clasificación binaria, donde los eventos se etiquetan como si tuvieran solo dos resultados posibles en su espacio muestral, denominados positivos (con un valor 1) y negativos (con un valor 0). Por lo general, este marco se puede extender a la clasificación multicategoría de forma sencilla o a casos que implican resultados valorados de forma continua, cuando es necesario. En el caso de la clasificación binaria, se asignan etiquetas positivas y negativas a los resultados registrados en un conjunto de datos sin procesar para una faceta favorecida *a* y para una faceta desfavorecida *d*. Estas etiquetas y se denominan *etiquetas observadas* para distinguirlas de las *etiquetas predichas* y' que asignan un modelo de machine learning durante las etapas de entrenamiento o inferencia del ciclo de vida de ML. Estas etiquetas se utilizan para definir las distribuciones de probabilidad Pa(y) y Pd(y) para sus respectivos resultados de faceta. 
+ etiquetas: 
  + y representa las n etiquetas observadas para los resultados de los eventos en un conjunto de datos de entrenamiento.
  + y' representa las etiquetas predichas para las n etiquetas observadas en el conjunto de datos por un modelo entrenado.
+ resultados:
  + Un resultado positivo (con un valor de 1) para una muestra, como la aceptación de una solicitud.
    + n(1) es el número de etiquetas observadas para los resultados positivos (aceptaciones).
    + n'(1) es el número de etiquetas predichas para los resultados positivos (aceptaciones).
  + Un resultado negativo (con un valor de 0) para una muestra, como el rechazo de una solicitud.
    + n(0) es el número de etiquetas observadas para los resultados negativos (rechazos).
    + n'(0) es el número de etiquetas predichas para los resultados negativos (rechazos).
+ valores de faceta:
  + faceta *a*: el valor de la característica que define un grupo demográfico al que favorece el sesgo.
    + na es el número de etiquetas observadas para el valor de faceta favorecida: na = na(1) \$1 na(0) la suma de las etiquetas observadas positivas y negativas para el valor de faceta *a*.
    + n'a es el número de etiquetas predichas para el valor de faceta favorecida: n'a = n'a(1) \$1 n'a(0) la suma de las etiquetas de resultados predichos positivos y negativos para el valor de faceta *a*. Observe que n'a = na.
  + faceta *d*: el valor de la característica que define un grupo demográfico al que desfavorece el sesgo.
    + nd es el número de etiquetas observadas para el valor de faceta desfavorecida: nd = nd(1) \$1 nd(0) la suma de las etiquetas observadas positivas y negativas para el valor de faceta *d*. 
    + n'd es el número de etiquetas predichas para el valor de faceta desfavorecida: n'd = n'd(1) \$1 n'd(0) la suma de las etiquetas de resultados predichos positivos y negativos para el valor de faceta *d*. Observe que n'd = nd.
+ distribuciones de probabilidad para los resultados de los datos de facetas etiquetadas:
  + Pa(y) es la distribución de probabilidad de las etiquetas observadas para la faceta *a*. En el caso de los datos con etiquetas binarias, esta distribución viene dada por la relación entre el número de muestras de la faceta *a* etiquetadas con resultados positivos y el número total, Pa(y1) = na(1)/ na, y la relación entre el número de muestras con resultados negativos y el número total, Pa(y0) = na(0)/ na. 
  + Pd(y) es la distribución de probabilidad de las etiquetas observadas para la faceta *d*. En el caso de los datos con etiquetas binarias, esta distribución viene dada por la relación entre el número de muestras de la faceta *d* etiquetadas con resultados positivos y el número total, Pd(y1) = nd(1)/ nd, y la relación entre el número de muestras con resultados negativos y el número total, Pd(y0) = nd(0)/ nd. 

Los modelos basados en datos sesgados por las disparidades demográficas podrían aprenderlas e incluso exacerbarlas. Para identificar el sesgo en los datos antes de gastar recursos en entrenar modelos sobre ellos, SageMaker Clarify proporciona métricas de sesgo de datos que puede calcular a partir de conjuntos de datos sin procesar antes de entrenarlos. Todas las métricas previas al entrenamiento son independientes del modelo porque no dependen de los resultados del modelo y, por lo tanto, son válidas para cualquier modelo. La primera métrica de sesgo examina el desequilibrio de las facetas, pero no los resultados. Determina en qué medida la cantidad de datos de entrenamiento es representativa en las diferentes facetas, según se desee para la aplicación. Las métricas de sesgo restantes comparan la distribución de las etiquetas de resultados de varias maneras para las facetas *a* y *d* de los datos. Las métricas que oscilan sobre valores negativos pueden detectar sesgos negativos. La siguiente tabla contiene una hoja de referencia para obtener una guía rápida y enlaces a las métricas de sesgo previas al entrenamiento.

Métricas de sesgo previas al entrenamiento


| Métrica de sesgo | Description (Descripción) | Pregunta de ejemplo | Interpretación de los valores de la métrica | 
| --- | --- | --- | --- | 
| [Desequilibrio de clases (CI)](clarify-bias-metric-class-imbalance.md) | Mide el desequilibrio en el número de miembros entre los distintos valores de faceta. |  ¿Podrían existir sesgos basados en la edad por no disponer de suficientes datos demográficos al margen de una faceta de mediana edad?   |  Rango normalizado: [-1,\$11] Interpretación:  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [Diferencia en las proporciones de las etiquetas (DPL)](clarify-data-bias-metric-true-label-imbalance.md) | Mide el desequilibrio de los resultados positivos entre los diferentes valores de las facetas. | ¿Podrían existir sesgos basados en la edad en las predicciones de ML debido al etiquetado sesgado de los valores de las facetas en los datos? |  Rango para etiquetas de facetas binarias y multicategoría normalizadas: [-1,\$11] Rango para etiquetas continuas: (-∞, \$1∞) Interpretación:  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [Divergencia de Kullback-Leibler (KL)](clarify-data-bias-metric-kl-divergence.md) | Mide en qué medida las distribuciones de resultados de las diferentes facetas divergen entrópicamente entre sí.  | ¿En qué medida son diferentes las distribuciones de los resultados de las solicitudes de préstamos para los distintos grupos demográficos? |  Rango para binario, multicategoría y continuo: [0, \$1∞) Interpretación:  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [Divergencia de Jensen-Shannon (JS)](clarify-data-bias-metric-jensen-shannon-divergence.md)  | Mide en qué medida las distribuciones de resultados de las diferentes facetas divergen entrópicamente entre sí.  | ¿En qué medida son diferentes las distribuciones de los resultados de las solicitudes de préstamos para los distintos grupos demográficos? |  Rango para binario, multicategoría y continuo: [0, \$1∞) Interpretación:  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [Norma Lp (LP)](clarify-data-bias-metric-lp-norm.md)  | Mide una diferencia en la norma p entre distintas distribuciones demográficas de los resultados asociados a distintas facetas de un conjunto de datos. | ¿En qué medida son diferentes las distribuciones de los resultados de las solicitudes de préstamos para los distintos grupos demográficos? |  Rango para binario, multicategoría y continuo: [0, \$1∞) Interpretación:  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [Distancia de variación total (TVD)](clarify-data-bias-metric-total-variation-distance.md)  | Mide la mitad de la diferencia de la norma L1 entre las distintas distribuciones demográficas de los resultados asociados a distintas facetas de un conjunto de datos. | ¿En qué medida son diferentes las distribuciones de los resultados de las solicitudes de préstamos para los distintos grupos demográficos? |  Rango para resultados binarios, multicategoría y continuos: [0, \$1∞) [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [Kolmogorov-Smirnov (KS)](clarify-data-bias-metric-kolmogorov-smirnov.md)  | Mide la máxima divergencia entre los resultados de las distribuciones para diferentes facetas de un conjunto de datos. | ¿Cuáles son los resultados de las solicitudes de ingreso a la universidad que manifiestan las mayores disparidades por grupo demográfico? | Rango de valores de KS para resultados binarios, multicategoría y continuos: [0,\$11][\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/clarify-measure-data-bias.html) | 
| [Disparidad demográfica condicional (CDD)](clarify-data-bias-metric-cddl.md)  | Mide la disparidad de resultados entre diferentes facetas en su conjunto, pero también por subgrupos. | ¿Tienen algunos grupos una mayor proporción de rechazos en los resultados de admisión a la universidad que su proporción de aceptaciones? |  Rango de CDD: [-1, \$11] [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 

Para obtener información adicional sobre las métricas de sesgo, consulte [Fairness Measures for Machine Learning in Finance](https://pages.awscloud.com/rs/112-TZM-766/images/Fairness.Measures.for.Machine.Learning.in.Finance.pdf).

**Topics**
+ [Desequilibrio de clases (CI)](clarify-bias-metric-class-imbalance.md)
+ [Diferencia en las proporciones de las etiquetas (DPL)](clarify-data-bias-metric-true-label-imbalance.md)
+ [Divergencia de Kullback-Leibler (KL)](clarify-data-bias-metric-kl-divergence.md)
+ [Divergencia de Jensen-Shannon (JS)](clarify-data-bias-metric-jensen-shannon-divergence.md)
+ [Norma Lp (LP)](clarify-data-bias-metric-lp-norm.md)
+ [Distancia de variación total (TVD)](clarify-data-bias-metric-total-variation-distance.md)
+ [Kolmogorov-Smirnov (KS)](clarify-data-bias-metric-kolmogorov-smirnov.md)
+ [Disparidad demográfica condicional (CDD)](clarify-data-bias-metric-cddl.md)

# Desequilibrio de clases (CI)
<a name="clarify-bias-metric-class-imbalance"></a>

El sesgo de desequilibrio de clases (CI) se produce cuando un valor de la faceta *d* tiene menos muestras de entrenamiento en comparación con otra faceta *a* del conjunto de datos. Esto se debe a que los modelos se ajustan preferentemente a las facetas más grandes en lugar de a las más pequeñas y, por lo tanto, pueden generar un mayor error de entrenamiento para la faceta *d*. Los modelos también corren un mayor riesgo de sobreajustar los conjuntos de datos más pequeños, lo que puede provocar un error de prueba mayor en la faceta *d*. Piense en el ejemplo en el que un modelo de machine learning se basa principalmente en datos de personas de mediana edad (faceta a), pero podría ser menos preciso cuando se hacen predicciones con personas jóvenes y de edad avanzada (faceta d).

La fórmula para medir el desequilibrio de las facetas (normalizado) es la siguiente:

        CI = (na - nd)/(na \$1 nd)

Donde na es el número de miembros de la faceta *a* y nd el número para la faceta *d*. Sus valores oscilan en el intervalo [-1, 1]. 
+ Los valores CI positivos indican que la faceta *a* tiene más muestras de entrenamiento en el conjunto de datos y un valor de 1 indica que los datos solo contienen miembros de la faceta *a*.
+  Los valores CI cercanos a cero indican una distribución más equitativa de los miembros entre las facetas y un valor cero indica una partición perfectamente igual entre las facetas y representa una distribución equilibrada de las muestras en los datos de entrenamiento.
+ Los valores CI negativos indican que la faceta *d* tiene más muestras de entrenamiento en el conjunto de datos y un valor de -1 indica que los datos solo contienen miembros de la faceta *d*.
+ Los valores CI cercanos a cualquiera de los extremos, -1 o 1, están muy desequilibrados y corren un riesgo considerable de generar predicciones sesgadas.

Si se detecta que existe un desequilibrio significativo entre las facetas, es posible que desee volver a equilibrar la muestra antes de proceder a entrenar los modelos con ella.

# Diferencia en las proporciones de las etiquetas (DPL)
<a name="clarify-data-bias-metric-true-label-imbalance"></a>

La diferencia en las proporciones de las etiquetas (DPL) compara la proporción de resultados observados con etiquetas positivas para la faceta *d* con la proporción de resultados observados con etiquetas positivas para la faceta *a* en un conjunto de datos de entrenamiento. Por ejemplo, podría usarse para comparar la proporción de personas de mediana edad (faceta *a*) y de otros grupos de edad (faceta *d*) a las que se aprueban préstamos financieros. Los modelos de machine learning intentan imitar las decisiones de los datos de entrenamiento lo más fielmente posible. Por lo tanto, es probable que un modelo de machine learning entrenado en un conjunto de datos con un DPL alto refleje el mismo desequilibrio en sus predicciones futuras.

La fórmula para la diferencia en las proporciones de las etiquetas es la siguiente:

        DPL = (qa - qd)

Donde:
+ qa = na(1)/na es la proporción de facetas *a* que tienen un valor de etiqueta observada de 1. Por ejemplo, la proporción de personas de mediana edad a las que se aprueban préstamos. Aquí na(1) representa el número de miembros de la faceta *a* que obtienen un resultado positivo y na es el número de miembros de la faceta *a*. 
+ qd = nd(1)/nd es la proporción de facetas *d* que tienen un valor de etiqueta observada de 1. Por ejemplo, la proporción de personas fuera del grupo demográfico de mediana edad a las que se aprueban préstamos. Aquí nd(1) representa el número de miembros de la faceta *d* que obtienen un resultado positivo y nd es el número de miembros de la faceta *d*. 

Si la DPL está lo suficientemente cerca de 0, decimos que se ha alcanzado la *paridad demográfica*.

En el caso de las etiquetas de facetas binarias y multicategoría, el rango de valores DPL oscila a lo largo del intervalo (-1, 1). En el caso de las etiquetas continuas, se establece un umbral para reducir las etiquetas a binarias. 
+ Los valores de la DPL positivos indican que la faceta *a* tiene una mayor proporción de resultados positivos en comparación con la faceta *d*.
+ Los valores de la DPL cercanos a cero indican una proporción más equitativa de resultados positivos entre las facetas y un valor de cero indica una paridad demográfica perfecta. 
+ Los valores de la DPL negativos indican que la faceta *d* tiene una mayor proporción de resultados positivos en comparación con la faceta *a*.

Que una magnitud alta de la DPL sea problemática o no varía de una situación a otra. En un caso problemático, una DPL de gran magnitud podría ser una señal de problemas subyacentes en los datos. Por ejemplo, un conjunto de datos con una DPL alta podría reflejar sesgos históricos o prejuicios contra grupos demográficos basados en la edad que no sería deseable que un modelo aprendiera.

# Divergencia de Kullback-Leibler (KL)
<a name="clarify-data-bias-metric-kl-divergence"></a>

La divergencia de Kullback-Leibler (KL) mide en qué medida la distribución de etiquetas observadas de la faceta *a*, Pa(y), diverge de la distribución de la faceta *d*, Pd(y). También se conoce como entropía relativa de Pa(y) con respecto a Pd(y) y cuantifica la cantidad de información que se pierde al pasar de Pa(y) a Pd(y).

La fórmula de la divergencia de Kullback-Leibler es la siguiente: 

        KL(Pa \$1\$1 Pd) = ∑yPa(y)\$1log[Pa(y)/Pd(y)]

Es la expectativa de la diferencia logarítmica entre las probabilidades Pa(y) y Pd(y), donde la expectativa se pondera con las probabilidades Pa(y). No se trata de una distancia real entre las distribuciones, ya que es asimétrica y no satisface la desigualdad triangular. La implementación usa logaritmos naturales, dando KL en unidades de nats. Si se utilizan diferentes bases logarítmicas, se obtienen resultados proporcionales pero en unidades diferentes. Por ejemplo, si se utiliza la base 2, se obtiene KL en unidades de bits.

Por ejemplo, supongamos que un grupo de solicitantes de préstamos tiene una tasa de aprobación del 30 % (faceta *d*) y que la tasa de aprobación de otros solicitantes (faceta *a*) es del 80 %. La fórmula de Kullback-Leibler proporciona la divergencia de distribución de etiquetas entre la faceta *a* y la faceta *d* de la siguiente manera:

        KL = 0,8\$1ln(0,8/0,3) \$1 0,2\$1ln(0,2/0,7) = 0,53

Aquí hay dos términos en la fórmula porque las etiquetas son binarias en este ejemplo. Esta medida se puede aplicar a varias etiquetas además de a las binarias. Por ejemplo, en un escenario de admisión a la universidad, supongamos que a un candidato se le puede asignar una de las tres categorías siguientes: yi = \$1y0, y1, y2\$1 = \$1rechazado, en lista de espera, aceptado\$1. 

El rango de valores de la métrica KL para los resultados binarios, multicategoría y continuos es [0, \$1∞).
+ Los valores cercanos a cero significan que los resultados se distribuyen de forma similar para las distintas facetas.
+ Los valores positivos indican que las distribuciones de las etiquetas son divergentes; cuanto más positivas, mayor es la divergencia.

# Divergencia de Jensen-Shannon (JS)
<a name="clarify-data-bias-metric-jensen-shannon-divergence"></a>

La divergencia de Jensen-Shannon (JS) mide en qué medida las distribuciones de etiquetas de diferentes facetas divergen entrópicamente entre sí. Se basa en la divergencia de Kullback-Leibler, pero es simétrica. 

La fórmula de la divergencia de Jensen-Shannon es la siguiente:

        JS = ½\$1[KL(Pa \$1\$1 P) \$1 KL(Pd \$1\$1 P)]

Donde P = ½( Pa \$1 Pd ), la distribución media de las etiquetas en las facetas *a* y *d*.

El rango de valores JS para los resultados binarios, multicategoría y continuos es [0, ln(2)).
+ Los valores cercanos a cero indican que las etiquetas están distribuidas de forma similar.
+ Los valores positivos indican que las distribuciones de las etiquetas son divergentes; cuanto más positivas, mayor es la divergencia.

Esta métrica indica si hay una gran divergencia en una de las etiquetas en todas las facetas. 

# Norma Lp (LP)
<a name="clarify-data-bias-metric-lp-norm"></a>

La norma Lp (LP) mide la distancia de la norma p entre las distribuciones de facetas de las etiquetas observadas en un conjunto de datos de entrenamiento. Esta métrica es no negativa y, por lo tanto, no puede detectar el sesgo inverso. 

La fórmula de la norma Lp es la siguiente: 

        Lp(Pa, Pd) = ( ∑y\$1\$1Pa - Pd\$1\$1p)1/p

Donde la distancia de la norma p entre los puntos x e y se define de la siguiente manera:

        Lp(x, y) = (\$1x1-y1\$1p \$1 \$1x2-y2\$1p \$1 … \$1\$1xn-yn\$1p)1/p 

La norma 2 es la norma euclidiana. Suponga que tiene una distribución de resultados con tres categorías, por ejemplo, yi = \$1y0, y1, y2\$1 = \$1aceptado, en lista de espera, rechazado\$1 en un escenario de admisiones universitarias multicategoría. Se calcula la suma de los cuadrados de las diferencias entre los recuentos de resultados de las facetas *a* y *d*. La distancia euclidiana resultante se calcula de la siguiente manera:

        L2(Pa, Pd) = [(na(0) - nd(0))2 \$1 (na(1) - nd(1))2 \$1 (na(2) - nd(2))2]1/2

Donde: 
+ na(i) es el número de los resultados de la i-ésima categoría en la faceta *a*: por ejemplo, na(0) es el número de aceptaciones de la faceta *a*.
+ nd(i) es el número de los resultados de la i-ésima categoría en la faceta *d*: por ejemplo, nd(2) es el número de rechazos de la faceta *d*.

  El rango de valores LP para los resultados binarios, multicategoría y continuos es [0, √2), donde:
  + Los valores cercanos a cero indican que las etiquetas están distribuidas de forma similar.
  + Los valores positivos indican que las distribuciones de las etiquetas son divergentes; cuanto más positivas, mayor es la divergencia.

# Distancia de variación total (TVD)
<a name="clarify-data-bias-metric-total-variation-distance"></a>

La métrica de sesgo de datos de la distancia de variación total (TVD) es la mitad de la norma L1. La TVD es la mayor diferencia posible entre las distribuciones de probabilidad de los resultados de las etiquetas de las facetas *a* y *d*. La norma L1 es la distancia de Hamming, una métrica que se utiliza para comparar dos cadenas de datos binarios al determinar el número mínimo de sustituciones necesarias para cambiar una cadena por otra. Si las cadenas fueran copias una de la otra, determina el número de errores que se han producido al copiarlas. En el contexto de la detección de sesgos, la TVD cuantifica cuántos resultados de la faceta *a* deberían cambiarse para que coincidan con los resultados de la faceta *d*.

La fórmula para la distancia de variación total es la siguiente: 

        TVD = ½\$1L1(Pa, Pd)

Por ejemplo, suponga que tiene una distribución de resultados con tres categorías, yi = \$1y0, y1, y2\$1 = \$1aceptado, en lista de espera, rechazado\$1 en un escenario de admisiones universitarias multicategoría. Para calcular la TVD, se toman las diferencias entre los recuentos de las facetas *a* y *d* de cada resultado. El resultado es el siguiente.

        L1(Pa, Pd) = \$1na(0) - nd(0)\$1 \$1 \$1na(1) - nd(1)\$1 \$1 \$1na(2) - nd(2)\$1

Donde: 
+ na(i) es el número de los resultados de la i-ésima categoría en la faceta *a*: por ejemplo, na(0) es el número de aceptaciones de la faceta *a*.
+ nd(i) es el número de los resultados de la i-ésima categoría en la faceta d: por ejemplo, nd(2) es el número de rechazos de la faceta *d*.

  El rango de valores TVD para los resultados binarios, multicategoría y continuos es [0, 1), donde:
  + Los valores cercanos a cero indican que las etiquetas están distribuidas de forma similar.
  + Los valores positivos indican que las distribuciones de las etiquetas son divergentes; cuanto más positivas, mayor es la divergencia.

# Kolmogorov-Smirnov (KS)
<a name="clarify-data-bias-metric-kolmogorov-smirnov"></a>

La métrica de sesgo de Kolmogorov-Smirnov (KS) es igual a la divergencia máxima entre las etiquetas de las distribuciones de las facetas *a* y *d* de un conjunto de datos. La prueba KS de dos muestras implementada por SageMaker Clarify complementa las demás medidas del desequilibrio de etiquetas al encontrar la etiqueta más desequilibrada. 

La fórmula de la métrica de Kolmogorov-Smirnov es la siguiente: 

        KS = max(\$1Pa(y) - Pd(y)\$1)

Por ejemplo, suponga que un grupo de candidatos (faceta *a*) a la universidad son rechazados, están en lista de espera o son aceptados con un 40 %, 40 % o 20 %, respectivamente, y que estas tasas para otros solicitantes (faceta *d*) son del 20 %, 10 % y 70 %. Entonces, el valor de la métrica de sesgo de Kolmogorov-Smirnov es el siguiente:

KS = máx(\$10,4-0,2\$1, \$10,4-0,1\$1, \$10,2-0,7\$1) = 0,5

Esto nos indica que la divergencia máxima entre las distribuciones de facetas es de 0,5 y se produce en las tasas de aceptación. Hay tres términos en la ecuación porque las etiquetas son multiclase de cardinalidad tres.

El rango de valores LP para los resultados binarios, multicategoría y continuos es [0, \$11], donde:
+ Los valores cercanos a cero indican que las etiquetas se distribuyeron uniformemente entre las facetas de todas las categorías de resultados. Por ejemplo, ambas facetas que solicitaron un préstamo obtuvieron el 50 % de aceptaciones y el 50 % de rechazos.
+ Los valores cercanos a uno indican que las etiquetas de un resultado estaban todas en una sola faceta. Por ejemplo, la faceta *a* obtuvo el 100 % de las aceptaciones y la faceta *d* no obtuvo ninguna.
+ Los valores intermitentes indican los grados relativos del desequilibrio máximo de la etiqueta.

# Disparidad demográfica condicional (CDD)
<a name="clarify-data-bias-metric-cddl"></a>

La métrica de disparidad demográfica (DD) determina si una faceta tiene una proporción mayor de los resultados rechazados en el conjunto de datos que de los resultados aceptados. En el caso binario en el que hay dos facetas, hombres y mujeres, por ejemplo, que constituyen el conjunto de datos, la desfavorecida se etiqueta como faceta *d* y la favorecida se etiqueta como faceta *a*. Por ejemplo, en el caso de las admisiones a la universidad, si las mujeres candidatas representaban el 46 % de los solicitantes rechazados y solo el 32 % de los solicitantes aceptados, decimos que existe una *disparidad demográfica* porque la tasa de mujeres rechazadas supera la tasa de las aceptadas. En este caso, las mujeres candidatas se etiquetan en la faceta *d*. Si los candidatos varones representaban el 54 % de los solicitantes rechazados y el 68 % de los aceptados, entonces no existe una disparidad demográfica en este aspecto, ya que la tasa de rechazo es inferior a la tasa de aceptación. En este caso, las mujeres candidatas se etiquetan en la faceta *a*. 

La fórmula de la disparidad demográfica para la faceta *d* menos favorecida es la siguiente: 

        DDd = nd(0)/n(0) - nd(1)/n(1) = PdR(y0) - PdA(y1) 

Donde: 
+ n(0) = na(0) \$1 nd(0) es el número total de resultados rechazados en el conjunto de datos para la faceta favorecida *a* y la faceta desfavorecida *d*.
+ n(1) = na(1) \$1 nd(1) es el número total de resultados aceptados en el conjunto de datos para la faceta favorecida *a* y la faceta desfavorecida *d*.
+ PdR(y0) es la proporción de resultados rechazados (con un valor 0) en la faceta *d*.
+ PdA(y1) es la proporción de resultados aceptados (valor 1) en la faceta *d*.

En el ejemplo de admisión a la universidad, la disparidad demográfica entre las mujeres es DDd = 0,46 - 0,32 = 0,14. En el caso de los varones, DDa = 0,54 - 0,68 = - 0,14.

Para descartar la paradoja de Simpson, se requiere una métrica de disparidad demográfica condicional (CDD) que condicione la DD a los atributos que definen un estrato o subgrupos del conjunto de datos. La reagrupación puede proporcionar información sobre la causa de las aparentes disparidades demográficas en las facetas menos favorecidas. El caso clásico surgió en el caso de las admisiones en Berkeley, donde en general los hombres eran aceptados a una tasa más alta que las mujeres. Las estadísticas de este caso se utilizaron en los cálculos de ejemplo de la DD. Sin embargo, cuando se examinaron los subgrupos departamentales, se comprobó que las tasas de admisión de mujeres eran más altas que las de los hombres si estaban condicionadas por departamento. La explicación es que las mujeres se habían presentado a departamentos con tasas de aceptación más bajas que las de los hombres. El examen de las tasas de aceptación subagrupadas reveló que, de hecho, las mujeres eran aceptadas en mayor medida que los hombres en los departamentos con tasas de aceptación más bajas.

La métrica CDD proporciona una medida única para todas las disparidades detectadas en los subgrupos definidos por un atributo de un conjunto de datos al promediarlas. Se define como el promedio ponderado de las disparidades demográficas (DDi) para cada uno de los subgrupos, y la disparidad de cada subgrupo se pondera en proporción al número de observaciones que contiene. La fórmula de la disparidad demográfica condicional es la siguiente:

        CDD = (1/n)\$1∑ini \$1DDi 

Donde: 
+ ∑ini = n es el número total de observaciones y n i es el número de observaciones de cada subgrupo.
+ DDi = ni(0)/n(0) - ni(1)/n(1) = PiR(y0) - PiA(y1) es la disparidad demográfica del i-ésimo subgrupo.

La disparidad demográfica de un subgrupo (DDi) es la diferencia entre la proporción de resultados rechazados y la proporción de resultados aceptados en cada subgrupo.

El rango de valores DD para los resultados binarios para todo el conjunto de datos DDd o para sus subgrupos condicionados DDi es [-1, \$11]. 
+ \$11: cuando no hay rechazos en la faceta *a* o el subgrupo ni aceptaciones en la faceta *d* o el subgrupo
+ Los valores positivos indican que existe una disparidad demográfica, ya que la faceta *d* o el subgrupo tiene una mayor proporción de resultados rechazados en el conjunto de datos que de resultados aceptados. Cuanto mayor sea el valor, menos favorecida será la faceta y mayor será la disparidad.
+ Los valores indican que no existe una disparidad demográfica, ya que la faceta *d* o el subgrupo tiene una mayor proporción de resultados aceptados en el conjunto de datos que de resultados rechazados. Cuanto más bajo sea el valor, más favorecida será la faceta.
+ -1: cuando no hay rechazos en la faceta *d* o el subgrupo ni aceptaciones en la faceta *a* o el subgrupo

Si no se condiciona a nada, entonces CDD es cero si y solo si DPL es cero.

Esta métrica es útil para explorar los conceptos de discriminación directa e indirecta y de justificación objetiva en la legislación y la jurisprudencia de no discriminación de la UE y el Reino Unido. Para obtener más información, consulte [Why Fairness Cannot Be Automated](https://arxiv.org/abs/2005.05906). Este documento también contiene los datos pertinentes y el análisis del caso de admisiones de Berkeley que muestran cómo la condicionalidad a los subgrupos de tasas de admisión departamentales ilustra la paradoja de Simpson.

# Genere informes en Studio para detectar sesgos en los datos previos al entrenamiento SageMaker
<a name="clarify-data-bias-reports-ui"></a>

SageMaker Clarify está integrado con Amazon SageMaker Data Wrangler, lo que puede ayudarle a identificar los sesgos durante la preparación de los datos sin tener que escribir su propio código. Data Wrangler ofrece una end-to-end solución para importar, preparar, transformar, caracterizar y analizar datos con Amazon Studio. SageMaker Para obtener información general acerca del flujo de trabajo de preparación de datos de Data Wrangler, consulte [Prepare datos de aprendizaje automático con Amazon SageMaker Data Wrangler](data-wrangler.md).

Usted especifica los atributos de interés, como el sexo o la edad, y SageMaker Clarify ejecuta un conjunto de algoritmos para detectar la presencia de sesgos en esos atributos. Una vez ejecutado el algoritmo, SageMaker Clarify proporciona un informe visual con una descripción de las fuentes y la gravedad del posible sesgo para que pueda planificar las medidas para mitigarlo. Por ejemplo, en un conjunto de datos financieros que contiene pocos ejemplos de préstamos empresariales concedidos a un grupo de edad en comparación con otros, la SageMaker IA detecta el desequilibrio para evitar un modelo que desfavorezca a ese grupo de edad.

**Para analizar e informar sobre el sesgo de los datos**

Para comenzar a utilizar Data Wrangler, consulte [Introducción a Data Wrangler](data-wrangler-getting-started.md).

1. En Amazon SageMaker Studio Classic, en el menú **Inicio** (![\[Black square icon representing a placeholder or empty image.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/icons/house.png)) del panel izquierdo, navegue hasta el nodo **Datos** y, a continuación, seleccione **Data Wrangler**. Esto abre la **página de inicio de Data Wrangler** en Studio Classic. 

1. Pulse el botón **\$1 Importar datos** para crear un flujo nuevo. 

1. En la página de flujo, en la pestaña **Importar**, seleccione Amazon S3 vaya a su bucket de Amazon S3, busque su conjunto de datos y, a continuación, seleccione **Importar**. 

1. Tras importar los datos, en el gráfico de flujo de la pestaña **Flujo de datos**, elija el signo **\$1** situado a la derecha del nodo **Tipos de datos**. 

1. Elija **Agregar análisis**. 

1. En la página **Crear análisis**, elija **Informe de sesgo** para **Tipo de análisis**. 

1. Para configurar el informe de sesgo, proporcione un **Nombre** del informe, la columna que se debe predecir y si se trata de un valor o un umbral, la columna que se va a analizar para detectar el sesgo (la faceta) y si se trata de un valor o un umbral. 

1. Siga con la configuración del informe de sesgo seleccionando las métricas de sesgo.  
![\[Elija la métrica de sesgo.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/clarify-data-wrangler-configure-bias-metrics.png)

1. Elija **Detectar sesgos** para generar y ver el informe de sesgo. Desplácese hacia abajo para ver todos los informes.   
![\[Genere y visualice el informe de sesgo.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/clarify-data-wrangler-create-bias-report.png)

1. Seleccione el cursor situado a la derecha de la descripción de cada métrica de sesgo para ver la documentación que puede ayudarle a interpretar la importancia de los valores de las métricas. 

1. Para ver un resumen de los valores de las métricas de sesgo en una tabla, seleccione la opción **Tabla**. Para guardar el informe, elija **Guardar** en la esquina inferior derecha de la página. Puede ver el informe en el gráfico de flujo de la pestaña **Flujo de datos**. Haga doble clic en el informe para abrirlo. 