

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Messwerte zu Verzerrungen vor dem Training
<a name="clarify-measure-data-bias"></a>

Die Messung von Verzerrungen in ML-Modellen ist ein erster Schritt zur Minderung von Verzerrungen. Jedes Maß für Verzerrungen entspricht einem anderen Begriff von Fairness. Selbst die Berücksichtigung einfacher Fairnesskonzepte führt zu vielen verschiedenen Maßnahmen, die in verschiedenen Kontexten anwendbar sind. Denken Sie zum Beispiel an Fairness in Bezug auf das Alter und der Einfachheit halber daran, dass die beiden Bevölkerungsgruppen mittleren Alters und die übrigen Altersgruppen die beiden relevanten demografischen Feature sind, die als *Facetten* bezeichnet werden. Im Fall eines ML-Modells für die Kreditvergabe möchten wir vielleicht, dass Kredite für kleine Unternehmen an die gleiche Anzahl von Personen aus beiden Bevölkerungsgruppen vergeben werden. Oder bei der Bearbeitung von Stellenbewerbern möchten wir vielleicht, dass für jede demografische Gruppe die gleiche Anzahl von Auftragnehmer eingestellt wird. Bei diesem Ansatz kann jedoch davon ausgegangen werden, dass sich für diese Stellen die gleiche Anzahl von Personen aus beiden Altersgruppen bewerben, sodass wir möglicherweise von der Anzahl der Bewerbungen abhängig machen sollten. Außerdem sollten wir vielleicht nicht prüfen, ob die gleiche Anzahl von Bewerbern gilt, sondern ob wir die gleiche Anzahl qualifizierter Bewerber haben. Oder wir können Fairness als eine gleiche Annahmequote qualifizierter Bewerber für beide Altersgruppen oder eine gleiche Ablehnungsquote von Bewerbern oder beides betrachten. Sie können Datensätze mit unterschiedlichen Datenanteilen zu den interessierenden Attributen verwenden. Dieses Ungleichgewicht kann dazu führen, dass die von Ihnen gewählte Messgröße für die systematische Messgröße uneinheitlich ist. Die Modelle sind bei der Klassifizierung einer Facette möglicherweise genauer als bei der anderen. Daher müssen Sie Bias-Metriken wählen, die konzeptionell für die Anwendung und die Situation angemessen sind.

Wir verwenden die folgende Notation, um die Bias-Metriken zu erörtern. Das hier beschriebene konzeptionelle Modell dient der binären Klassifikation, bei der Ereignisse in ihrem Stichprobenraum so gekennzeichnet werden, dass sie nur zwei mögliche Ergebnisse haben, die als positiv (mit dem Wert 1) und negativ (mit dem Wert 0) bezeichnet werden. Dieser Rahmen lässt sich in der Regel auf einfache Weise auf eine Klassifizierung nach mehreren Kategorien oder bei Bedarf auf Fälle mit kontinuierlich bewerteten Ergebnissen ausdehnen. Bei der binären Klassifikation werden Ergebnissen, die in einem Rohdatensatz für eine bevorzugte Facet *a* und für eine benachteiligte Facet *d* aufgezeichnet wurden, positive und negative Markierungen zugewiesen. Diese Kennzeichnungen y werden als *beobachtete Beschriftungen* bezeichnet, um sie von den *vorhergesagten Beschriftungen* y' zu unterscheiden, die von einem Modell für Machine Learning während der Trainings- oder Inferenzphase des ML-Lebenszyklus zugewiesen werden. Diese Bezeichnungen werden verwendet, um die Wahrscheinlichkeitsverteilungen Pa(y) and Pd(y) für ihre jeweiligen Facetnergebnisse zu definieren. 
+ Beschriftungen: 
  + y steht für die n beobachteten Beschriftungen für Ereignisergebnisse in einem Trainingsdatensatz.
  + y' steht für die von einem trainierten Modell vorhergesagten Markierungen für die n beobachteten Markierungen im Datensatz.
+ Ergebnisse:
  + Ein positives Ergebnis (mit dem Wert 1) für eine Stichprobe, z. B. eine Annahme eines Antrags.
    + n(1) ist die Anzahl der beobachteten Markierungen für positive Ergebnisse (Zulassungen).
    + n'(1) ist die Anzahl der vorhergesagten Kennzeichnungen für positive Ergebnisse (Akzeptanz).
  + Ein negatives Ergebnis (mit dem Wert 0) für eine Stichprobe, z. B. eine Ablehnung eines Antrags.
    + n(0) ist die Anzahl der beobachteten Markierungen für negative Ergebnisse (Ablehnungen).
    + n'(0) ist die Anzahl der vorhergesagten Markierungen für negative Ergebnisse (Ablehnungen).
+ Facetnwerte:
  + Facet *a* – Der Merkmalswert, der eine demografische Gruppe definiert, die von Vorurteilen bevorzugt wird.
    + na ist die Anzahl der beobachteten Beschriftungen für den bevorzugten Facetnwert: na = na(1) \$1 na(0) die Summe der positiven und negativen beobachteten Beschriftungen für den Wert Facet *a*.
    + n' a ist die Anzahl der vorhergesagten Beschriftungen für den bevorzugten Facetnwert: n'a = n'a(1) \$1 n'a(0) ist die Summe der positiven und negativen Kennzeichnungen für das vorhergesagte Ergebnis für den Facetnwert *a*. Beachten Sie n'a = na.
  + facet *d* – Der Merkmalswert, der eine demografische Gruppe definiert, die tendenziell benachteiligt ist.
    + nd ist die Anzahl der beobachteten Kennzeichnungen für den Facetnwert mit negativer Wirkung: nd = nd(1) \$1 nd(0) ist die Summe der beobachteten positiven und negativen Kennzeichnungen für den Facetnwert *d*. 
    + n'd ist die Anzahl der vorhergesagten Markierungen für den Wert der negativen Facet: n'd = n'd(1) \$1 n'd(0) die Summe der positiven und negativen vorhergesagten Markierungen für den Facetnwert *d*. Beachten Sie n'd = nd.
+ Wahrscheinlichkeitsverteilungen für die Ergebnisse der markierten Facetndaten:
  + Pa(y) ist die Wahrscheinlichkeitsverteilung der beobachteten Markierungen für Facet *a*. Bei binär markierten Daten ergibt sich diese Verteilung aus dem Verhältnis der Anzahl der Stichproben in Facet *a* mit positiven Ergebnissen zur Gesamtzahl, Pa(y1) = na(1)/ na, und dem Verhältnis der Anzahl der Proben mit negativen Ergebnissen zur Gesamtzahl, Pa(y0) = na(0)/ na. 
  + P d(y) ist die Wahrscheinlichkeitsverteilung der beobachteten Markierungen für Facet *d*. Bei binär markierten Daten ergibt sich diese Verteilung aus der Anzahl der mit positiven Ergebnissen markierten Stichproben in der Facette *d* zur Gesamtzahl, Pd(y1) = nd(1)/ nd, und dem Verhältnis der Anzahl der Proben mit negativen Ergebnissen zur Gesamtzahl, Pd(y0) = nd(0)/ nd. 

Modelle, die mit Daten trainiert wurden, die aufgrund demografischer Unterschiede verzerrt sind, könnten daraus lernen und diese sogar verschärfen. Um Verzerrungen in den Daten zu identifizieren, bevor Ressourcen aufgewendet werden, um Modelle darauf zu trainieren, stellt SageMaker Clarify Metriken zur Datenverzerrung bereit, die Sie vor dem Training anhand von Rohdatensätzen berechnen können. Alle Metriken vor dem Training sind modellunabhängig, da sie nicht von den Modellausgaben abhängen und daher für jedes Modell gültig sind. Die erste Bias-Metrik untersucht das Ungleichgewicht der Facetten, nicht aber die Ergebnisse. Sie bestimmt, inwieweit die Menge der Trainingsdaten für verschiedene Facetten repräsentativ ist, wie es für die Anwendung gewünscht wird. Bei den übrigen Bias-Metriken wird die Verteilung der Ergebniskennzeichnungen für die Facetten *a* und *d* in den Daten auf unterschiedliche Weise verglichen. Die Kennzahlen, die über negative Werte hinausgehen, können negative Verzerrungen erkennen. Die folgende Tabelle enthält einen Spickzettel zur schnellen Anleitung und Links zu den Messwerten für Verzerrungen vor dem Training.

Messwerte zu Verzerrungen vor dem Training


| Bias-Metrik | Description | Beispiel für eine Frage | Interpretieren von metrischen Werten | 
| --- | --- | --- | --- | 
| [Ungleichgewicht zwischen den Klassen (CI)](clarify-bias-metric-class-imbalance.md) | Misst das Ungleichgewicht in der Anzahl der Elemente zwischen verschiedenen Facettenwerten. |  Könnte es zu altersbedingten Vorurteilen kommen, weil nicht genügend Daten für die demografische Gruppe außerhalb des mittleren Alters zur Verfügung stehen?   |  Normalisierter Bereich: [-1, \$11] Interpretation: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [Unterschied in den Proportionen der Beschriftungen (DPL)](clarify-data-bias-metric-true-label-imbalance.md) | Misst das Ungleichgewicht positiver Ergebnisse zwischen verschiedenen Facettenwerten. | Könnte es aufgrund einer verzerrten Kennzeichnung von Facettenwerten in den Daten zu altersbedingten Verzerrungen bei ML-Vorhersagen kommen? |  Bereich für normalisierte binäre und mehrkategoriale Facettenbezeichnungen: [-1, \$11] Bereich für fortlaufende Beschriftungen: (-∞, \$1∞) Interpretation [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [Kullback-Leibler-Divergenz (KL)](clarify-data-bias-metric-kl-divergence.md) | Misst, wie stark die Ergebnisverteilungen verschiedener Facetten entropisch voneinander abweichen.  | Wie unterschiedlich sind die Verteilungen der Ergebnisse bei Kreditanträgen für verschiedene demografische Gruppen? |  Bereich für binär, mehrkategorisch, kontinuierlich: [0, \$1∞) Interpretation [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [Jensen-Shannon-Divergenz (JS)](clarify-data-bias-metric-jensen-shannon-divergence.md)  | Misst, wie stark die Ergebnisverteilungen verschiedener Facetten entropisch voneinander abweichen.  | Wie unterschiedlich sind die Verteilungen der Ergebnisse bei Kreditanträgen für verschiedene demografische Gruppen? |  Bereich für binär, mehrkategorisch, kontinuierlich: [0, \$1∞) Interpretation [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [Lp-Norm (LP)](clarify-data-bias-metric-lp-norm.md)  | Misst einen Unterschied nach der P-Norm zwischen unterschiedlichen demografischen Verteilungen der Ergebnisse, die mit verschiedenen Facetten in einem Datensatz verknüpft sind. | Wie unterschiedlich sind die Verteilungen der Ergebnisse bei Kreditanträgen für verschiedene demografische Gruppen? |  Bereich für binär, mehrkategorisch, kontinuierlich: [0, \$1∞) Interpretation [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [Gesamtvariationsdistanz (TVD)](clarify-data-bias-metric-total-variation-distance.md)  | Misst die Hälfte des L1-Normunterschieds zwischen unterschiedlichen demografischen Verteilungen der Ergebnisse, die mit verschiedenen Facetten in einem Datensatz verknüpft sind. | Wie unterschiedlich sind die Verteilungen der Ergebnisse bei Kreditanträgen für verschiedene Bevölkerungsgruppen? |  Bereich für binäre, mehrkategoriale und kontinuierliche Ergebnisse: [0, \$1∞) [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [Kolmogorow-Smirnow (KS)](clarify-data-bias-metric-kolmogorov-smirnov.md)  | Misst die maximale Divergenz zwischen den Ergebnissen bei Verteilungen für verschiedene Facetten in einem Datensatz. | Bei welchen Ergebnissen der Hochschulbewerbung bestehen die größten Unterschiede nach demografischen Gruppen? | Bereich der KS-Werte für binäre, mehrkategoriale und kontinuierliche Ergebnisse: [0, \$11][\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/clarify-measure-data-bias.html) | 
| [Bedingte demografische Disparität (CDD)](clarify-data-bias-metric-cddl.md)  | Misst die Ungleichheit der Ergebnisse zwischen verschiedenen Facetten insgesamt, aber auch nach Untergruppen. | Haben einige Gruppen einen höheren Anteil an Ablehnungen aufgrund von Hochschulzulassungsergebnissen als ihr Anteil an Zulassungen? |  CDD-Bereich: [-1, \$11] [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 

Weitere Informationen zu Bias-Metriken finden Sie unter [Fairness Measures for Machine Learning in Finance](https://pages.awscloud.com/rs/112-TZM-766/images/Fairness.Measures.for.Machine.Learning.in.Finance.pdf).

**Topics**
+ [Ungleichgewicht zwischen den Klassen (CI)](clarify-bias-metric-class-imbalance.md)
+ [Unterschied in den Proportionen der Beschriftungen (DPL)](clarify-data-bias-metric-true-label-imbalance.md)
+ [Kullback-Leibler-Divergenz (KL)](clarify-data-bias-metric-kl-divergence.md)
+ [Jensen-Shannon-Divergenz (JS)](clarify-data-bias-metric-jensen-shannon-divergence.md)
+ [Lp-Norm (LP)](clarify-data-bias-metric-lp-norm.md)
+ [Gesamtvariationsdistanz (TVD)](clarify-data-bias-metric-total-variation-distance.md)
+ [Kolmogorow-Smirnow (KS)](clarify-data-bias-metric-kolmogorov-smirnov.md)
+ [Bedingte demografische Disparität (CDD)](clarify-data-bias-metric-cddl.md)

# Ungleichgewicht zwischen den Klassen (CI)
<a name="clarify-bias-metric-class-imbalance"></a>

Eine Verzerrung des Klassenungleichgewichts (CI) tritt auf, wenn ein Facettenwert *d* im Vergleich zu einer anderen Facette *a* im Datensatz weniger Trainingsstichproben aufweist. Das liegt daran, dass Modelle bevorzugt an die größeren Facetten auf Kosten der kleineren Facetten angepasst werden, was zu einem höheren Trainingsfehler für Facette *d* führen kann. Bei Modellen besteht auch ein höheres Risiko, dass kleinere Datensätze zu stark angepasst werden, was zu größeren Testfehlern für Facette *d* führen kann. Denken Sie an das Beispiel, in dem ein Modell für Machine Learning hauptsächlich auf Daten von Personen mittleren Alters trainiert wird (Facette a). Es könnte weniger genau sein, wenn Vorhersagen getroffen werden, an denen jüngere und ältere Menschen beteiligt sind (Facette d).

Die Formel für das (normalisierte) Facetten-Ungleichgewichtsmaß:

        CI = (na – nd)/(na \$1 nd)

Wobei na die Anzahl der Mitglieder der Facette *a* und nd die Zahl der Facette *d* ist. Ihre Werte liegen im Bereich des Intervalls [-1, 1]. 
+ Positive CI-Werte bedeuten, dass die Facette *a* mehr Trainingsstichproben im Datensatz enthält, und ein Wert von 1 gibt an, dass die Daten nur Mitglieder der Facette *a* enthalten.
+  CI-Werte nahe Null deuten auf eine gleichmäßigere Verteilung der Mitglieder zwischen den Facetten hin, und ein Wert von Null gibt eine vollkommen gleiche Verteilung zwischen den Facetten an und steht für eine ausgewogene Verteilung der Stichproben in den Trainingsdaten.
+ Negative CI-Werte bedeuten, dass die Facette *d* mehr Trainingsstichproben im Datensatz enthält, und ein Wert von -1 bedeutet, dass die Daten nur Mitglieder der Facette *d* enthalten.
+ CI-Werte, die sich in der Nähe eines der Extremwerte von -1 oder 1 befinden, sind sehr unausgewogen und bergen ein erhebliches Risiko, dass verzerrte Vorhersagen getroffen werden.

Wenn festgestellt wird, dass zwischen den Facetten ein erhebliches Facettenungleichgewicht besteht, sollten Sie die Stichprobe neu ausbalancieren, bevor Sie mit dem Schulen von Modellen auf ihr fortfahren.

# Unterschied in den Proportionen der Beschriftungen (DPL)
<a name="clarify-data-bias-metric-true-label-imbalance"></a>

Der Unterschied in den Beschriftungsanteilen (DPL) vergleicht den Anteil der beobachteten Ergebnisse mit positiven Kennzeichnungen für Facette *d* mit dem Anteil der beobachteten Ergebnisse mit positiven Kennzeichnungen für Facette in *a* Trainingsdatensatz. Sie könnten es beispielsweise verwenden, um den Anteil von Personen mittleren Alters (Facette *a*) und anderen Altersgruppen (Facette *d*) zu vergleichen, denen Finanzkredite gewährt wurden. Modelle für Machine Learning versuchen, die Entscheidungen im Zusammenhang mit Trainingsdaten so genau wie möglich nachzuahmen. Ein Modell für Machine Learning, das auf einem Datensatz mit einem hohen DPL trainiert wurde, wird also wahrscheinlich dasselbe Ungleichgewicht in seinen future Prognosen widerspiegeln.

Die Formel für den Unterschied in den Proportionen der Beschriftungen lautet wie folgt:

        DPL = (qa – qd)

Wobei Folgendes gilt:
+ qa = na(1)/na ist der Anteil der Facette *a*, die einen beobachteten Beschriftungswert von 1 haben. Zum Beispiel der Anteil der Bevölkerungsgruppe mittleren Alters, denen Kredite genehmigt werden. Dabei steht na(1) für die Anzahl der Mitglieder der Facette *a*, die ein positives Ergebnis erzielen und na für die Anzahl der Mitglieder der Facette *a*. 
+ qd = nd(1)/nd ist der Anteil der Facette *d*, die einen beobachteten Beschriftungswert von 1 haben. Zum Beispiel der Anteil der Personen außerhalb der Bevölkerungsgruppe mittleren Alters, denen Kredite gewährt werden. Dabei steht nd(1) für die Anzahl der Mitglieder der Facette *d*, die ein positives Ergebnis erzielen, und nd für die Anzahl der Mitglieder der Facette *d*. 

Wenn DPL nahe genug an 0 liegt, dann sagen wir, dass die *demografische Parität* erreicht wurde.

Bei binären und mehrkategorialen Facettenbeschriftungen bewegen sich die DPL-Werte über das Intervall (-1, 1). Für fortlaufende Beschriftungen legen wir einen Schwellenwert fest, um die Beschriftungen auf binäre Werte zu reduzieren. 
+ Positive DPL-Werte weisen darauf hin, dass Facette *a* ist im Vergleich zu Facette *d* einen höheren Anteil an positiven Ergebnissen aufweist.
+ Werte von DPL nahe Null deuten auf einen gleichmäßigeren Anteil positiver Ergebnisse zwischen den Facetten hin, und ein Wert von Null weist auf eine perfekte demografische Parität hin. 
+ Negative DPL-Werte deuten darauf hin, dass Facette *d* im Vergleich zu Facette *a* einen höheren Anteil an positiven Ergebnissen aufweist.

Ob ein hohes Ausmaß an DPL problematisch ist oder nicht, ist von Situation zu Situation unterschiedlich. In einem problematischen Fall könnte eine hohe DPL ein Hinweis auf zugrundeliegende Probleme in den Daten sein. Ein Datensatz mit einem hohen DPL könnte beispielsweise historische Vorurteile oder Vorurteile gegenüber altersbedingten demografischen Gruppen widerspiegeln, die für ein Modell nicht erwünscht wären, zu lernen.

# Kullback-Leibler-Divergenz (KL)
<a name="clarify-data-bias-metric-kl-divergence"></a>

Die Kullback-Leibler-Divergenz (KL) misst, wie stark die beobachtete Kennzeichnungsverteilung der Facette *a*, Pa(y), von der Verteilung der Facette *d*, Pd(y) abweicht. Sie wird auch als relative Entropie von Pa(y) in Bezug auf Pd(y) bezeichnet und quantifiziert die Menge an Information, die beim Übergang von Pa(y) zu Pd(y) verloren geht.

Die Formel für die Kullback-Leibler-Divergenz lautet wie folgt: 

        KL(Pa \$1\$1 Pd) = ∑yPa(y)\$1log[Pa(y)/Pd(y)]

Es ist die Erwartung der logarithmischen Differenz zwischen den Wahrscheinlichkeiten Pa(y) und Pd(y), wobei die Erwartung mit den Wahrscheinlichkeiten Pa(y) gewichtet wird. Dies ist kein echter Abstand zwischen den Verteilungen, da er asymmetrisch ist und die Dreiecksungleichung nicht erfüllt. Die Implementierung verwendet natürliche Logarithmen und gibt KL in Einheiten von Nats an. Die Verwendung verschiedener logarithmischer Basen führt zu proportionalen Ergebnissen, jedoch in unterschiedlichen Einheiten. Wenn Sie beispielsweise die Basis 2 verwenden, erhalten Sie KL in Biteinheiten.

Nehmen wir beispielsweise an, dass eine Gruppe von Kreditantragstellern eine Bewilligungsquote von 30% (Facette *d*) hat und dass die Genehmigungsquote für andere Antragsteller (Facette *a*) bei 80% liegt. Die Kullback-Leibler-Formel gibt Ihnen die Abweichung der Labelverteilung zwischen Facette *a* und Facette *d* wie folgt:

        KL = 0,8\$1ln (0,8/0,3) \$1 0,2\$1ln (0,2/0,7) = 0,53

Die Formel enthält hier zwei Begriffe, da Beschriftungen in diesem Beispiel binär sind. Diese Maßnahme kann zusätzlich zu binären auch auf mehrere Beschriftungen angewendet werden. Gehen Sie beispielsweise in einem Szenario mit Hochschulzulassungen davon aus, dass einem Bewerber eine von drei Kategorien zugewiesen wird: y i = \$1y0, y1, y2\$1 = \$1abgelehnt, auf der Warteliste, akzeptiert\$1. 

Der Wertebereich für die KL-Metrik für binäre, mehrkategoriale und kontinuierliche Ergebnisse ist [0, \$1∞).
+ Werte nahe Null bedeuten, dass die Ergebnisse für die verschiedenen Facetten ähnlich verteilt sind.
+ Positive Werte bedeuten, dass die Labelverteilungen divergieren. Je positiver, desto größer die Divergenz.

# Jensen-Shannon-Divergenz (JS)
<a name="clarify-data-bias-metric-jensen-shannon-divergence"></a>

Die Jensen-Shannon-Divergenz (JS) misst, wie stark die Beschriftungsverteilungen verschiedener Facetten entropisch voneinander abweichen. Sie basiert auf der Kullback-Leibler-Divergenz, ist aber symmetrisch. 

Die Formel für die Jensen-Shannon-Divergenz lautet wie folgt:

        JS = ½ \$1 [KL (Pa \$1\$1 P) \$1 KL (P \$1\$1 Pd)]

Dabei ist P = ½ (Pa \$1 Pd), die durchschnittliche Labelverteilung über die Facetten *a* und *d*.

Der Bereich der JS-Werte für binäre, kontinuierliche Ergebnisse mit mehreren Kategorien ist [0, ln (2)).
+ Werte nahe Null bedeuten, dass die Beschriftungen ähnlich verteilt sind.
+ Positive Werte bedeuten, dass die Labelverteilungen divergieren. Je positiver, desto größer die Divergenz.

Diese Metrik gibt an, ob bei einem der Beschriftungen in Bezug auf die Facetten eine große Divergenz besteht. 

# Lp-Norm (LP)
<a name="clarify-data-bias-metric-lp-norm"></a>

Die Lp-Norm (LP) misst den P-Norm-Abstand zwischen den Facettenverteilungen der beobachteten Markierungen in einem Trainingsdatensatz. Diese Metrik ist nicht negativ und kann daher keine umgekehrte Verzerrung erkennen. 

Die Formel für die Lp-Norm lautet wie folgt: 

        Lp(Pa, Pd) = ( ∑y\$1\$1Pa – Pd\$1\$1p)1/p

Wobei der P-Norm-Abstand zwischen den Punkten x und y wie folgt definiert ist:

        Lp(x, y) = (\$1x1-y1\$1p \$1 \$1x2-y2\$1p \$1 … \$1\$1xn-yn\$1p)1/p 

Die 2-Norm ist die euklidische Norm. Nehmen wir an, Sie haben eine Ergebnisverteilung mit drei Kategorien, z. B. yi = \$1y0, y1, y2\$1 = \$1akzeptiert, auf die Warteliste gesetzt, abgelehnt\$1 in einem Szenario mit mehreren Kategorien für Hochschulzulassungen. Sie nehmen die Summe der Quadrate der Differenzen zwischen den Ergebniszahlen für die Facetten *a* und *d*. Die resultierende euklidische Entfernung wird wie folgt berechnet:

        L2(Pa, Pd) = [(na(0) – nd(0))2 \$1 (na(1) – nd(1))2 \$1 (na(2) – nd(2))2]1/2

Wobei Folgendes gilt: 
+ na(i) ist die Zahl der Ergebnisse der Kategorie i in Facet *a*: zum Beispiel ist n a(0) die Anzahl der Akzeptanzzahlen in Facet *a*.
+ nd(i) ist die Anzahl der Ergebnisse der Kategorie i in Facet *d*: n d(2) ist beispielsweise die Anzahl der Ablehnungen in der Facet *d*.

  Der Bereich der LP-Werte für binäre, mehrkategoriale und kontinuierliche Ergebnisse ist [0, √2), wobei:
  + Werte nahe Null bedeuten, dass die Beschriftungen ähnlich verteilt sind.
  + Positive Werte bedeuten, dass die Beschriftungsverteilungen divergieren. Je positiver, desto größer die Divergenz.

# Gesamtvariationsdistanz (TVD)
<a name="clarify-data-bias-metric-total-variation-distance"></a>

Die Metrik „Total Variation Distance Data Bias“ (TVD) entspricht der Hälfte der L1-Norm. Der TVD ist der größtmögliche Unterschied zwischen den Wahrscheinlichkeitsverteilungen für Beschriftungsergebnisse der Facetn *a* und *d*. Die L1-Norm ist die Hamming-Distanz, eine Metrik, die verwendet wird, um zwei binäre Datenketten zu vergleichen, indem sie bestimmt, wie viele Ersetzungen mindestens erforderlich sind, um eine Zeichenfolge in eine andere umzuwandeln. Wenn es sich bei den Zeichenketten um Kopien voneinander handeln sollte, bestimmt sie die Anzahl der Fehler, die beim Kopieren aufgetreten sind. Im Kontext der Erkennung von Verzerrungen quantifiziert TVD, wie viele Ergebnisse in Facet *a* geändert werden müssten, damit sie den Ergebnissen in Facet *d* entsprechen.

Die Formel für die gesamte Streuungsdistanz lautet wie folgt: 

        TVD = ½\$1L1(Pa, Pd)

Nehmen wir beispielsweise an, Sie haben eine Ergebnisverteilung mit drei Kategorien, yi = \$1y0, y1, y2\$1 = \$1akzeptiert, auf die Warteliste gesetzt, abgelehnt\$1, in einem Szenario mit mehreren Kategorien für Hochschulzulassungen. Sie verwenden die Differenzen zwischen der Anzahl der Facetn *a* und *d* für jedes Ergebnis, um den TVD zu berechnen. Das Ergebnis ist wie folgt:

        L1(Pa, Pd) = \$1na(0) – nd(0)\$1 \$1 \$1na(1) – nd(1)\$1 \$1 \$1na(2) – nd(2)\$1

Wobei Folgendes gilt: 
+ na(i) ist die Zahl der Ergebnisse der Kategorie i in Facet *a*: zum Beispiel ist n a(0) die Anzahl der Akzeptanzzahlen in Facet *a*.
+ nd(i) ist die Anzahl der Ergebnisse der Kategorie i in Facet d: n d (2) ist beispielsweise die Anzahl der Ablehnungen in der Facet *d*.

  Der Bereich der TVD-Werte für binäre, mehrkategoriale und kontinuierliche Ergebnisse ist [0, 1), wobei:
  + Werte nahe Null bedeuten, dass die Beschriftungen ähnlich verteilt sind.
  + Positive Werte bedeuten, dass die Beschriftungsverteilungen divergieren. Je positiver, desto größer die Divergenz.

# Kolmogorow-Smirnow (KS)
<a name="clarify-data-bias-metric-kolmogorov-smirnov"></a>

Die Kolmogorov-Smirnov-Bias-Metrik (KS) entspricht der maximalen Divergenz zwischen Beschriftungen in den Verteilungen für die Facetn *a* und *d* eines Datensatzes. Der von SageMaker Clarify durchgeführte KS-Test mit zwei Stichproben ergänzt die anderen Messgrößen für das Ungleichgewicht auf dem Etikett, indem er das unausgewogenste Etikett ermittelt. 

Die Formel für die Kolmogorov-Smirnov-Metrik lautet wie folgt: 

        KS = max(\$1Pa(y) – Pd(y)\$1)

Nehmen wir zum Beispiel an, dass eine Gruppe von Bewerbern (Facet *a*) für ein College mit 40%, 40% bzw. 20% abgelehnt, auf die Warteliste gesetzt oder angenommen wurde, und dass diese Quoten für andere Bewerber (Facet *d*) bei 20%, 10%, 70% liegen. Dann lautet der Metrikwert des Kolmogorov-Smirnov-Bias wie folgt:

KS = max (\$10,4-0,2\$1, \$10,4-0,1\$1, \$10,2-0,7\$1) = 0,5

Dies sagt uns, dass die maximale Divergenz zwischen den Facetnverteilungen 0,5 beträgt und sich auf die Akzeptanzraten auswirkt. Die Gleichung enthält drei Begriffe, da es sich bei den Bezeichnungen um mehrere Klassen mit Kardinalität drei handelt.

Der Bereich der LP-Werte für binäre, mehrkategoriale und kontinuierliche Ergebnisse ist [0, \$11], wobei:
+ Werte nahe Null deuten darauf hin, dass die Beschriftungen in allen Ergebniskategorien gleichmäßig auf die Facetn verteilt waren. Beispielsweise erhielten beide Facetn, bei denen ein Kredit beantragt wurde, jeweils 50% der Zusagen und 50% der Ablehnungen.
+ Werte in der Nähe von eins deuten darauf hin, dass sich die Bezeichnungen für ein Ergebnis alle in einer Facet befanden. Beispielsweise erhielt Facet *a* 100% der Akzeptanzwerte und Facet *d* keine.
+ Intermittierende Werte geben den relativen Grad des maximalen Ungleichgewichts bei der Kennzeichnung an.

# Bedingte demografische Disparität (CDD)
<a name="clarify-data-bias-metric-cddl"></a>

Die Metrik zur demografischen Disparität (DD) bestimmt, ob bei einer Facet ein größerer Anteil der abgelehnten Ergebnisse im Datensatz als bei den akzeptierten Ergebnissen besteht. Im binären Fall, in dem zwei Facetn, beispielsweise Männer und Frauen, den Datensatz bilden, wird die benachteiligte als Facet *d* und die bevorzugte als Facet *a* bezeichnet. Wenn beispielsweise im Fall von Hochschulzulassungen 46% der abgelehnten Bewerberinnen und nur 32% der zugelassenen Bewerber weibliche Bewerber ausmachten, sagen wir, dass es *demografische Unterschiede* gibt, weil die Rate, mit der Frauen abgelehnt wurden, die Rate, mit der sie aufgenommen wurden, übersteigt. Bewerberinnen werden in diesem Fall als Facet *a* bezeichnet. Wenn die männlichen Bewerber 54% der abgelehnten und 68% der zugelassenen Bewerber ausmachten, dann besteht in dieser Hinsicht kein demografischer Unterschied, da die Ablehnungsquote geringer ist als die Zulassungsquote. Männliche Bewerber werden in diesem Fall als Facet *a* bezeichnet. 

Die Formel für die demografische Disparität in Bezug auf die benachteiligte Facet *d* lautet wie folgt: 

        DDd = nd(0)/n(0) – nd(1)/n(1) = PdR(y0) – PdA(y1) 

Wobei Folgendes gilt: 
+ n(0) = na(0) \$1 nd(0) ist die Gesamtzahl der abgelehnten Ergebnisse im Datensatz für die bevorzugte Facet *a* und die benachteiligte Facet *d*.
+ n(1) = na(1) \$1 nd(1) ist die Gesamtzahl der akzeptierten Ergebnisse im Datensatz für die bevorzugte Facet *a* und die benachteiligte Facet *d*.
+ PdR(y0) ist der Anteil der abgelehnten Ergebnisse (mit dem Wert 0) in Facet *d*.
+ PdA(y1) ist der Anteil der akzeptierten Ergebnisse (Wert 1) in Facet *d*.

Für das Beispiel der Hochschulzulassung beträgt die demografische Disparität für Frauen DDd = 0.46 – 0.32 = 0.14. Für Männer DDa = 0.54 – 0.68 = – 0.14.

Um das Simpson-Paradoxon auszuschließen, ist eine CDD-Metrik (bedingte demografische Disparität) erforderlich, die DD anhand von Attributen konditioniert, die eine Schicht von Untergruppen im Datensatz definieren. Die Umgruppierung kann Aufschluss über die Ursache offensichtlicher demografischer Disparitäten bei benachteiligten Facetn geben. Der klassische Fall trat bei den Zulassungen in Berkeley auf, wo Männer insgesamt häufiger aufgenommen wurden als Frauen. Die Statistiken für diesen Fall wurden in den Beispielberechnungen von DD verwendet. Bei der Untersuchung der Untergruppen der einzelnen Abteilungen wurde jedoch gezeigt, dass Frauen höhere Zulassungsquoten aufwiesen als Männer, wenn sie nach Fachbereichen unterschieden werden. Die Erklärung dafür war, dass sich Frauen in Abteilungen mit niedrigeren Zulassungsquoten beworben hatten als Männer. Die Untersuchung der Annahmequoten nach Untergruppen ergab, dass Frauen in den Abteilungen mit niedrigeren Annahmequoten tatsächlich häufiger aufgenommen wurden als Männer.

Die CDD-Metrik liefert ein einziges Maß für alle Disparitäten, die in den durch ein Attribut eines Datensatzes definierten Untergruppen gefunden wurden, indem deren Durchschnitt gebildet wird. Sie ist definiert als gewichteter Durchschnitt der demografischen Disparitäten (DDi) für jede der Untergruppen, wobei die Disparität jeder Untergruppe proportional zur Anzahl der darin enthaltenen Beobachtungen gewichtet wird. Die Formel für die bedingte demografische Disparität lautet wie folgt:

        CDD = (1/n)\$1∑ini \$1DDi 

Wobei Folgendes gilt: 
+ ∑ini = n ist die Gesamtzahl der Beobachtungen und n i ist die Anzahl der Beobachtungen für jede Untergruppe.
+ DD i = n i (0) /n (0) – n i (1) /n (1) = P i R (y 0) – P i A (y 1) ist die demografische Disparität für die i-te Untergruppe.

Die demografische Disparität für eine Untergruppe (DDi) ist der Unterschied zwischen dem Anteil der abgelehnten Ergebnisse und dem Anteil der akzeptierten Ergebnisse für jede Untergruppe.

Der Bereich der DD-Werte für binäre Ergebnisse für den vollständigen Datensatz DDd oder für seine konditionalisierten Untergruppen DDi ist [-1, \$11]. 
+ \$11: wenn es keine Ablehnungen in Facet *a* oder Untergruppe und keine Akzeptanz in Facet *d* oder Untergruppe gibt
+ Positive Werte deuten auf eine demografische Disparität hin, da Facet *d* oder Untergruppe einen größeren Anteil der abgelehnten Ergebnisse im Datensatz als der akzeptierten Ergebnisse aufweist. Je höher der Wert, desto weniger beliebt ist die Facet und desto größer ist die Disparität.
+ Negative Werte deuten darauf hin, dass kein demografischer Unterschied besteht, da die Facet *d* oder die Untergruppe einen größeren Anteil der akzeptierten Ergebnisse im Datensatz als der abgelehnten Ergebnisse aufweist. Je niedriger der Wert, desto bevorzugter ist die Facet.
+ -1: wenn es keine Ablehnungen in Facet *d* oder Untergruppe und keine Akzeptanz in Facet *a* oder Untergruppe gibt

Wenn Sie an nichts geknüpft sind, ist CDD genau dann Null, wenn DPL Null ist.

Diese Kennzahl ist nützlich, um die Konzepte der direkten und indirekten Diskriminierung sowie der objektiven Rechtfertigung in den Antidiskriminierungsgesetzen und der Rechtsprechung der EU und des Vereinigten Königreichs zu untersuchen. Weitere Informationen finden Sie unter [Warum Fairness nicht automatisiert werden kann](https://arxiv.org/abs/2005.05906). Dieses paper enthält auch die relevanten Daten und Analysen des Zulassungsfalls in Berkeley, aus dem hervorgeht, wie die Konditionierung auf Untergruppen der Zulassungsquoten der Abteilungen das Simpson-Paradoxon veranschaulicht.