

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Metrik Bias Pra-pelatihan
<a name="clarify-measure-data-bias"></a>

Mengukur bias dalam model ML adalah langkah pertama untuk mengurangi bias. Setiap ukuran bias sesuai dengan gagasan keadilan yang berbeda. Bahkan mempertimbangkan konsep keadilan yang sederhana mengarah pada banyak ukuran berbeda yang berlaku dalam berbagai konteks. *Misalnya, pertimbangkan keadilan sehubungan dengan usia, dan, untuk kesederhanaan, bahwa paruh baya dan kelompok usia lainnya adalah dua demografi yang relevan, yang disebut sebagai aspek.* Dalam kasus model ML untuk pinjaman, kita mungkin ingin pinjaman usaha kecil dikeluarkan dengan jumlah yang sama dari kedua demografi. Atau, saat memproses pelamar kerja, kami mungkin ingin melihat jumlah anggota yang sama dari setiap demografis yang dipekerjakan. Namun, pendekatan ini mungkin mengasumsikan bahwa jumlah yang sama dari kedua kelompok umur berlaku untuk pekerjaan ini, jadi kami mungkin ingin mengkondisikan nomor yang berlaku. Lebih lanjut, kami mungkin ingin mempertimbangkan bukan apakah angka yang sama berlaku, tetapi apakah kami memiliki jumlah pelamar yang memenuhi syarat yang sama. Atau, kami dapat menganggap keadilan sebagai tingkat penerimaan yang sama dari pelamar yang memenuhi syarat di kedua demografi usia, atau, tingkat penolakan pelamar yang sama, atau keduanya. Anda dapat menggunakan kumpulan data dengan proporsi data yang berbeda pada atribut yang diinginkan. Ketidakseimbangan ini dapat menggabungkan ukuran bias yang Anda pilih. Model mungkin lebih akurat dalam mengklasifikasikan satu aspek daripada yang lain. Dengan demikian, Anda perlu memilih metrik bias yang secara konseptual sesuai untuk aplikasi dan situasi.

Kami menggunakan notasi berikut untuk membahas metrik bias. Model konseptual yang dijelaskan di sini adalah untuk klasifikasi biner, di mana peristiwa diberi label hanya memiliki dua kemungkinan hasil dalam ruang sampelnya, disebut sebagai positif (dengan nilai 1) dan negatif (dengan nilai 0). Kerangka kerja ini biasanya dapat diperluas ke klasifikasi multikategori secara langsung atau untuk kasus-kasus yang melibatkan hasil bernilai berkelanjutan bila diperlukan. *Dalam kasus klasifikasi biner, label positif dan negatif ditetapkan ke hasil yang dicatat dalam kumpulan data mentah untuk aspek yang disukai *a dan untuk aspek yang* tidak disukai d.* Label y ini disebut sebagai *label yang diamati* untuk membedakannya dari *label yang diprediksi* y' yang ditetapkan oleh model pembelajaran mesin selama tahap pelatihan atau kesimpulan dari siklus hidup ML. Label ini digunakan untuk menentukan distribusi probabilitas P a (y) dan P d (y) untuk hasil faset masing-masing. 
+ label: 
  + y mewakili n label yang diamati untuk hasil peristiwa dalam kumpulan data pelatihan.
  + y' mewakili label yang diprediksi untuk n label yang diamati dalam kumpulan data oleh model terlatih.
+ hasil:
  + Hasil positif (dengan nilai 1) untuk sampel, seperti penerimaan aplikasi.
    + n (1) adalah jumlah label yang diamati untuk hasil positif (penerimaan).
    + n' (1) adalah jumlah label yang diprediksi untuk hasil positif (penerimaan).
  + Hasil negatif (dengan nilai 0) untuk sampel, seperti penolakan aplikasi.
    + n (0) adalah jumlah label yang diamati untuk hasil negatif (penolakan).
    + n' (0) adalah jumlah label yang diprediksi untuk hasil negatif (penolakan).
+ nilai faset:
  + facet *a* - Nilai fitur yang mendefinisikan demografis yang disukai bias.
    + *n a adalah jumlah label yang diamati untuk nilai faset yang disukai: n a = n a (1) \$1 n a (0) jumlah label yang diamati positif dan negatif untuk aspek nilai a.*
    + *n' a adalah jumlah label yang diprediksi untuk nilai faset yang disukai: n' a = n' a (1) \$1 n' a (0) jumlah label hasil prediksi positif dan negatif untuk nilai faset a.* Perhatikan bahwa n' a = na.
  + facet *d* — Nilai fitur yang mendefinisikan demografis yang bias tidak disukai.
    + *n d adalah jumlah label yang diamati untuk nilai faset yang tidak disukai: n d = n d (1) \$1 n d (0) jumlah label yang diamati positif dan negatif untuk nilai faset d.* 
    + *n' d adalah jumlah label yang diprediksi untuk nilai faset yang tidak disukai: n' d = n' d (1) \$1 n' d (0) jumlah label prediksi positif dan negatif untuk nilai faset d.* Perhatikan bahwa n' d = nd.
+ distribusi probabilitas untuk hasil dari hasil data facet berlabel:
  + P a (y) adalah distribusi probabilitas dari label yang diamati untuk faset *a*. Untuk data berlabel biner, distribusi ini diberikan oleh rasio jumlah sampel dalam faset *a* berlabel dengan hasil positif terhadap jumlah total, P a (y 1) = n a (1)/na, dan rasio jumlah sampel dengan hasil negatif terhadap jumlah total, P a (y 0) = n a (0)/n. a 
  + P d (y) adalah distribusi probabilitas dari label yang diamati untuk faset *d*. Untuk data berlabel biner, distribusi ini diberikan oleh jumlah sampel dalam segi *d* berlabel hasil positif terhadap jumlah total, P d (y 1) = n d (1)/nd, dan rasio jumlah sampel dengan hasil negatif terhadap jumlah total, P d (y 0) = n d (0)/n. d 

Model yang dilatih pada data yang bias oleh kesenjangan demografis mungkin belajar dan bahkan memperburuknya. Untuk mengidentifikasi bias dalam data sebelum mengeluarkan sumber daya untuk melatih model di dalamnya, SageMaker Clarify menyediakan metrik bias data yang dapat Anda hitung pada kumpulan data mentah sebelum pelatihan. Semua metrik pra-pelatihan adalah model-agnostik karena tidak bergantung pada keluaran model dan valid untuk model apa pun. Metrik bias pertama memeriksa ketidakseimbangan aspek, tetapi bukan hasil. Ini menentukan sejauh mana jumlah data pelatihan representatif di berbagai aspek, seperti yang diinginkan untuk aplikasi. Metrik bias yang tersisa membandingkan distribusi label hasil dengan berbagai cara untuk aspek *a* dan *d* dalam data. Metrik yang berkisar di atas nilai negatif dapat mendeteksi bias negatif. Tabel berikut berisi lembar contekan untuk panduan cepat dan tautan ke metrik bias pra-pelatihan.

Metrik Bias Pra-pelatihan


| Metrik bias | Deskripsi | Contoh pertanyaan | Menafsirkan nilai metrik | 
| --- | --- | --- | --- | 
| [Ketidakseimbangan Kelas (CI)](clarify-bias-metric-class-imbalance.md) | Mengukur ketidakseimbangan jumlah anggota antara nilai faset yang berbeda. |  Mungkinkah ada bias berbasis usia karena tidak memiliki cukup data untuk demografis di luar aspek paruh baya?   |  Rentang dinormalisasi: [-1, \$11] Interpretasi: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [Perbedaan Proporsi Label (DPL)](clarify-data-bias-metric-true-label-imbalance.md) | Mengukur ketidakseimbangan hasil positif antara nilai segi yang berbeda. | Mungkinkah ada bias berbasis usia dalam prediksi MLkarena pelabelan bias nilai faset dalam data? |  Rentang untuk label aspek biner & multikategori yang dinormalisasi: [-1, \$11] Rentang untuk label kontinu: (-∞, \$1∞) Interpretasi: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [Divergensi Kullback-Leibler (KL)](clarify-data-bias-metric-kl-divergence.md) | Mengukur seberapa besar distribusi hasil dari berbagai aspek berbeda berbeda satu sama lain secara entropis.  | Seberapa berbeda distribusi untuk hasil aplikasi pinjaman untuk kelompok demografis yang berbeda? |  Rentang untuk biner, multikategori, kontinu: [0, \$1∞) Interpretasi: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [Divergensi Jensen-Shannon (JS)](clarify-data-bias-metric-jensen-shannon-divergence.md)  | Mengukur seberapa besar distribusi hasil dari berbagai aspek berbeda berbeda satu sama lain secara entropis.  | Seberapa berbeda distribusi untuk hasil aplikasi pinjaman untuk kelompok demografis yang berbeda? |  Rentang untuk biner, multikategori, kontinu: [0, \$1∞) Interpretasi: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [L p -norma (LP)](clarify-data-bias-metric-lp-norm.md)  | Mengukur perbedaan p-norma antara distribusi demografis yang berbeda dari hasil yang terkait dengan aspek yang berbeda dalam kumpulan data. | Seberapa berbeda distribusi untuk hasil aplikasi pinjaman untuk demografi yang berbeda? |  Rentang untuk biner, multikategori, kontinu: [0, \$1∞) Interpretasi: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [Jarak Variasi Total (TVD)](clarify-data-bias-metric-total-variation-distance.md)  | Mengukur setengah dari perbedaan 1 norma L antara distribusi demografis yang berbeda dari hasil yang terkait dengan aspek yang berbeda dalam kumpulan data. | Seberapa berbeda distribusi untuk hasil aplikasi pinjaman untuk demografi yang berbeda? |  Rentang untuk hasil biner, multikategori, dan berkelanjutan: [0, \$1∞) [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 
| [Kolmogorov-Smirnov (KS)](clarify-data-bias-metric-kolmogorov-smirnov.md)  | Mengukur divergensi maksimum antara hasil dalam distribusi untuk berbagai aspek dalam kumpulan data. | Hasil aplikasi perguruan tinggi mana yang memanifestasikan perbedaan terbesar menurut kelompok demografis? | Rentang nilai KS untuk hasil biner, multikategori, dan kontinu: [0, \$11][\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/clarify-measure-data-bias.html) | 
| [Disparitas Demografis Bersyarat (CDD)](clarify-data-bias-metric-cddl.md)  | Mengukur perbedaan hasil antara aspek yang berbeda secara keseluruhan, tetapi juga oleh subkelompok. | Apakah beberapa kelompok memiliki proporsi penolakan yang lebih besar untuk hasil penerimaan perguruan tinggi daripada proporsi penerimaan mereka? |  Rentang CDD: [-1, \$11] [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/clarify-measure-data-bias.html)  | 

Untuk informasi tambahan tentang metrik bias, lihat [Fairness Measures for Machine Learning in Finance](https://pages.awscloud.com/rs/112-TZM-766/images/Fairness.Measures.for.Machine.Learning.in.Finance.pdf).

**Topics**
+ [Ketidakseimbangan Kelas (CI)](clarify-bias-metric-class-imbalance.md)
+ [Perbedaan Proporsi Label (DPL)](clarify-data-bias-metric-true-label-imbalance.md)
+ [Divergensi Kullback-Leibler (KL)](clarify-data-bias-metric-kl-divergence.md)
+ [Divergensi Jensen-Shannon (JS)](clarify-data-bias-metric-jensen-shannon-divergence.md)
+ [L p -norma (LP)](clarify-data-bias-metric-lp-norm.md)
+ [Jarak Variasi Total (TVD)](clarify-data-bias-metric-total-variation-distance.md)
+ [Kolmogorov-Smirnov (KS)](clarify-data-bias-metric-kolmogorov-smirnov.md)
+ [Disparitas Demografis Bersyarat (CDD)](clarify-data-bias-metric-cddl.md)

# Ketidakseimbangan Kelas (CI)
<a name="clarify-bias-metric-class-imbalance"></a>

Bias ketidakseimbangan kelas (CI) terjadi ketika nilai faset *d* memiliki lebih sedikit sampel pelatihan jika dibandingkan dengan aspek lain *a* dalam kumpulan data. *Ini karena model secara istimewa sesuai dengan aspek yang lebih besar dengan mengorbankan aspek yang lebih kecil sehingga dapat menghasilkan kesalahan pelatihan yang lebih tinggi untuk aspek d.* *Model juga berisiko lebih tinggi untuk menyesuaikan set data yang lebih kecil, yang dapat menyebabkan kesalahan pengujian yang lebih besar untuk segi d.* Pertimbangkan contoh di mana model pembelajaran mesin dilatih terutama pada data dari individu paruh baya (aspek a), mungkin kurang akurat ketika membuat prediksi yang melibatkan orang yang lebih muda dan lebih tua (aspek d).

Rumus untuk ukuran ketidakseimbangan segi (dinormalisasi):

        CI = (n a - nd)/(n a \$1 nd)

*Dimana n a adalah jumlah anggota faset *a* dan n d bilangan untuk faset d.* Nilainya berkisar pada interval [-1, 1]. 
+ *Nilai CI positif menunjukkan aspek *A* memiliki lebih banyak sampel pelatihan dalam kumpulan data dan nilai 1 menunjukkan data hanya berisi anggota faset a.*
+  Nilai CI mendekati nol menunjukkan distribusi anggota yang lebih merata antara faset dan nilai nol menunjukkan partisi yang sama sempurna antara faset dan mewakili distribusi sampel yang seimbang dalam data pelatihan.
+ *Nilai CI negatif menunjukkan aspek *d* memiliki lebih banyak sampel pelatihan dalam kumpulan data dan nilai -1 menunjukkan data hanya berisi anggota faset d.*
+ Nilai CI di dekat salah satu nilai ekstrem -1 atau 1 sangat tidak seimbang dan berisiko besar membuat prediksi bias.

Jika ketidakseimbangan aspek yang signifikan ditemukan ada di antara aspek-aspek tersebut, Anda mungkin ingin menyeimbangkan kembali sampel sebelum melanjutkan untuk melatih model di atasnya.

# Perbedaan Proporsi Label (DPL)
<a name="clarify-data-bias-metric-true-label-imbalance"></a>

Perbedaan proporsi label (DPL) membandingkan proporsi hasil yang diamati dengan label positif untuk segi *D* dengan proporsi hasil yang diamati dengan label positif dari segi *a* dalam kumpulan data pelatihan. Misalnya, Anda dapat menggunakannya untuk membandingkan proporsi individu paruh baya (aspek *a*) dan kelompok usia lainnya (aspek *d*) yang disetujui untuk pinjaman keuangan. Model pembelajaran mesin mencoba meniru keputusan data pelatihan sedekat mungkin. Jadi model pembelajaran mesin yang dilatih pada dataset dengan DPL tinggi kemungkinan akan mencerminkan ketidakseimbangan yang sama dalam prediksi masa depannya.

Rumus untuk perbedaan proporsi label adalah sebagai berikut:

        DPL = (q a - q) d

Di mana:
+ q a = n a (1) /n a adalah proporsi faset *a* yang memiliki nilai label yang diamati 1. Misalnya, proporsi demografis paruh baya yang disetujui untuk pinjaman. *Di sini n a (1) mewakili jumlah anggota faset *a* yang mendapatkan hasil positif dan n a adalah jumlah anggota faset a.* 
+ q d = n d (1) /n d adalah proporsi faset *d* yang memiliki nilai label yang diamati 1. Misalnya, proporsi orang di luar demografi paruh baya yang disetujui untuk pinjaman. *Di sini n d (1) mewakili jumlah anggota faset *d* yang mendapatkan hasil positif dan n d adalah jumlah anggota faset d.* 

Jika DPL cukup dekat dengan 0, maka kita katakan bahwa *paritas demografis* telah tercapai.

Untuk label faset biner dan multikategori, nilai DPL berkisar pada interval (-1, 1). Untuk label kontinu, kami menetapkan ambang batas untuk menciutkan label ke biner. 
+ *Nilai DPL positif menunjukkan bahwa faset *a* memiliki proporsi hasil positif yang lebih tinggi jika dibandingkan dengan segi d.*
+ Nilai DPL mendekati nol menunjukkan proporsi hasil positif yang lebih sama antara aspek dan nilai nol menunjukkan paritas demografis yang sempurna. 
+ *Nilai DPL negatif menunjukkan bahwa facet *d* memiliki proporsi hasil positif yang lebih tinggi jika dibandingkan dengan faset a.*

Apakah DPL berskala tinggi bermasalah atau tidak bervariasi dari satu situasi ke situasi lainnya. Dalam kasus yang bermasalah, DPL berkekuatan tinggi mungkin merupakan sinyal masalah mendasar dalam data. Misalnya, kumpulan data dengan DPL tinggi mungkin mencerminkan bias atau prasangka historis terhadap kelompok demografis berbasis usia yang tidak diinginkan untuk dipelajari oleh model.

# Divergensi Kullback-Leibler (KL)
<a name="clarify-data-bias-metric-kl-divergence"></a>

*Divergensi Kullback-Leibler (KL) mengukur seberapa besar distribusi label yang diamati dari faset *a*, P a (y), menyimpang dari distribusi faset d, P (y).* d Ia juga dikenal sebagai entropi relatif P a (y) sehubungan dengan P d (y) dan mengukur jumlah informasi yang hilang saat berpindah dari P a (y) ke P d (y).

Rumus untuk divergensi Kullback-Leibler adalah sebagai berikut: 

        KL (P a \$1\$1 Pd) = Σ y P a (y) \$1 log [P a (y) /P d (y)]

Ini adalah ekspektasi perbedaan logaritmik antara probabilitas P a (y) dan P d (y), di mana ekspektasi ditimbang oleh probabilitas P (y). a Ini bukan jarak sebenarnya antara distribusi karena asimetris dan tidak memenuhi ketidaksetaraan segitiga. Implementasinya menggunakan logaritma alami, memberikan KL dalam satuan nats. Menggunakan basis logaritmik yang berbeda memberikan hasil proporsional tetapi dalam satuan yang berbeda. Misalnya, menggunakan basis 2 memberikan KL dalam satuan bit.

Misalnya, asumsikan bahwa sekelompok pemohon pinjaman memiliki tingkat persetujuan 30% (aspek *d*) dan tingkat persetujuan untuk pelamar lain (aspek *a*) adalah 80%. **Rumus Kullback-Leibler memberi Anda perbedaan distribusi label faset a dari segi d sebagai berikut:**

        KL = 0,8\$1ln (0,8/0,3) \$10,2\$1ln (0,2/0,7) = 0,53

Ada dua istilah dalam rumus di sini karena label adalah biner dalam contoh ini. Ukuran ini dapat diterapkan ke beberapa label selain yang biner. Misalnya, dalam skenario penerimaan perguruan tinggi, asumsikan pelamar dapat diberi salah satu dari tiga label kategori: y i = \$1y0, y1, y2\$1 = \$1ditolak, daftar tunggu, diterima\$1. 

Rentang nilai untuk metrik KL untuk hasil biner, multikategori, dan kontinu adalah [0, \$1∞).
+ Nilai mendekati nol berarti hasilnya didistribusikan dengan cara yang sama untuk berbagai aspek.
+ Nilai positif berarti distribusi label menyimpang, semakin positif semakin besar divergensi.

# Divergensi Jensen-Shannon (JS)
<a name="clarify-data-bias-metric-jensen-shannon-divergence"></a>

Divergensi Jensen-Shannon (JS) mengukur seberapa besar distribusi label dari berbagai aspek berbeda berbeda satu sama lain secara entropis. Ini didasarkan pada divergensi Kullback-Leibler, tetapi simetris. 

Rumus untuk divergensi Jensen-Shannon adalah sebagai berikut:

        JS = ½ \$1 [KL (P a \$1\$1 P) \$1 KL (P d \$1\$1 P)]

Dimana P = ½ (P a \$1 Pd), distribusi label rata-rata di seluruh aspek *a* dan *d*.

Kisaran nilai JS untuk hasil biner, multikategori, kontinu adalah [0, ln (2)).
+ Nilai mendekati nol berarti label didistribusikan dengan cara yang sama.
+ Nilai positif berarti distribusi label menyimpang, semakin positif semakin besar divergensi.

Metrik ini menunjukkan apakah ada perbedaan besar di salah satu label di seluruh aspek. 

# L p -norma (LP)
<a name="clarify-data-bias-metric-lp-norm"></a>

pL-norma (LP) mengukur jarak p-norma antara distribusi faset dari label yang diamati dalam kumpulan data pelatihan. Metrik ini non-negatif sehingga tidak dapat mendeteksi bias terbalik. 

Rumus untuk p norma L adalah sebagai berikut: 

        L p (Pa, Pd) = (Σ y \$1\$1P a - P d \$1\$1 p) 1/p

Dimana jarak p-norma antara titik x dan y didefinisikan sebagai berikut:

        L p (x, y) = (\$1x 1 -y 1 \$1 p \$1 \$1x -y \$1 p \$1... n \$1\$1x 2 -y 2 \$1 p) 1/p n 

Norma 2 adalah norma Euclidean. Asumsikan Anda memiliki distribusi hasil dengan tiga kategori, misalnya, y i = \$1y0, y1, y2\$1 = \$1diterima, daftar tunggu, ditolak\$1 dalam skenario multikategori penerimaan perguruan tinggi. *Anda mengambil jumlah kuadrat perbedaan antara jumlah hasil untuk aspek *a* dan d.* Jarak Euclidean yang dihasilkan dihitung sebagai berikut:

        L 2 (Pa, Pd) = [(n a (0) - n d (0)) 2 \$1 (n a (1) - n d (1)) 2 \$1 (n a (2) - n d (2)) 2] 1/2

Di mana: 
+ n a (i) adalah jumlah hasil kategori ith dalam segi *a*: misalnya n a (0) adalah jumlah faset *a yang* diterima.
+ n d (i) adalah jumlah hasil kategori ith dalam segi *d*: misalnya n d (2) adalah jumlah penolakan faset *d*.

  Rentang nilai LP untuk hasil biner, multikategori, dan kontinu adalah [0, √2), di mana:
  + Nilai mendekati nol berarti label didistribusikan dengan cara yang sama.
  + Nilai positif berarti distribusi label menyimpang, semakin positif semakin besar divergensi.

# Jarak Variasi Total (TVD)
<a name="clarify-data-bias-metric-total-variation-distance"></a>

Metrik bias data jarak variasi total (TVD) adalah setengah dari norma L1. **TVD adalah perbedaan terbesar yang mungkin antara distribusi probabilitas untuk hasil label dari segi a dan d.** 1Norma L adalah jarak Hamming, metrik yang digunakan membandingkan dua string data biner dengan menentukan jumlah minimum substitusi yang diperlukan untuk mengubah satu string ke string lainnya. Jika string harus menjadi salinan satu sama lain, itu menentukan jumlah kesalahan yang terjadi saat menyalin. *Dalam konteks deteksi bias, TVD mengukur berapa banyak hasil dalam segi *a yang* harus diubah agar sesuai dengan hasil dalam segi d.*

Rumus untuk Jarak variasi Total adalah sebagai berikut: 

        TVD = ½ \$1 L 1 (Pa, P) d

Misalnya, asumsikan Anda memiliki distribusi hasil dengan tiga kategori, y i = \$1y0, y1, y2\$1 = \$1diterima, daftar tunggu, ditolak\$1, dalam skenario multikategori penerimaan perguruan tinggi. Anda mengambil perbedaan antara jumlah aspek *a* dan *d untuk setiap hasil untuk menghitung TVD*. Hasilnya adalah sebagai berikut:

        L 1 (Pa, Pd) = \$1n a (0) - n d (0) \$1 \$1 \$1n a (1) - n d (1) \$1 \$1 \$1n a (2) - n d (2) \$1

Di mana: 
+ n a (i) adalah jumlah hasil kategori ith dalam segi *a*: misalnya n a (0) adalah jumlah faset *a yang* diterima.
+ n d (i) adalah jumlah hasil kategori ith dalam segi d: misalnya n d (2) adalah jumlah penolakan faset *d*.

  Rentang nilai TVD untuk hasil biner, multikategori, dan kontinu adalah [0, 1), di mana:
  + Nilai mendekati nol berarti label didistribusikan dengan cara yang sama.
  + Nilai positif berarti distribusi label menyimpang, semakin positif semakin besar divergensi.

# Kolmogorov-Smirnov (KS)
<a name="clarify-data-bias-metric-kolmogorov-smirnov"></a>

**Metrik bias Kolmogorov-Smirnov (KS) sama dengan divergensi maksimum antara label dalam distribusi untuk aspek a dan d dari kumpulan data.** Uji KS dua sampel yang dilaksanakan oleh SageMaker Clarify melengkapi ukuran ketidakseimbangan label lainnya dengan menemukan label yang paling tidak seimbang. 

Rumus untuk metrik Kolmogorov-Smirnov adalah sebagai berikut: 

        KS = maks (\$1P a (y) - P d (y) \$1)

Misalnya, asumsikan sekelompok pelamar (aspek *a*) ke perguruan tinggi ditolak, daftar tunggu, atau diterima masing-masing 40%, 40%, 20% dan bahwa tarif ini untuk pelamar lain (aspek *d*) adalah 20%, 10%, 70%. Maka nilai metrik bias Kolmogorov-Smirnov adalah sebagai berikut:

KS = maks (\$10,4-0,2 \$1, \$10,4-0,1\$1, \$10,2-0,7 \$1) = 0,5

Ini memberi tahu kita perbedaan maksimum antara distribusi faset adalah 0,5 dan terjadi pada tingkat penerimaan. Ada tiga istilah dalam persamaan karena label adalah multikelas kardinalitas tiga.

Rentang nilai LP untuk hasil biner, multikategori, dan kontinu adalah [0, \$11], di mana:
+ Nilai mendekati nol menunjukkan label didistribusikan secara merata antar aspek di semua kategori hasil. Misalnya, kedua aspek yang mengajukan pinjaman mendapat 50% dari penerimaan dan 50% dari penolakan.
+ Nilai di dekat satu menunjukkan label untuk satu hasil semuanya dalam satu segi. *Misalnya, facet *a* mendapat 100% dari penerimaan dan facet d tidak punya.*
+ Nilai intermiten menunjukkan derajat relatif ketidakseimbangan label maksimum.

# Disparitas Demografis Bersyarat (CDD)
<a name="clarify-data-bias-metric-cddl"></a>

Metrik disparitas demografis (DD) menentukan apakah suatu aspek memiliki proporsi yang lebih besar dari hasil yang ditolak dalam kumpulan data daripada hasil yang diterima. *Dalam kasus biner di mana ada dua aspek, pria dan wanita misalnya, yang merupakan kumpulan data, yang tidak disukai diberi label segi *d* dan yang disukai diberi label faset a.* Misalnya, dalam kasus penerimaan perguruan tinggi, jika pelamar perempuan terdiri dari 46% dari pelamar yang ditolak dan hanya terdiri dari 32% dari pelamar yang diterima, kami mengatakan bahwa ada *perbedaan demografis* karena tingkat di mana perempuan ditolak melebihi tingkat di mana mereka diterima. Pelamar perempuan diberi label facet *d* dalam kasus ini. Jika pelamar laki-laki terdiri dari 54% dari pelamar yang ditolak dan 68% dari pelamar yang diterima, maka tidak ada perbedaan demografis untuk aspek ini karena tingkat penolakan kurang dari tingkat penerimaan. Pelamar pria diberi label facet *a* dalam kasus ini. 

*Rumus untuk disparitas demografis untuk aspek yang kurang disukai d adalah sebagai berikut:* 

        DD d = n d (0) /n (0) - n d (1) /n (1) = P d R (y 0) - P d A (y 1) 

Di mana: 
+ *n (0) = n a (0) \$1 n d (0) adalah jumlah total hasil yang ditolak dalam kumpulan data untuk aspek yang disukai *a dan aspek yang* kurang beruntung d.*
+ *n (1) = n a (1) \$1 n d (1) adalah jumlah total hasil yang diterima dalam kumpulan data untuk aspek yang disukai *a dan aspek yang* kurang beruntung d.*
+ P d R (y 0) adalah proporsi hasil yang ditolak (dengan nilai 0) dalam segi *d*.
+ P d A (y 1) adalah proporsi hasil yang diterima (nilai 1) dalam segi *d*.

Untuk contoh penerimaan perguruan tinggi, perbedaan demografis untuk wanita adalah DD d = 0,46 - 0,32 = 0,14. Untuk pria DD a = 0,54 - 0,68 = - 0,14.

Metrik disparitas demografis bersyarat (CDD) yang mengkondisikan DD pada atribut yang menentukan strata subkelompok pada kumpulan data diperlukan untuk mengesampingkan paradoks Simpson. Pengelompokan kembali dapat memberikan wawasan tentang penyebab kesenjangan demografis yang jelas untuk aspek yang kurang disukai. Kasus klasik muncul dalam kasus penerimaan Berkeley di mana pria diterima pada tingkat yang lebih tinggi secara keseluruhan daripada wanita. Statistik untuk kasus ini digunakan dalam contoh perhitungan DD. Namun, ketika subkelompok departemen diperiksa, wanita terbukti memiliki tingkat penerimaan yang lebih tinggi daripada pria ketika dikondisikan oleh departemen. Penjelasannya adalah bahwa wanita telah mendaftar ke departemen dengan tingkat penerimaan yang lebih rendah daripada pria. Meneliti tingkat penerimaan subkelompok mengungkapkan bahwa wanita sebenarnya diterima pada tingkat yang lebih tinggi daripada pria untuk departemen dengan tingkat penerimaan yang lebih rendah.

Metrik CDD memberikan ukuran tunggal untuk semua perbedaan yang ditemukan dalam subkelompok yang ditentukan oleh atribut kumpulan data dengan merata-ratakannya. Ini didefinisikan sebagai rata-rata tertimbang disparitas demografis (DDi) untuk masing-masing subkelompok, dengan setiap disparitas subkelompok tertimbang secara proporsional dengan jumlah pengamatan yang terkandung. Rumus untuk disparitas demografis bersyarat adalah sebagai berikut:

        CDD = (1/n) \$1 Σ i n DD i \$1 i 

Di mana: 
+ in i = n adalah jumlah total pengamatan dan n i adalah jumlah pengamatan untuk setiap subkelompok.
+ DD i = n i (0) /n (0) - n i (1) /n (1) = P i R (y 0) - P i A (y 1) adalah disparitas demografis untuk subkelompok ith.

Perbedaan demografis untuk subkelompok (DDi) adalah perbedaan antara proporsi hasil yang ditolak dan proporsi hasil yang diterima untuk setiap subkelompok.

Kisaran nilai DD untuk hasil biner untuk kumpulan data lengkap DD d atau untuk subkelompok terkondisionalisasi DD i adalah [-1, \$11]. 
+ *\$11: ketika tidak ada penolakan dalam segi *a* atau subkelompok dan tidak ada penerimaan di segi d atau subkelompok*
+ Nilai positif menunjukkan ada perbedaan demografis karena aspek *d* atau subkelompok memiliki proporsi yang lebih besar dari hasil yang ditolak dalam kumpulan data daripada hasil yang diterima. Semakin tinggi nilainya, semakin sedikit faset dan semakin besar perbedaannya.
+ Nilai negatif menunjukkan tidak ada perbedaan demografis karena aspek *d* atau subkelompok memiliki proporsi yang lebih besar dari hasil yang diterima dalam kumpulan data daripada hasil yang ditolak. Semakin rendah nilainya, semakin disukai fasetnya.
+ *-1: ketika tidak ada penolakan dalam segi *d* atau subkelompok dan tidak ada penerimaan dalam segi a atau subkelompok*

Jika Anda tidak mengkondisikan apa pun maka CDD adalah nol jika dan hanya jika DPL adalah nol.

Metrik ini berguna untuk mengeksplorasi konsep diskriminasi langsung dan tidak langsung dan pembenaran obyektif dalam hukum dan yurisprudensi non-diskriminasi UE dan Inggris. Untuk informasi tambahan, lihat [Mengapa Keadilan Tidak Dapat Diotomatisasi](https://arxiv.org/abs/2005.05906). Paper ini juga berisi data dan analisis yang relevan dari kasus penerimaan Berkeley yang menunjukkan bagaimana kondisionalisasi pada subkelompok tingkat penerimaan departemen menggambarkan paradoks Simpson.