

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Divergência de Kullback-Leibler (KL)
<a name="clarify-data-bias-metric-kl-divergence"></a>

A divergência de Kullback-Leibler (KL) mede o quanto a distribuição observada do rótulo da faceta *a*, Pa(y) diverge da distribuição da faceta *d*, Pd(y). Também é conhecida como entropia relativa de Pa(y) em relação a Pd(y) e quantifica a quantidade de informação perdida ao passar de Pa(y) para Pd(y).

A fórmula para a divergência de Kullback-Leibler é a seguinte: 

        KL(Pa \$1\$1 Pd) = ∑yPa(y)\$1log[Pa(y)/Pd(y)]

É a expectativa da diferença logarítmica entre as probabilidades Pa(y) e Pd(y), onde a expectativa é ponderada pelas probabilidades Pa(y). Essa não é uma distância real entre as distribuições, pois é assimétrica e não satisfaz a desigualdade triangular. A implementação usa logaritmos naturais, fornecendo KL em unidades de nats. O uso de bases logarítmicas diferentes fornece resultados proporcionais, mas em unidades diferentes. Por exemplo, usar a base 2 fornece KL em unidades de bits.

Por exemplo, suponha que um grupo de solicitantes de empréstimos tenha uma taxa de aprovação de 30% (faceta *d*) e que a taxa de aprovação de outros solicitantes (faceta *a*) seja de 80%. A fórmula de Kullback-Leibler fornece a divergência de distribuição de rótulos da faceta *a* da faceta *d* da seguinte forma:

        KL = 0,8\$1ln(0,8/0,3) \$1 0,2\$1ln(0,2/0,7) = 0,53

Há dois termos na fórmula aqui porque os rótulos são binários neste exemplo. Essa medida pode ser aplicada a vários rótulos, além dos binários. Por exemplo, em um cenário de admissão em faculdades, suponha que um candidato possa receber um dos três rótulos de categoria: yi = \$1y0, y1, y2\$1 = \$1rejeitado, em lista de espera, aceito\$1. 

Intervalo de valores da métrica KS para resultados binários, multicategóricos e contínuos: [0, \$1∞).
+ Valores próximos de zero significam que os resultados são distribuídos de forma semelhante para as diferentes facetas.
+ Valores positivos significam que as distribuições dos rótulos divergem; quanto mais positivas, maior a divergência.