

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# 合計変動距離 (TVD)
<a name="clarify-data-bias-metric-total-variation-distance"></a>

合計変動距離データバイアスメトリクス (TVD) は、L1- ノルムの半分です。TVD は、ファセット a と d のラベル結果の確率分布間の可能な最大の差です。****L1- ノルムはハミング距離であり、1 つの文字列を別の文字列に変更するのに必要な置換の最小数を決定することにより、2 つのバイナリデータ文字列を比較するために使用されるメトリクスです。文字列が互いにコピーされる場合は、コピー時に発生したエラーの数を決定します。バイアス検出のコンテキストでは、TVD は、ファセット d の結果と一致するように変更する必要があるファセット a の結果の数を定量化します。****

合計変動距離の計算式は次のとおりです。

        TVD = ½\$1L1(Pa, Pd)

例えば、大学入試のマルチカテゴリシナリオで、3 つのカテゴリ (yi = \$1y0, y1, y2\$1 = \$1合格, 補欠, 不合格\$1) の結果分布があるとします。TVD を計算するために、結果ごとにファセット a と d のカウントの差を求めます。****結果は次のようになります。

        L1(Pa, Pd) = \$1na(0) - nd(0)\$1 \$1 \$1na(1) - nd(1)\$1 \$1 \$1na(2) - nd(2)\$1

コードの説明は以下のとおりです。
+ na(i) は、ファセット a の i 番目のカテゴリの結果の数です。例えば、na(0) は、ファセット a の承認の数です。****
+ nd(i) は、ファセット d の i 番目のカテゴリの結果の数です。例えば、nd(2) は、ファセット d の拒否の数です。**

  バイナリ、マルチカテゴリ、連続結果の TVD 値の範囲は、[0、1) です。
  + ゼロに近い値は、ラベルが同様に分布していることを意味します。
  + 正の値は、ラベル分布の発散を意味し、正の値が大きいほど発散が大きくなります。