

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 總變化距離 (TVD)
<a name="clarify-data-bias-metric-total-variation-distance"></a>

總變化距離資料偏差指標 (TVD) 是 L1-範數的一半。TVD 是構面 *a* 和*d* 標籤結果的機率分布之間可能的最大差異。L1-範數是 Hamming 距離，透過確定將一個字串更改為另一個字串所需的最小替代數，比較兩個二進位資料字串的指標。如果這些字串是彼此的副本，它會決定複製時發生的錯誤數量。在偏置偵測環境中，TVD 會量化構面 *a* 必須變更多少個才能符合構面 *d* 的結果。

總變化距離的公式如下：

        TVD = ½\$1L1(Pa, Pd)

例如，假設您在大學招生多類情況中具有三個類別的結果分布，yi = \$1y0, y1, y2\$1 = \$1接受、候補清單、拒絕\$1。您可以根據每個結果的構面 *a* 和 *d* 計數之間的差異來計算 TVD。結果如下所示：

        L1(Pa, Pd) = \$1na(0) - nd(0)\$1 \$1 \$1na(1) - nd(1)\$1 \$1 \$1na(2) - nd(2)\$1

其中：
+ na(i) 是構面 *a* 中第 i 個類別結果的數目：例如 n a(0) 是構面 *a* 的接受數目。
+ nd(i) 是構面 d 中第 i 個類別結果的數目：例如 nd(2) 是構面 *d* 的拒絕數目。

  二進位、多類別和連續性結果的 TVD 值範圍為 [0, 1)，其中：
  + 接近零的值表示標籤的分布類似。
  + 正值表示標籤分布發散，正值越大發散越大。