

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 柯爾莫哥洛夫-斯米爾諾夫 (KS)
<a name="clarify-data-bias-metric-kolmogorov-smirnov"></a>

柯爾莫哥洛夫-斯米爾諾夫偏差量指標 (KS) 等於資料集構面 *a* 和 *d* 的分布中標籤的最大發散。SageMaker Clarify 進行的兩樣本 KS 檢定透過找到最不平衡的標籤補充標籤不平衡的其他量值。

柯爾莫哥洛夫-斯米爾諾夫指標的公式如下：

        KS = max(\$1Pa(y) - Pd(y)\$1)

例如，假設一組申請人 (構面 *a*) 被大學拒絕，候補或接受分別為 40％、40％、20％，其他申請人 (構面 *d*) 的比率為 20％、10％、70％。然後，柯爾莫哥洛夫-斯米爾諾夫偏差指標值如下所示：

KS = max(\$10.4-0.2\$1, \$10.4-0.1\$1, \$10.2-0.7\$1) = 0.5

這告訴我們構面分布之間的最大發散是 0.5，且發散是發生在接受率。方程式中有三項，因為標籤是基數 3 的多元分類。

二進位、多類別和連續性結果的 LP 值範圍為 [0, \$11]，其中：
+ 接近零的值顯示標籤在所有結果類別的構面之間均勻分布。例如，申請貸款的兩個構面都獲得了 50％ 的接受率和 50％ 的拒絕。
+ 一個附近的值顯示一個結果的標籤都在一個構面。例如，構面 *a* 獲得了 100％ 的接受，而構面 *d* 沒有。
+ 間歇值顯示最大標籤不平衡的相對程度。