

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 預測標籤中正值比例的差異 (DPPL)
<a name="clarify-post-training-bias-metric-dppl"></a>

預測標籤 中正值比例的差異 (DPPL) 指標決定模型是否針對每個構面預測差別結果。其被定義為構面 *a* 正值預測的比例 (y’ = 1) 與構面 *d* 的正值預測 (y’ = 1) 的比例之間的差異。例如，如果模型預測將放貸給 60％ 的中年人群 (構面 *a*) 和 50％ 的其他年齡組 (構面 *d*)，則可能會偏向構面 *d*。在此範例中，您必須判斷 10% 的差異是否是案例的重要偏差。

標籤比例差異 (DPL) (訓練前偏差的測量) 與 DPPL (訓練後偏差的測量) 的比較，會評估初始存在於資料集中的正比例偏差在訓練後是否變更。如果 DPPL 大於 DPL，則正比例中的偏差會在訓練後增加。如果 DPPL 小於 DPL，則模型在訓練後不會增加正比例中的偏差。比較 DPL 與 DPPL 並不保證模型會減少所有維度的偏差。例如，在考慮 [反事實翻轉測試 (FT)](clarify-post-training-bias-metric-ft.md) 或 [準確度差異 (AD)](clarify-post-training-bias-metric-ad.md) 等其他指標時，模型可能仍會有偏差。如需偏差偵測的詳細資訊，請參閱部落格文章[了解 Amazon SageMaker Clarify 如何協助偵測偏差](https://aws.amazon.com/blogs/machine-learning/learn-how-amazon-sagemaker-clarify-helps-detect-bias/)。如需 DPL 的詳細資訊，請參閱[標籤比例的差異](clarify-data-bias-metric-true-label-imbalance.md)。

DPPL 的公式為：



        DPPL = q'a - q'd

其中：
+ q'a = n'a(1)/na 是得到值 1 正值結果的構面 *a* 預測比例。在我們的例子中，預計獲得貸款核准的中年構面的比例。這裡 n'a(1) 代表面 *a* 的項目數目，其得值 1 和的正值預測結果，且 na 是構面 *a* 的項目數目。
+ q'd = n'd(1)/nd 是得到值 1 正值結果的構面 *d* 預測比例。在我們的例子中，老年人和年輕人的構面預計將獲得貸款核准。這裡 n'd(1) 代表構面 *d* 的項目數目，其得到一個正值預測結果。且 nd 是構面 *d* 的項目數目。

如果 DPPL 足夠接近 0，這表示已經達成了訓練後的*人口統計奇偶性*。

對於二進位和多類別構面標籤，標準化 DPL 值的範圍在間隔 [-1, 1] 內。對於連續性標籤，值隨間隔 (-∞, \+∞) 而變化。
+ 正 DPPL 值顯示構面 *a* 與構面 *d* 相比，具有較高的預測正結果比例。

  這被稱為*正偏差*。
+ DPPL 接近零的值顯示構面 *a* 和 *d* 間預測正值更相等的結果比例，值為零顯示完美的人口統計奇偶性。
+ 負 DPPL 值顯示構面 *d* 與構面 *a* 相比，具有較高的預測正結果的比例。這被稱為*負偏差*。