

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# トレーニング済みデータのメトリクスとモデルのバイアスのメトリクス
<a name="clarify-measure-post-training-bias"></a>

Amazon SageMaker Clarify には、公平性のさまざまな概念を定量化するのに役立つ 11 のトレーニング後のデータとモデルのバイアスメトリクスが用意されています。これらの概念をすべて同時に満たすことはできず、分析対象の潜在的なバイアスを含むケースの詳細に応じて選択されます。これらのメトリクスのほとんどは、異なる属性グループの二項分類混同行列から取得した数値の組み合わせです。公平性とバイアスは幅広いメトリクスで定義できるため、個々のユースケースに関連するメトリクスを理解し選択するには人間の判断が必要であり、顧客は適切なステークホルダーと相談して、その適用に適した公平性の尺度を決定する必要があります。

次の表記法を使用してバイアスメトリクスを説明します。ここでは二項分類の概念モデルについて説明します。この概念モデルでは、事象が、そのサンプル空間に正 (値 1) と負 (値 0) という 2 つの可能な結果のみでラベル付けされます。このフレームワークは通常、簡単な方法でマルチカテゴリ分類に拡張したり、必要に応じて連続的に数値化された結果を含むケースに拡張したりできます。二項分類の場合、正と負のラベルは、有利なファセット a と不利なファセット d の raw データセットに記録された結果に割り当てられます。****これらのラベル y は、*観測ラベル*と呼ばれ、機械学習ライフサイクルのトレーニングまたは推論段階で機械学習モデルによって割り当てられる*予測ラベル* y' とは区別されます。これらのラベルは、それぞれのファセットの結果の確率分布 Pa(y) と Pd(y) を定義するために使用されます。
+ ラベル: 
  + y は、トレーニングデータセット内のイベント結果の n 個の観測ラベルを表します。
  + y' は、データセットにある n 個の観察ラベルに対し、トレーニングされたモデルが予測したラベルを表します。
+ 結果:
  + アプリケーションの承認など、サンプルの正の結果 (値 1)。
    + n(1) は、正の結果 (承認) の観測ラベルの数です。
    + n'(1) は、正の結果 (承認) の予測ラベルの数です。
  + アプリケーションの拒否など、サンプルの負の結果 (値 0)。
    + n(0) は、負の結果 (拒否) の観測ラベルの数です。
    + n'(0) は、負の結果 (拒否) の予測ラベルの数です。
+ ファセット値:
  + ファセット a - バイアスが有利になる属性を定義する特徴値。**
    + na は、有利なファセット値の観測ラベルの数: na = na(1) \$1 na(0) ファセット値 a の正と負の観測ラベルの合計。**
    + n'a は、有利なファセット値の予測ラベルの数: n'a = n'a(1) \$1 n'a(0) ファセット値 a の正と負の予測結果ラベルの合計。**n'a = na であることに注意してください。
  + ファセット d - バイアスが不利になる属性を定義する特徴値。**
    + nd は、不利なファセット値の観測ラベルの数: nd = nd(1) \$1 nd(0) ファセット値 d の正と負の観測ラベルの合計。**
    + n'd は、不利なファセット値の予測ラベルの数: n'd = n'd(1) \$1 n'd(0) ファセット値 d の正と負の予測ラベルの合計。**n'd = nd であることに注意してください。
+ ラベル付けされたファセットデータの結果の確率分布:
  + Pa(y) は、ファセット a の観測ラベルの確率分布です。**バイナリラベル付きデータの場合、この分布は、総数に対する正の結果でラベル付けされたファセット a のサンプル数の比率 Pa(y1) = na(1)/ na と、総数に対する負の結果のサンプル数の比率 Pa(y0) = na(0)/ na で与えられます。**
  + Pd(y) は、ファセット d の観測ラベルの確率分布です。**バイナリラベル付きデータの場合、この分布は、総数に対する正の結果でラベル付けされたファセット d のサンプル数Pd(y1) = nd(1)/ nd と、総数に対する負の結果のサンプル数の比率Pd(y0) = nd(0)/ nd で与えられます。**

次の表に、クイックガイダンス用のチートシートと、トレーニング後のバイアスメトリクスへのリンクを示します。

トレーニング後のバイアスメトリクス


| トレーニング後のバイアスメトリクス | 説明 | 質問例 | メトリクス値の解釈 | 
| --- | --- | --- | --- | 
| [予測ラベルにおける正の比率の差 (DPPL)](clarify-post-training-bias-metric-dppl.md) | 有利なファセット a と不利なファセット d の間の正の予測の割合の差を測定します。 |  バイアスを示す可能性のある予測された正の結果において、属性グループ間で不均衡がありましたか。  |  正規化されたバイナリおよびマルチカテゴリファセットラベルの範囲: `[-1,+1]` 連続ラベルの範囲: (-∞, \$1∞) 解釈: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/clarify-measure-post-training-bias.html)  | 
| [異種影響 (DI)](clarify-post-training-bias-metric-di.md) | 有利なファセット a と不利なファセット d の予測ラベルの比率を測定します。 | バイアスを示す可能性のある予測された正の結果において、属性グループ間で不均衡がありましたか。 |  正規化されたバイナリ、マルチカテゴリファセット、連続ラベルの範囲: [0,∞) 解釈: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/clarify-measure-post-training-bias.html)  | 
| [予測ラベルの条件付き属性格差 (CDDPL)](clarify-post-training-bias-metric-cddpl.md)  | ファセット全体だけでなく、サブグループ別の予測ラベルの格差を測定します。 | 一部の属性グループでは、ローン申請結果で、拒否の割合が承認の割合よりも大きいですか。 |  バイナリ、マルチカテゴリ、連続結果の CDDPL 値の範囲: `[-1, +1]` [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/clarify-measure-post-training-bias.html)  | 
| [反事実フリップテスト (FT)](clarify-post-training-bias-metric-ft.md)  | ファセット d の各メンバーを調べ、ファセット a の類似メンバーが異なるモデル予測をしているかどうかを評価します。 | 特定の年齢層に属する 1 つのグループは、すべての特徴が異なる年齢層とほぼ一致しているのに、平均してより高い給料を支払われていますか。 | バイナリおよびマルチカテゴリファセットラベルの範囲は [-1, \$11] です。[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/clarify-measure-post-training-bias.html) | 
| [精度差 (AD)](clarify-post-training-bias-metric-ad.md)  | 有利なファセットと不利なファセットの予測精度の差を測定します。 | モデルは、すべての属性グループのアプリケーションのラベルを正確に予測しますか。 | バイナリおよびマルチカテゴリファセットラベルの範囲は [-1, \$11] です。[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/clarify-measure-post-training-bias.html) | 
| [リコール差 (RD)](clarify-post-training-bias-metric-rd.md)  | 有利なファセットと不利なファセットのモデルのリコールを比較します。 | ある属性は、別の属性と比較して、モデルのリコールが高いことに起因する、年齢ベースの融資のバイアスはありますか。 |  二項分類とマルチカテゴリ分類の範囲: `[-1, +1]`。 [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/clarify-measure-post-training-bias.html)  | 
| [条件付き承認の差 (DCAcc)](clarify-post-training-bias-metric-dcacc.md)  | 観測されたラベルを、モデルによって予測されたラベルと比較します。予測される肯定的な結果 (受け入れ) について、これがあらゆるファセットで同じかどうかを評価します。 | ある年齢層を別の年齢層と比較したとき、ローンが受理される頻度 (資格に基づく) は予測よりも多いですか、それとも少ないですか。 |  バイナリ、マルチカテゴリファセット、連続ラベルの範囲: (-∞, \$1∞)。 [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/clarify-measure-post-training-bias.html)  | 
| [承認率の差 (DAR)](clarify-post-training-bias-metric-dar.md)  | 有利なファセットと不利なファセット間で、予測された陽性 (TP \$1 FP) に対する観測された正の結果 (TP) の比率の差を測定します。 | すべての年齢グループにわたって対象となる申請者のローン承認を予測する場合、モデルの精度は同じですか。 | バイナリ、マルチカテゴリファセット、連続ラベルの範囲は [-1, \$11] です。[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/clarify-measure-post-training-bias.html) | 
| [特異度差 (SD)](clarify-post-training-bias-metric-sd.md)  | 有利なファセットと不利なファセットの間でモデルの特異性を比較します。 | このモデルでは、ある年齢層の特異性が他の年齢層に比べて高いと予測されているため、融資に年齢に基づくバイアスはありますか。 |  二項分類とマルチカテゴリ分類の範囲: `[-1, +1]`。 [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/clarify-measure-post-training-bias.html)  | 
| [条件付き拒否の差 (DCR)](clarify-post-training-bias-metric-dcr.md)  | 観測ラベルとモデルによって予測されたラベルと比較し、負の結果 (拒否) に対してファセット全体でこれが同じかどうかを評価します。 | ある属性で予測されるローン申請の拒否は、資格に基づく別の属性と比較して、多いですか少ないですか。 | バイナリ、マルチカテゴリファセット、連続ラベルの範囲: (-∞, \$1∞)。[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/clarify-measure-post-training-bias.html) | 
| [拒否率の差 (DRR)](clarify-post-training-bias-metric-drr.md)  | 不利なファセットと有利なファセット間で、予測された陰性 (TN \$1 FN) に対する観測された負の結果 (TN) の比率の差を測定します。 | すべての属性にわたって対象外の申請者のローン拒否を予測する場合、モデルの精度は同じですか。 | バイナリ、マルチカテゴリファセット、連続ラベルの範囲は [-1, \$11] です。[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/clarify-measure-post-training-bias.html) | 
| [処理の同等性 (TE)](clarify-post-training-bias-metric-te.md)  | 有利なファセットと不利なファセット間の偽陽性と偽陰性の比率の差を測定します。 | ローン申請では、偽陽性と偽陰性の相対比率は、すべての属性で同じですか。 | バイナリおよびマルチカテゴリファセットラベルの範囲: (-∞, \$1∞)。[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/clarify-measure-post-training-bias.html) | 
| [一般化エントロピー (GE)](clarify-post-training-bias-metric-ge.md)  | モデル予測によって各入力に割り当てられた利益 b の不平等を測定します。 | ローン申請分類の候補となる 2 つのモデルのうち、一方は望ましい結果の分布が他方よりも不均一になりますか。 | バイナリおよびマルチカテゴリファセットラベルの範囲は (0、0.5) です。モデルが誤判定のみを予測する場合、GE は定義されません。[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/clarify-measure-post-training-bias.html) | 

トレーニング後のバイアスメトリクスの詳細については、「[A Family of Fairness Measures for Machine Learning in Finance](https://pages.awscloud.com/rs/112-TZM-766/images/Fairness.Measures.for.Machine.Learning.in.Finance.pdf)」を参照してください。

**Topics**
+ [予測ラベルにおける正の比率の差 (DPPL)](clarify-post-training-bias-metric-dppl.md)
+ [異種影響 (DI)](clarify-post-training-bias-metric-di.md)
+ [条件付き承認の差 (DCAcc)](clarify-post-training-bias-metric-dcacc.md)
+ [条件付き拒否の差 (DCR)](clarify-post-training-bias-metric-dcr.md)
+ [特異度差 (SD)](clarify-post-training-bias-metric-sd.md)
+ [リコール差 (RD)](clarify-post-training-bias-metric-rd.md)
+ [承認率の差 (DAR)](clarify-post-training-bias-metric-dar.md)
+ [拒否率の差 (DRR)](clarify-post-training-bias-metric-drr.md)
+ [精度差 (AD)](clarify-post-training-bias-metric-ad.md)
+ [処理の同等性 (TE)](clarify-post-training-bias-metric-te.md)
+ [予測ラベルの条件付き属性格差 (CDDPL)](clarify-post-training-bias-metric-cddpl.md)
+ [反事実フリップテスト (FT)](clarify-post-training-bias-metric-ft.md)
+ [一般化エントロピー (GE)](clarify-post-training-bias-metric-ge.md)

# 予測ラベルにおける正の比率の差 (DPPL)
<a name="clarify-post-training-bias-metric-dppl"></a>

予測ラベルにおける正の比率の差 (DPPL) メトリクスは、モデルがファセットごとに異なる結果を予測するかどうかを決定します。これは、ファセット a の正の予測の比率 (y' = 1) とファセット d の正の予測の比率 (y' = 1) の差として定義されます。****例えば、モデル予測が中高年グループ (ファセット a) の 60% と他の年齢グループ (ファセット d) の 50% にローンを許可する場合、ファセット d に対しバイアスされている可能性があります。******この例では、バイアスのケースに対して 10% の差が重要かどうかを判断する必要があります。

トレーニング前バイアスの尺度であるラベルの割合の差 (DPL) とトレーニング後バイアスの尺度である DPPL の差を比較すると、データセットに最初から存在する正の割合のバイアスがトレーニング後に変化するかを評価できます。DPPL が DPL より大きい場合、トレーニング後に正の割合のバイアスが増加していることになります。DPPL が DPL よりも小さい場合、モデルはトレーニング後に正の割合でバイアスが増加しなかったことになります。DPL と DPPL を比較しても、モデルがあらゆるディメンションでバイアスを低減するとは限りません。例えば、[反事実フリップテスト (FT)](clarify-post-training-bias-metric-ft.md) や [精度差 (AD)](clarify-post-training-bias-metric-ad.md) など、別のメトリクスを考慮すると、モデルにバイアスがかかる可能性があります。バイアス検出の詳細については、ブログ記事「[Learn how Amazon SageMaker Clarify helps detect bias](https://aws.amazon.com/blogs/machine-learning/learn-how-amazon-sagemaker-clarify-helps-detect-bias/)」を参照してください。DPL の詳細については「[ラベルの比率の差 (DPL)](clarify-data-bias-metric-true-label-imbalance.md)」を参照してください。

DPPL 式は以下のとおりです。



        DPPL = q'a - q'd

コードの説明は以下のとおりです。
+ q'a = n'a(1)/na は、値 1 の正の結果を得るファセット a の予測される割合です。**この例では、ローンが許可されると予測される中高年ファセットの割合です。ここで、n'a(1) は、値 1 の正の予測結果を得るファセット a のメンバー数を表し、na は、ファセット a のメンバー数を表します。****
+ q'd = n'd(1)/nd は、値 1 の正の結果を得るファセット d の予測される割合です。**この例では、高齢者と若年者のファセットがローンを許可されると予測しています。ここで、n'd(1) は、正の予測結果を得るファセット d のメンバー数を表し、nd は、ファセット d のメンバー数を表します。****

DPPL が 0 に十分近い場合、トレーニング後の*属性パリティ*が達成されたことを意味します。

バイナリおよびマルチカテゴリファセットラベルの場合、正規化された DPL 値は間隔 [-1, 1] の範囲にあります。連続ラベルの場合、値は間隔 (-∞, \$1∞) で変化します。
+ 正の DPPL 値は、ファセット a が、ファセット d と比較して予測される正の結果の割合が高いことを示します。****

  これは、*正のバイアス*と呼ばれます。
+ ゼロに近い DPPL の値は、ファセット a および d 間で予測される正の結果の割合がより均等であることを示し、ゼロの値は、完全な属性パリティを示します。****
+ 負の DPPL 値は、ファセット d が、ファセット a と比較して予測される正の結果の割合が高いことを示します。****これは、*負のバイアス*と呼ばれます。

# 異種影響 (DI)
<a name="clarify-post-training-bias-metric-di"></a>

予測ラベルメトリクスの正の比率の差は、比率の形式で評価できます。

予測ラベルメトリクスの正の比率の比較は、[予測ラベルにおける正の比率の差 (DPPL)](clarify-post-training-bias-metric-dppl.md)の場合のように、差としてではなく、比率の形式で評価できます。異種影響 (DI) メトリクスは、ファセット a の正の予測 (y' = 1) の割合に対するファセット d の正の予測 (y' = 1) の割合の比率として定義されます。****例えば、モデル予測が中高年グループ (ファセット a) の 60% とその他の年齢グループ (ファセット d) の 50% にローンを許可する場合、DI = .5/.6 = 0.8 となり、ファセット d で表される他の中高年グループに対して正のバイアスと悪影響があることが示されます。******

予測ラベルの比率の計算式は次のとおりです。



        DI = q'd/q'a

コードの説明は以下のとおりです。
+ q'a = n'a(1)/na は、値 1 の正の結果を得るファセット a の予測される割合です。**この例では、ローンが許可されると予測される中高年ファセットの割合です。ここで、n'a(1) は、正の予測結果を得るファセット a のメンバー数を表し、na は、ファセット a のメンバー数を表します。****
+ q'd = n'd(1)/nd は、値 1 の正の結果を得るファセット *d* の予測される割合です。この例では、高齢者と若年者のファセットがローンを許可されると予測しています。ここで、n'd(1) は、正の予測結果を得るファセット d のメンバー数を表し、nd は、ファセット d のメンバー数を表します。****

バイナリ、マルチカテゴリファセット、連続ラベルの場合、DI 値は間隔 [0, ∞) の範囲にあります。
+ 1 より小さい値は、ファセット a が、ファセット d よりも予測される正の結果の割合が高いことを示します。****これは、*正のバイアス*と呼ばれます。
+ 値 1 は、属性パリティを示します。
+ 1 より大きい値は、ファセット d が、ファセット a よりも予測される正の結果の割合が高いことを示します。****これは、*負のバイアス*と呼ばれます。

# 条件付き承認の差 (DCAcc)
<a name="clarify-post-training-bias-metric-dcacc"></a>

このメトリクスは、観測ラベルと、モデルによって予測されたラベルを比較し、予測された正の結果に対してファセット全体でこれが同じかどうかを評価します。このメトリクスは、特定のファセットに対してモデルが予測した正の結果 (ラベル y') が、トレーニングデータセットで観測された結果 (ラベル y) と比較してどれだけ多いかを定量化するという点で、人間のバイアスを模倣することに近づいています。例えば、中高年 (ファセット a) のローン申請のトレーニングデータセットで、他の年齢グループを含むファセット (ファセット d) と比較して、資格に基づくモデルで予測されるよりも多くの承認 (正の結果) があった場合、これは中高年に有利なローンの承認方法に潜在的なバイアスがあることを示している可能性があります。****

条件付き承認の差の計算式は次のとおりです。

        DCAcc = ca - cd

コードの説明は以下のとおりです。
+ ca = na(1)/ n'a(1) は、ファセット a の値 1 (承認) の正の結果の観測数と、ファセット a の正の結果 (承認) の予測数の比率です。****
+ cd = nd(1)/ n'd(1) は、ファセット d の値 1 (承認) の正の結果の観測数と、ファセット d の予測される正の結果 (承認) の予測数の比率です。****

DCAcc メトリクスは、資格に基づく優先処理を明らかにする、正と負の両方のバイアスを捉えることができます。次のような、ローンの承認に関する年齢ベースのバイアスの例を考えてみましょう。

**例 1: 正のバイアス** 

ローンを申請した 100 人の中高年の人たち (ファセット a) と 50 人の他の年齢グループの人たち (ファセット d) からなるデータセットがあり、モデルはファセット a から 60 人、ファセット d から 30 人にローンを許可することを推奨したとします。********つまり、予測された比率には、DPPL メトリクスに関するバイアスはありません。しかし、観測ラベルは、ファセット a から 70 人、ファセット d から 20 人にローンが許可されたことを示しています。****言い換えれば、このモデルは、トレーニングデータで観測されたラベルが示唆するよりも 17% 少なく中高年のファセットに融資を許可し (70/60 = 1.17)、観測されたラベルが示唆するよりも 33% 多く他の年齢グループにローンを許可しています (20/30 = 0.67)。DCAcc 値を計算すると、次のようになります。

        DCAcc = 70/60 - 20/30 = 1/2

正の値は、中高年のファセット a に対して潜在的なバイアスがあることを示しており、他のファセット d と比較して、観測データ (バイアスがないと見なされる) が示すよりも受け入れ率が低いことを示しています。**

**例 2: 負のバイアス** 

ローンを申請した 100 人の中高年の人たち (ファセット a) と 50 人の他の年齢グループの人たち (ファセット d) からなるデータセットがあり、モデルはファセット a から 60 人、ファセット d から 30 人にローンを許可することを推奨したとします。********つまり、予測された比率には、DPPL メトリクスに関するバイアスはありません。しかし、観測ラベルは、ファセット a から 50 人、ファセット d から 40 人にローンが許可されたことを示しています。****言い換えれば、このモデルは、提案されたトレーニングデータの観測ラベルよりも中高年グループのファセットから 17% 少なくローンを許可し (50/60 = 0.83) 、他の年齢グループからは、提案された観測ラベルよりも 33% 多くローンを許可したことになります (40/30 = 1.33)。DCAcc 値を計算すると、次のようになります。

        DCAcc = 50/60 - 40/30 = -1/2

負の値は、観測されたデータ (バイアスがないと見なされる) が示すよりも、中高年ファセット a と比較して受け入れ率が低いファセット d に対して潜在的なバイアスがあることを示します。****

DCAcc を使用すると、人間参加型設定でモデル予測を監督する人間による潜在的な (意図的でない) バイアスを検出するのに役立ちます。例えば、モデルによる予測 y' にはバイアスはないが、最終的な決定は、モデル予測を変更して新しい最終バージョンの y' を生成できる (おそらく追加機能のアクセス権を持つ) 人間によって行われると仮定します。人間による追加処理は、1 つのファセットからの不均衡な数へのローンを意図せずに拒否する可能性があります。DCAcc は、このような潜在的なバイアスの検出に役立ちます。

バイナリ、マルチカテゴリファセット、連続ラベルの条件付き承認の差の値の範囲は、(-∞, \$1∞) です。
+ 正の値は、ファセット a の予測された承認数に対する観測された承認数の比率が、ファセット d の同じ比率よりも高い場合に発生します。****これらの値は、ファセット a の対象となる申請者に対するバイアスがある可能性を示しています。**比率の差が大きいほど、見かけ上のバイアスは大きくなります。
+ ゼロに近い値は、ファセット a の予測された承認数に対する観測された承認数の比率が、ファセット d の比率と似ている場合に発生します。****これらの値は、予測された承認率がラベル付きデータの観測値と一致しており、両方のファセットから対象となる申請者が同様の方法で承認されていることを示します。
+ 負の値は、ファセット a の予測された承認数に対する観測された承認数の比率が、ファセット d の同様の比率よりも低い場合に発生します。****これらの値は、ファセット d の対象となる申請者に対するバイアスがある可能性を示しています。**比率の差が負であるほど、見かけ上のバイアスは大きくなります。

# 条件付き拒否の差 (DCR)
<a name="clarify-post-training-bias-metric-dcr"></a>

このメトリクスは、観測ラベルとモデルによって予測されたラベルを比較し、負の結果 (拒否) のファセット全体でこれが同じかどうかを評価します。このメトリクスは、特定のファセットに対してモデルから得られた負の結果 (予測ラベル y') が、トレーニングデータセットのラベルで提案された結果 (観測ラベル y) と比較してどれだけ多いかを定量化するという点で、人間のバイアスを模倣することに近づいています。例えば、中高年グループ (ファセット a) のローン申請に対して、他の年齢グループを含むファセット (ファセット d) と比較して、資格に基づくモデルで予測されるよりも多くの拒否 (負の結果) があった場合、これは他のグループよりも中高年層に有利な、ローンの拒否方法における潜在的なバイアスがあることを示している可能性があります。****

条件付き承認の差の計算式は次のとおりです。

        DCR = rd - ra

コードの説明は以下のとおりです。
+ rd = nd(0)/ n'd(0) は、ファセット d の値 0 (拒否) の負の結果の観測数と、ファセット d の負の結果 (拒否) の予測数の比率です。****
+ ra = na(0)/ n'a(0) は、ファセット a の値 0 (拒否) の負の結果の観測数と、ファセット a の値 0 (拒否) の負の結果の予測数の比率です。****

DCR メトリクスは、資格に基づく優先処理を明らかにする、正と負の両方のバイアスを捉えることができます。次のような、ローンの拒否に関する年齢ベースのバイアスの例を考えてみましょう。

**例 1: 正のバイアス** 

ローンを申請した 100 人の中高年の人たち (ファセット a) と 50 人の他の年齢グループの人たち (ファセット d) からなるデータセットがあり、モデルはファセット a から 60 人、ファセット d から 30 人がローンを拒否することを推奨したとします。********つまり、予測された比率には DPPL メトリクスによるバイアスはありません。しかし、観測ラベルは、ファセット a から 50 人、ファセット d から 40 人が拒否されたことを示しています。****言い換えれば、このモデルは、トレーニングデータの観測ラベルが示唆するよりも中高年グループのファセットから 17% 多くローンを拒否し (50/60 = 0.83)、他の年齢グループからは、観測ラベルが示唆するよりも 33% 少なくローンを拒否したことになります (40/30 = 1.33)。DCR 値は、ファセット間の観測された拒否率と予測された拒否率の比率におけるこの差を定量化します。正の値は、観測されたデータ (バイアスがないとみなされる) が示すよりも他のグループと比べて拒否率が低い中高年グループに有利なバイアスが存在する可能性があることを示しています。

        DCR = 40/30 - 50/60 = 1/2

**例 2: 負のバイアス** 

ローンを申請した 100 人の中高年の人たち (ファセット a) と 50 人の他の年齢グループの人たち (ファセット d) からなるデータセットがあり、モデルはファセット a から 60 人、ファセット d から 30 人がローンを拒否することを推奨したとします。********つまり、予測された比率には DPPL メトリクスによるバイアスはありません。しかし、観測ラベルは、ファセット a から 70 人、ファセット d から 20 人が拒否されたことを示しています。****言い換えれば、このモデルは、トレーニングデータで観測されたラベルが示唆するよりも中高年グループのファセットから 17% 少なくローンを拒否し (70/60 = 1.17)、他の年齢グループからは、観測ラベルが示唆するよりも 33% 多くローンを拒否したことになります (20/30 = 0.67)。負の値は、中年のファセット a と比較してファセット a に有利なバイアスが存在する可能性があり、観測されたデータ (バイアスがないとみなされる) が示すよりも拒否率が低いことを示しています。****

        DCR = 20/30 - 70/60 = -1/2

バイナリ、マルチカテゴリファセット、連続ラベルの条件付き拒否の差の値の範囲は、(-∞, \$1∞) です。
+ 正の値は、ファセット d の予測された拒否数に対する観測された拒否数の比率が、ファセット a の比率よりも大きい場合に発生します。****これらの値は、ファセット a の対象となる申請者に対するバイアスがある可能性を示しています。**DCR メトリクスの値が大きいほど、見かけ上のバイアスは大きくなります。
+ ゼロに近い値は、ファセット a の予測された承認数に対する観測された拒否数の比率が、ファセット d の比率と似ている場合に発生します。****これらの値は、予測された拒否率がラベル付きデータの観測値と一致しており、両方のファセットから対象となる申請者が同様の方法で拒否されていることを示しています。
+ 負の値は、ファセット d の予測された拒否数に対する観測された拒否数の比率が、ファセット a の同様の比率よりも低い場合に発生します。****これらの値は、ファセット d の対象となる申請者に対するバイアスがある可能性を示しています。**負の DCR メトリクスが大きいほど、見かけ上のバイアスは大きくなります。

 

# 特異度差 (SD)
<a name="clarify-post-training-bias-metric-sd"></a>

特異度差 (SD) とは、有利なファセット a と不利なファセット d の特異度の差です。****特異度は、モデルが負の結果 (y'=0) を正しく予測する頻度を測定します。これらの特異度の差は、バイアスの潜在的な形です。

特異度は、すべての y=0 のケースがそのファセットに対して正しく予測されている場合に、そのファセットに最適です。Type I エラーと呼ばれる偽陽性をモデルが最小化すると、特異度は高くなります。例えば、ファセット a へのローンの特異度が低いことと、ファセット d へのローンの特異度が高いことの違いは、ファセット d に対するバイアスの尺度です。******

次の式は、ファセット a と d の特異度の違いを示しています。****

        SD = TNd/(TNd \$1 FPd) - TNa/(TNa \$1 FPa) = TNRd - TNRa

SD の計算に使用される以下の変数は、次のように定義されます。
+ TNd は、ファセット d に対して予測される真陰性です。**
+ FPd は、ファセット d に対して予測される偽陽性です。**
+ TNd は、ファセット a に対して予測される真陰性です**
+ FPd は、ファセット a に対して予測される偽陽性です。**
+ TNRa = TNa/(TNa \$1 FPa) は、ファセット a の真の陰性率 (特異度とも呼ばれる) です。**
+ TNRd = TNd/(TNd \$1 FPd) は、ファセット d の真の陰性率 (特異度とも呼ばれる) です。**

例えば、ファセット a と d について、次の混同行列を考えてみます。****

有利なファセット `a` の混同行列


| クラス a の予測 | 実際の結果 0 | 実際の結果 1 | Total  | 
| --- | --- | --- | --- | 
| 0 | 20 | 5 | 25 | 
| 1 | 10 | 65 | 75 | 
| Total | 30 | 70 | 100 | 

不利なファセット `d` の混同行列


| クラス d の予測 | 実際の結果 0 | 実際の結果 1 | Total  | 
| --- | --- | --- | --- | 
| 0 | 18 | 7 | 25 | 
| 1 | 5 | 20 | 25 | 
| Total | 23 | 27 | 50 | 

特異度差の値は `SD = 18/(18+5) - 20/(20+10) = 0.7826 - 0.6667 = 0.1159` で、これはファセット d に対するバイアスを示しています。**

二項分類とマルチカテゴリ分類のファセット a と d 間の特異度の差の値の範囲は、`[-1, +1]` です。****このメトリクスは、連続ラベルの場合には使用できません。SD のさまざまな値が意味するものは次のとおりです。
+ 正の値は、ファセット a よりもファセット d の方が、特異度が高い場合に得られます。****このことから、モデルではファセット d の偽陽性がファセット a よりも少ないことが示唆されます。****正の値はファセット d に対するバイアスを示します。**
+ ゼロに近い値は、比較されるファセットの特異度が類似していることを示します。これは、モデルが両方のファセットでほぼ同数の偽陽性を検出し、バイアスがないことを示唆しています。
+ 負の値は、ファセット d よりもファセット a の方が、特異度が高い場合に得られます。****このことから、モデルではファセット a の偽陽性がファセット d よりも多いことが示唆されます。****負の値はファセット a に対するバイアスを示します。**

# リコール差 (RD)
<a name="clarify-post-training-bias-metric-rd"></a>

リコール差 (RD) メトリクスは、有利なファセット a と不利なファセット d 間のモデルのリコールの差です。****これらのリコールの差は、バイアスの潜在的な形です。リコールは真陽性率 (TPR) で、モデルが正の結果を受け取る場合を正しく予測する頻度を測定します。リコールは、すべての y=1 のケースがそのファセットの y'=1 として正しく予測されている場合に、ファセットに最適です。モデルがタイプ II エラーと呼ばれる偽陰性を最小化すると、リコールが大きくなります。例えば、ローンの対象となるべき 2 つの異なるグループ (ファセット a と d) に属する人のうち、何人がモデルによって正しく検出されましたか。****ファセット a への融資ではリコール率が高いが、ファセット d への融資ではリコール率が低い場合、その差はファセット d に属するグループに対するこのバイアスの測定値を提供します。******

ファセット a および d のリコール率の差の計算式は次のとおりです。****

        RD = TPa/(TPa \$1 FNa) - TPd/(TPd \$1 FNd) = TPRa - TPRd 

コードの説明は以下のとおりです。
+ TPa は、ファセット a に対して予測される真陽性です。**
+ FNa は、ファセット a に対して予測される偽陰性です。**
+ TPd は、ファセット d に対して予測される真陽性です。**
+ FNd は、ファセット d に対して予測される偽陰性です。**
+ TPRa = TPa/(TPa \$1 FNa) は、ファセット a のリコールまたはその真陽性率です。**
+ TPRd TPd/(TPd \$1 FNd) は、ファセット d のリコールまたはその真陽性率です。**

例えば、ファセット a と d について、次の混同行列を考えてみます。****

有利なファセット a の混同行列


| クラス a の予測 | 実際の結果 0 | 実際の結果 1 | Total  | 
| --- | --- | --- | --- | 
| 0 | 20 | 5 | 25 | 
| 1 | 10 | 65 | 75 | 
| Total | 30 | 70 | 100 | 

不利なファセット d の混同行列


| クラス d の予測 | 実際の結果 0 | 実際の結果 1 | Total  | 
| --- | --- | --- | --- | 
| 0 | 18 | 7 | 25 | 
| 1 | 5 | 20 | 25 | 
| Total | 23 | 27 | 50 | 

リコール差の値は、RD = 65/70 - 20/27 = 0.93 - 0.74 = 0.19 で、ファセット *d* に対するバイアスを示します。

二項分類とマルチカテゴリ分類のファセット a と d 間のリコール差の値の範囲は、[-1, \$11] です。****このメトリクスは、連続ラベルの場合には使用できません。
+ 正の値は、ファセット d よりもファセット a の方が、リコールが高い場合に得られます。****これは、モデルが、バイアスの形式であるファセット d よりもファセット a の真陽性をより多く検出することを示しています。****
+ ゼロに近い値は、比較されるファセットのリコールが類似していることを示します。これは、モデルがこれらのファセットの両方でほぼ同じ数の真陽性を検出し、バイアスがないことを示しています。
+ 負の値は、ファセット a よりもファセット d の方が、リコールが高い場合に得られます。****これは、モデルが、バイアスの形式であるファセット a よりもファセット d の真陽性をより多く検出することを示しています。****

# 承認率の差 (DAR)
<a name="clarify-post-training-bias-metric-dar"></a>

承認率の差 (DAR) メトリクスは、ファセット a および d の観測された陽性 (TP \$1 FP) に対する真陽性 (TP) 予測の比率の差です。****このメトリクスは、これらの 2 つのファセットからの承認を予測するためのモデルの精度の差を測定します。精度は、対象となる候補のプールから、モデルによってそのように識別された対象となる候補の割合を測定します。対象となる申請者を予測するためのモデルの精度がファセット間で異なる場合、これはバイアスであり、その大きさは DAR によって測定されます。

ファセット a および d の承認率の差の計算式は次のとおりです。****

        DAR = TPa/(TPa \$1 FPa) - TPd/(TPd \$1 FPd) 

コードの説明は以下のとおりです。
+ TPa は、ファセット a に対して予測される真陽性です。**
+ FPa は、ファセット a に対して予測される偽陽性です。**
+ TPd は、ファセット d に対して予測される真陽性です。**
+ FPd は、ファセット d に対して予測される偽陽性です。**

例えば、モデルが 70 人の中高年層の申請者 (ファセット a) のローンを承認し (正の予測ラベル)、そのうち 35 人だけが実際に承認されたとします (正の観測ラベル)。**また、モデルが他の年齢層 (ファセット d) から 100 人の申請者のローンを承認し (正の予測ラベル)、そのうち 40 人だけが実際に承認されたとします (正の観測ラベル)。**そうすると、DAR = 35/70 - 40/100 = 0.10 となり、これは、2 番目の年齢層 (ファセット d) からの対象となる人たちに対する潜在的なバイアスを示しています。**

バイナリ、マルチカテゴリファセット、連続ラベルの DAR の値の範囲は、[-1, \$11] です。
+ 正の値は、ファセット a の予測された正の結果 (承認) と観測された正の結果 (対象となる申請者) の比率が、ファセット d の同様の比率よりも大きい場合に発生します。****これらの値は、ファセット d で比較的多くの偽陽性が発生することによって引き起こされる不利なファセット d に対するバイアスの可能性を示します。****比率の差が大きいほど、見かけ上のバイアスは大きくなります。
+ ゼロに近い値は、ファセット a と d の予測された正の結果 (承認) と観測された正の結果 (対象となる申請者) の比率が類似した値を持ち、正の結果の観察ラベルがモデルによって同じ精度で予測されていることを示す場合に発生します。****
+ 負の値は、ファセット d の予測された正の結果 (承認) と観測された正の結果 (対象となる申請者) の比率が、ファセット a の比率よりも大きい場合に発生します。****これらの値は、ファセット a で比較的多くの偽陽性が発生することによって引き起こされる有利なファセット a に対するバイアスの可能性を示します。****比率の差が負であるほど、見かけ上のバイアスは大きくなります。

# 拒否率の差 (DRR)
<a name="clarify-post-training-bias-metric-drr"></a>

拒否率の差 (DRR) メトリクスは、ファセット a と d の観測された負の結果 (TN \$1 FN) に対する真陰性 (TN) 予測の比率の差です。****このメトリクスは、これらの 2 つのファセットからの拒否を予測するためのモデルの精度の差を測定します。精度は、対象外のプールから、モデルによってそのように識別された対象外の候補の割合を測定します。対象外の申請者を予測するためのモデルの精度がファセット間で異なる場合、これはバイアスであり、その大きさは DRR によって測定されます。

ファセット a および d の拒否率の差の計算式は次のとおりです。****

        DRR = TNd/(TNd \$1 FNd) - TNa/(TNa \$1 FNa) 

前述の DRR 方程式の構成要素は次のとおりです。
+ TNd は、ファセット d に対して予測される真陰性です。**
+ FNd は、ファセット d に対して予測される偽陰性です。**
+ TPa は、ファセット a に対して予測される真陰性です。**
+ FNa は、ファセット a に対して予測される偽陰性です。**

例えば、モデルが 100 人の中高年のローンの申請者 (ファセット a) を拒否し (負の予測ラベル)、そのうち 80 人は実際に対象外だとします (負の観察ラベル)。**また、モデルが他の年齢層 (ファセット d) から 50 人のローンの申請者を拒否し (負の予測ラベル)、そのうち 40 人だけが実際に対象外だとします (負の観測ラベル)。**そうすると、DRR = 40/50 - 80/100 = 0 となり、バイアスがないことがわかります。

バイナリ、マルチカテゴリファセット、連続ラベルの DRR の値の範囲は、[-1, \$11] です。
+ 正の値は、ファセット d の予測された負の結果 (拒否) と観測された負の結果 (資格のない申請者) の比率が、ファセット a の同様の比率よりも大きい場合に発生します。****これらの値は、ファセット a で比較的多くの偽陰性が発生することによって引き起こされる有利なファセット a に対するバイアスの可能性を示します。****比率の差が大きいほど、見かけ上のバイアスは大きくなります。
+ ゼロに近い値は、ファセット a と d の予測された負の結果 (拒否) と観測された負の結果 (対象となる申請者) の比率が類似した値を持ち、負の結果の観察ラベルがモデルによって同じ精度で予測されていることを示す場合に発生します。****
+ 負の値は、ファセット a の予測された負の結果 (拒否) と観測された負の結果 (対象となる申請者) の比率が、ファセット d の比率よりも大きい場合に発生します。****これらの値は、ファセット d で比較的多くの偽陽性が発生することによって引き起こされる不利なファセット d に対するバイアスの可能性を示します。****比率の差が負であるほど、見かけ上のバイアスは大きくなります。

# 精度差 (AD)
<a name="clarify-post-training-bias-metric-ad"></a>

精度差 (AD) メトリクスは、異なるファセットの予測精度の差です。このメトリクスは、モデルによる分類が、あるファセットに対して他のファセットよりも正確であるかどうかを決定します。AD は、1 つのファセットでタイプ I とタイプ II のエラーの割合が大きいかどうかを示します。ただし、タイプ I とタイプ II のエラーを区別することはできません。例えば、モデルの精度は年齢層が異なっても同じになりますが、エラーは、ある年齢ベースのグループでは大部分が偽陽性 (タイプ I エラー)で 、他の年齢層では大部分が偽陰性 (タイプ II エラー) である可能性があります。

また、中高年層 (ファセット a) に対して、別の年齢層 (ファセット d) よりもはるかに高い精度でローンの承認が行われる場合、2 番目の年齢層の対象となる申請者の割合が大きい方がローンを拒否される (FN) か、そのグループの対象外の申請者の割合が大きい方がローンを受ける (FP) か、またはその両方になります。****このため、両方の年齢ベースのグループで承認されたローンの割合がほぼ同じであっても、2 番目のグループでグループの不公平につながる可能性があります。これはゼロに近い DPPL 値で示されます。

AD メトリクスの計算式は、ファセット a の予測精度 ACCa から、ファセット d の予測精度 ACCd を引いた差です。****

        AD = ACCa - ACCd

コードの説明は以下のとおりです。
+ ACCa = (TPa \$1 TNa)/(TPa \$1 TNa \$1 FPa \$1 FNa) 
  + TPa は、ファセット a に対して予測される真陽性です**
  + TNa は、ファセット a に対して予測される真陰性です**
  + FPa は、ファセット a に対して予測される偽陽性です**
  + FNa は、ファセット a に対して予測される偽陰性です**
+ ACCd = (TPd \$1 TNd)/(TPd \$1 TNd \$1 FPd \$1 FNd)
  + TPd は、ファセット d に対して予測される真陽性です**
  + TNd は、ファセット d に対して予測される真陰性です**
  + FPd は、ファセット d に対して予測される偽陽性です**
  + FNd は、ファセット d に対して予測される偽陰性です**

例えば、あるモデルが 100 人のファセット a から 70 人の申請者のローンを承認し、残りの 30 人を拒否したとします。10 人はローンを提供されるべきではなく (FPa)、承認されるべき 60 人は承認されました (TPa)。拒否のうち 20 人は承認されるべきであり (FNa)、10 人は正しく拒否されました (TNa)。**ファセット a の精度は次のとおりです。**

        ACCa = (60 \$1 10)/(60 \$1 10 \$1 20 \$1 10) = 0.7

次に、あるモデルが 100 人のファセット d から 50 人の申請者のローンを承認し、残りの 50 人を拒否したとします。10 人はローンを提供されるべきではなく (FPa)、承認されるべき 40 人が承認されました (TPa)。承認されるべき 40 人が拒否され (FNa)、10 人は正しく拒否されました (TNa)。**ファセット a の精度は次のように決定されます。**

        ACCd= (40 \$1 10)/(40 \$1 10 \$1 40 \$1 10) = 0.5

したがって、精度の差は、AD = ACCa - ACCd = 0.7 - 0.5 = 0.2 となります。これは、メトリクスが正の値であるため、ファセット d に対してバイアスがあることを示します。**

バイナリおよびマルチカテゴリファセットラベルの AD の値の範囲は、[-1, \$11] です。
+ 正の値は、ファセット a の予測精度がファセット d の予測精度より大きい場合に発生します。****これは、ファセット d が、偽陽性 (タイプ I エラー) または偽陰性 (タイプ II エラー) の組み合わせで、より大きな問題を受けることを示します。**これは、不利なファセット d に対して潜在的なバイアスがあることを意味します。**
+ ゼロに近い値は、ファセット a の予測精度がファセット d の予測精度と類似している場合に発生します。****
+ 負の値は、ファセット d の予測精度がファセット a の予測精度より大きい場合に発生します。****これは、ファセット a が、偽陽性 (タイプ I エラー) または偽陰性 (タイプ II エラー) の組み合わせでより大きな問題を受けることを示します。**これは、有利なファセット a に対してバイアスがあることを意味します。**

# 処理の同等性 (TE)
<a name="clarify-post-training-bias-metric-te"></a>

処理の同等性 (TE) は、ファセット a と d 間の偽陰性と偽陽性の比率の差です。****このメトリクスの主な考え方は、グループ全体の精度が同じであっても、あるグループに対するエラーが、他のグループよりも、より有害であるかどうかを評価することです。エラー率は偽陽性と偽陰性の合計から得られますが、これら 2 つの内訳はファセット間で大きく異なる可能性があります。TE は、エラーがファセット全体で類似または異なる方法で補正されているかどうかを測定します。

処理の同等性の計算式は次のとおりです。

        TE = FNd/FPd - FNa/FPa

コードの説明は以下のとおりです。
+ FNd は、ファセット d に対して予測される偽陰性です。**
+ FPd は、ファセット d に対して予測される偽陽性です。**
+ FNa は、ファセット a に対して予測される偽陰性です。**
+ FPa は、ファセット a に対して予測される偽陽性です。**

FPa または FPd がゼロの場合、メトリクスは無制限になることに注意してください。

例えば、ファセット a から 100 人、ファセット d から 50 人のローン申請者がいるとします。****ファセット a の場合、8 人が誤ってローンを拒否され (FNa)、別の 6 人が誤って承認されました (FPa)。**残りの予測は正しかったので、TPa \$1 TNa = 86 になります。ファセット d の場合、5 人が誤って拒否され (FNd)、2 人が誤って承認されました (FPd)。**残りの予測は正しかったので、TPd \$1 TNd = 43 になります。偽陰性と偽陽性の比率は、ファセット a では 8/6 = 1.33、ファセット d では 5/2 = 2.5 になります。****したがって、両方のファセットの精度が同じであっても、TE = 2.5 - 1.33 = 1.167 になります。

        ACCa = (86)/(86\$1 8 \$1 6) = 0.86

        ACCd = (43)/(43 \$1 5 \$1 2) = 0.86

バイナリおよびマルチカテゴリファセットラベルの条件付き拒否の差の値の範囲は、(-∞, \$1∞) です。TE メトリクスは、連続ラベルには定義されていません。このメトリクスの解釈は、偽陽性 (タイプ I エラー) と偽陰性 (タイプ II エラー) の相対的な重要性により異なります。
+ 正の値は、ファセット d の偽陰性と偽陽性の比率がファセット a より大きい場合に発生します。****
+ ゼロに近い値は、ファセット a の偽陰性と偽陽性の比率がファセット d と似ている場合に発生します。****
+ 負の値は、ファセット d の偽陰性と偽陽性の比率がファセット a より小さい場合に発生します。****

**注記**  
以前のバージョンでは、取り扱いの平等性は FNd / FPd - FNa / FPa ではなく FPa / FNa - FPd / FNd として計算されると記載されていました。ただし、どちらのバージョンも使用できます。詳細については、「[https://pages.awscloud.com/rs/112-TZM-766/images/Fairness.Measures.for.Machine.Learning.in.Finance.pdf](https://pages.awscloud.com/rs/112-TZM-766/images/Fairness.Measures.for.Machine.Learning.in.Finance.pdf)」を参照してください。

# 予測ラベルの条件付き属性格差 (CDDPL)
<a name="clarify-post-training-bias-metric-cddpl"></a>

属性格差メトリクス (DDPL) は、ファセット d が、予測された拒否ラベルの割合が予測された承認ラベルの割合よりも大きいかどうかを決定します。**これにより、ファセット全体で予測される拒否率と承認率の差を比較できます。このメトリクスは、観測ラベルではなく予測ラベルから計算される点を除いて、トレーニング前の CDD メトリクスとまったく同じです。このメトリクスは、(-1,\$11) の範囲にあります。

ファセット d のラベルに対する属性格差予測の計算式は次のとおりです。**

        DDPLd = n'd(0)/n'(0) - n'd(1)/n'(1) = PdR(y'0) - PdA(y'1) 

コードの説明は以下のとおりです。
+ n'(0) = n'a(0) \$1 n'd(0) は、ファセット a と d の予測された拒否ラベルの数です。****
+ n'(1) = n'a(1) \$1 n'd(1) は、ファセット a と d の予測された承認ラベルの数です。****
+ PdR(y'0) は、ファセット d の予測された拒否ラベル (値 0) の割合です。**
+ PdA(y'1) は、ファセット d の予測された承認ラベル (値 1) の割合です。**

シンプソンのパラドックスを除外するには、データセット上のサブグループの層を定義する属性に対して DDPL を条件付ける予測ラベルの条件付き属性格差 (CDDPL) メトリクスが必要です。再グループ化により、有利でないファセットの明らかな属性格差の原因についてインサイトを得ることができます。典型的な例は、バークレー校の入試で、男性の方が女性よりも全体的に合格率が高かったというものです。しかし、学科別のサブグループを調べると、学科別では女性の方が男性よりも高い合格率であることが示されました。その説明は、女性は男性よりも合格率の低い学科に志願していたということでした。サブグループ別の合格率を調べると、合格率の低い学科では、実際に女性の方が男性よりも高い合格率であることがわかりました。

CDDPL メトリクスは、データセットの属性によって定義されたサブグループに見られる格差をすべて平均化することで、1 つの測定値を提供します。これは、各サブグループの予測ラベル (DDPLi) における属性格差の加重平均として定義され、各サブグループの格差は、含まれる観測値の数に比例して加重されます。予測ラベルの条件付き属性格差の計算式は次のとおりです。

        CDDPL = (1/n)\$1∑ini \$1DDPLi 

コードの説明は以下のとおりです。
+ ∑ini = n は、観測値の総数であり、niは、各サブグループの観測値の数です。
+ DDPLi = n'i(0)/n(0) - n'i(1)/n(1) = PiR(y'0) - PiA(y'1) は、サブグループの予測ラベルにおける属性格差です。

したがって、予測ラベルにおけるサブグループの属性格差 (DDPLi) は、各サブグループの予測された拒否ラベルの割合と承認ラベルの割合の差です。

バイナリ、マルチカテゴリ、連続結果の DDPL 値の範囲は、[-1,\$11] です。
+ \$11: ファセット a またはサブグループに対して予測された拒否ラベルがなく、ファセット d またはサブグループに対して予測された承認がない場合。****
+ 正の値は、ファセット d またはサブグループが、予測された拒否ラベルの割合が予測された承認ラベルの割合よりも大きいため、予測ラベルに属性格差があることを示します。**値が大きいほど、格差が大きくなります。
+ ゼロに近い値は、平均して属性格差がないことを示します。
+ 負の値は、ファセット d またはサブグループが、予測された拒否ラベルの割合が予測された承認ラベルの割合よりも大きいため、予測ラベルに属性格差があることを示します。**値が小さいほど、格差が大きくなります。
+ -1: ファセット d またはサブグループに対して予測された拒否ラベルがなく、ファセット a またはサブグループに対して予測された承認がない場合。****

# 反事実フリップテスト (FT)
<a name="clarify-post-training-bias-metric-ft"></a>

フリップテストは、ファセット d の各メンバーを調べ、ファセット a の類似したメンバーが異なるモデル予測を持っているかどうかを評価するアプローチです。****ファセット a のメンバーは、ファセット d からの観測の k 最近傍になるよう選択されます。****反対のグループの最近傍が異なる予測を受ける数を評価します。反転した予測は正から負に、またはその逆になることがあります。

反事実フリップテストの計算式は、2 つのセットの基数の差をファセット d のメンバー数で割ったものです。**

        FT = (F\$1 - F-)/nd

コードの説明は以下のとおりです。
+ F\$1 = は、不利な結果を得た不利なファセット d メンバーのうち、有利なファセット a の最近傍が有利な結果を受け取った数でず。****
+ F- = は、有利な結果を得た不利なファセット d メンバーのうち、有利なファセット a の最近傍が不利な結果を受け取った数でず。****
+ nd は、ファセット d のサンプルサイズです。**

バイナリおよびマルチカテゴリファセットラベルの反事実フリップテストの値の範囲は、[-1, \$11] です。連続ラベルの場合、ラベルをバイナリに折りたたむためのしきい値を設定します。
+ 正の値は、不利なファセット d の不利な反事実フリップテスト決定数が有利な反事実フリップテスト決定数を上回る場合に発生します。**
+ ゼロに近い値は、不利な反事実フリップテスト決定数と有利な反事実フリップテスト決定数のバランスがとれるときに発生します。
+ 負の値は、不利なファセット d の不利な反事実フリップテスト決定数が有利な反事実フリップテスト決定数を下回る場合に発生します。**

# 一般化エントロピー (GE)
<a name="clarify-post-training-bias-metric-ge"></a>

一般化エントロピー指数 (GE) は、予測ラベルと観測ラベルの利益 `b` の差を測定します。偽陽性が予測されると利益が生じます。偽陽性は、陰性の観測 (y=0) に陽性の予測 (y'=1) がある場合に発生します。また、観測ラベルと予測ラベルが同じ場合、つまり真陽性と真陰性とも呼ばれる場合にも利益が生じます。偽陰性が予測された場合には利益は生じません。偽陰性は、陽性の観測 (y=1) が陰性の結果 (y'=0) になると予測される場合に発生します。利益 `b` は次のように定義されます。

```
 b = y' - y + 1
```

この定義を使用すると、偽陽性は `2` の利益 `b` を受け、偽陰性は `0` の利益を受けます。真陽性と真陰性はどちらも `1` の利益を受けます。

GE メトリクスは、重み `alpha` を `2` に設定した[一般化エントロピー指数](https://en.wikipedia.org/wiki/Generalized_entropy_index) (GE) に従って計算されます。この重みによって、さまざまな利益値に対する感度が決まります。`alpha` が小さいほど、小さい値に対する感度が高くなります。

![\[アルファパラメータを 2 に設定した一般化エントロピー指数を定義する方程式。\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/clarify-post-training-bias-metric-ge.png)


GE の計算に使用される以下の変数は、次のように定義されます。
+ bi は `ith` データポイントが受ける利益です。
+ b' はすべての利益の平均です。

GE の範囲は 0～0.5 で、値がゼロの場合はすべてのデータポイントで利益に不平等がないことを示します。これは、すべての入力が正しく予測された場合か、すべての予測が偽陽性の場合に発生します。すべての予測が偽陰性の場合、GE は未定義です。

**注記**  
GE というメトリクスは、ファセット値が有利か不利かには依存しません。