

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# プライバシー強化合成データセットの生成
<a name="synthetic-data-generation"></a>

*合成データセット*には、基になる元のデータセットと同様の統計プロパティがありますが、元のデータセットに存在する実際の観測値は含まれません。プライバシーが強化された合成データセットを使用することで、データプライバシーの懸念が以前に妨げられていた新しい機械学習 (ML) モデルトレーニングのユースケースをロック解除できます。ML 入力チャネルを作成すると、ML モデルのトレーニング中に機密情報を保護するための合成データを生成できます。

合成データを使用してテンプレートを作成するときは、次のことを行う必要があります。
+ テンプレート出力を合成する必要がある
+ 出力スキーマ列を数値またはカテゴリとして分類する
+ 組織のニーズに基づいて合成データをカスタマイズする
+ プライバシー設定を調整します。
  + プライバシーレベルを設定する (イプシロン)
  + プライバシーしきい値を設定する

**警告**  
合成データ生成は、特定の個人が元のデータセットに存在するか、それらの個人の学習属性が存在するかにかかわらず、個々の属性の推測から保護します。ただし、個人を特定できる情報 (PII) を含む元のデータセットのリテラル値が合成データセットに表示されるのを防ぐことはできません。  
1 つのデータサブジェクトのみに関連付けられている入力データセット内の値は、データセットを再識別する可能性があるため、避けることをお勧めします。たとえば、郵便番号にユーザーが 1 人しかいない場合、合成データセットにその郵便番号が存在すると、そのユーザーが元のデータセットに属していたことが確認されます。高精度値の切り捨てや、まれなカタログを*他の*カタログに置き換えるなどの手法を使用して、このリスクを軽減できます。これらの変換は、ML 入力チャネルの作成に使用されるクエリの一部にすることができます。

カスタムモデルトレーニングの合成データを生成する方法の詳細については、「」を参照してください[SQL 分析テンプレートの作成](create-sql-analysis-template.md)。

合成出力を含む分析テンプレートは、ML 入力チャネルの作成にのみ使用できます。詳細については、「[AWS Clean Rooms ML での ML 入力チャネルの作成](create-ml-input-channel.md)」を参照してください。

# 合成データ生成に関する考慮事項
<a name="considerations-for-data-generation"></a>

AWS Clean Rooms ML を使用すると、コラボレーションメンバーは、元のデータセットのサブジェクトを集合データセットから不可逆的に識別解除してカスタム機械学習モデルをトレーニングする合成データセットを作成できます。コラボレーションを作成するときは、合成データ生成に対して誰が支払うかを指定するように支払い情報を設定する必要があります。合成データセットを生成し、カスタム機械学習モデルをトレーニングするための大まかな手順は次のとおりです。

1. コラボレーションメンバーは、以下を含む分析テンプレートを作成します。
   + 合成するデータセットを定義するために必要な SQL。
   + 合成データがデータプロバイダーのコンプライアンス要件を満たしていることを確認するために使用されるプライバシー関連の設定。

1. すべてのデータプロバイダーが分析テンプレートを承認すると、コラボレーションクエリランナーはテンプレートを使用して機械学習 (ML) 入力チャネルを作成します。

1. Clean Rooms ML は合成データセットを生成し、分析テンプレートで指定されたプライバシーしきい値を満たしていることを確認します。

1. すべてのしきい値が満たされると、ML 入力チャネルに合成データセットが入力されます。

1. その後、この ML 入力チャネルを使用して、コラボレーションに関連付けられたカスタム ML モデルをトレーニングできます。

重要な考慮事項:
+ Clean Rooms ML で生成された合成データは、元のデータセットで見つかった個人を特定できる情報 (PII) を含む個々の値を削除、編集、難読化、またはサニタイズ**しません**。合成データセットは、元のデータセットからレコード全体ではなく値をサンプリングすることによって生成されます。
+ 元のデータセットに同様の行が含まれている場合、合成データには元のデータセットの行と同じように見える行が含まれている可能性があります。

データセットの準備:
+ クラス分散が著しく不均衡な列は避けてください。これは、予測値または「Y」列にとって特に重要です。極端な不均衡により、合成データセットの全体的なプライバシーが低下します。
+ Clean Rooms ML は、シーケンシャルレコード間の相関関係を維持することが重要な時系列データからの合成データの生成をサポートしていません。
+ Clean Rooms ML は、テキストデータまたは非構造化データからの合成データの生成をサポートしていません。
+  以下のデータ型 (タイプ) がサポートされています。    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/clean-rooms/latest/userguide/considerations-for-data-generation.html)

機能制限:
+ 合成データ生成の場合、予測列の最大数は 1 です。
+ ターゲット列がカテゴリ別である場合、元のデータセットのカテゴリの最大数は 100 です。
+ 元のデータセットでは、行数は 1,500～250 万で、最大列数は 1.000 です。ターゲット列の null 以外の値の場合、最小行数は 1,000 です。

プライバシーメトリクス:
+ Clean Rooms ML は、生成された合成データがメンバーシップ推論攻撃 (MIAs) に対してどのように保護されているかを測定するプライバシースコアを提供します。このサービスは、合成プロセスから元のデータの 5% を保持して、このスコアを計算します。
+ 50% に近いスコアは良好と見なされます。スコアが高いほど、MIAs に対する保護が低いことを示します。スコアが 50% を大幅に下回ることはまれであり、合成されたデータ内の元のデータからパターンが表現されないことが原因である可能性があります。

ダウンストリームカスタムモデル:
+ Clean Rooms ML で生成された合成データは、最大 5 つのクラスを持つ二項分類モデルと複数クラス分類モデルのトレーニングに最適です。
+ Clean Rooms ML で生成された合成データを使用して回帰モデルをトレーニングすると、二乗平均平方根誤差 (RMSE) で測定されるモデルの精度が低下する可能性があります。