

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 隱私權增強的合成資料集產生
<a name="synthetic-data-generation"></a>

*合成資料集*具有與其基於的原始資料集類似的統計屬性，但不包含存在於原始資料集中的真實世界觀察。透過使用隱私權增強的合成資料集，您可以解鎖資料隱私權先前所考量的新機器學習 (ML) 模型訓練使用案例。當您建立 ML 輸入通道時，您可以產生合成資料，以在訓練 ML 模型時保護敏感資訊。

使用合成資料建立範本時，您必須：
+ 要求範本輸出為合成
+ 將輸出結構描述資料欄分類為數值或分類
+ 根據組織需求自訂合成資料
+ 調整隱私權設定：
  + 設定隱私權層級 (epsilon)
  + 設定隱私權閾值

**警告**  
合成資料產生可防止推斷個別屬性，無論原始資料集中是否存在特定個人，或是否存在這些個人的學習屬性。不過，它不會阻止原始資料集的常值出現，包括個人身分識別資訊 (PII) 出現在合成資料集中。  
建議您避免輸入資料集中僅與一個資料主體相關聯的值，因為這些值可能會重新識別資料主體。例如，如果只有一個使用者住在郵遞區號中，則合成資料集中是否存在該郵遞區號，會確認使用者位於原始資料集中。可以使用截斷高精確度值或將不常見目錄取代為*其他* 等技術來降低此風險。這些轉換可以是用來建立 ML 輸入通道之查詢的一部分。

如需如何為自訂模型訓練產生合成資料的詳細資訊，請參閱 [建立 SQL 分析範本](create-sql-analysis-template.md)。

具有合成輸出的分析範本只能用來建立 ML 輸入通道。如需詳細資訊，請參閱[在 AWS Clean Rooms ML 中建立 ML 輸入通道](create-ml-input-channel.md)。

# 合成資料產生的考量事項
<a name="considerations-for-data-generation"></a>

使用 AWS Clean Rooms ML，協同合作成員可以建立合成資料集，以不可逆的方式從其集合資料集取消識別原始資料集的主體，以訓練自訂機器學習模型。建立協同合作時，您必須設定付款資訊，以指定誰支付合成資料產生的費用。以下是產生合成資料集和訓練自訂機器學習模型的高階步驟：

1. 協同合作成員會建立分析範本，其中包含：
   + 定義要合成的資料集所需的 SQL。
   + 隱私權相關組態，用於確保合成資料符合資料提供者的合規要求。

1. 所有資料提供者核准分析範本後，協同合作查詢執行器會使用範本建立機器學習 (ML) 輸入通道。

1. Clean Rooms ML 會產生合成資料集，並驗證是否符合分析範本中指定的隱私權閾值。

1. 如果滿足所有閾值，ML 輸入通道會填入合成資料集。

1. 然後，客戶可以使用此 ML 輸入通道來訓練與協同合作相關聯的自訂 ML 模型。

重要考量：
+ 在 Clean Rooms ML 中產生的合成資料**不會**移除、修訂、混淆或淨化任何個別值，包括在原始資料集中找到的個人身分識別資訊 (PII)。合成資料集是由原始資料集的取樣值產生，而不是整個記錄。
+ 如果原始資料集包含類似的資料列，則合成資料可能包含看起來與原始資料集中的資料列相同的資料列。

資料集準備：
+ 避免類別分佈明顯不平衡的資料欄。這對預測值或「Y」資料欄特別重要。極端不平衡會降低合成資料集的整體隱私權。
+ Clean Rooms ML 不支援從時間序列資料產生合成資料，其中維護序列記錄之間的關聯至關重要。
+ Clean Rooms ML 不支援從文字或非結構化資料產生合成資料。
+  目前支援下列資料類型：    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/clean-rooms/latest/userguide/considerations-for-data-generation.html)

限制:
+ 對於合成資料產生，預測資料欄的數量上限為 1。
+ 如果目標欄是分類的，則原始資料集中的類別數量上限為 100。
+ 在原始資料集中，資料列數目必須介於 1，500 到 250 萬之間，且資料欄數目上限為 1，000。對於目標欄中的非空值，資料列的最小數量為 1，000。

隱私權指標：
+ Clean Rooms ML 提供隱私權分數，可測量產生的合成資料對成員資格推論攻擊 (MIAs) 的保護程度。此服務會從合成程序中保留 5% 的原始資料來計算此分數。
+ 接近 50% 的分數被視為良好；分數越高表示對 MIAs 的保護越少。顯著低於 50% 的分數很罕見，可能是因為合成資料中原始資料的模式未呈現。

下游自訂模型：
+ Clean Rooms ML 中產生的合成資料最適合訓練二進位分類模型和最多五個類別的多類別分類模型。
+ 使用 Clean Rooms ML 中產生的合成資料訓練迴歸模型可能會導致模型準確性低，如根均方誤差 (RMSE) 所測量。