

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 隐私增强型合成数据集生成
<a name="synthetic-data-generation"></a>

*合成数据集*与其所基于的原始数据集具有相似的统计特性，但不包含原始数据集中存在的真实观测结果。通过使用隐私增强型合成数据集，您可以解锁新的机器学习 (ML) 模型训练用例，而这些用例是数据隐私问题以前阻止的。创建 ML 输入通道时，可以在训练 ML 模型时生成合成数据以保护敏感信息。

使用合成数据创建模板时，您必须：
+ 要求模板输出是合成的
+ 将输出架构列分类为数字列或分类列
+ 根据组织需求自定义合成数据
+ 调整隐私设置：
  + 设置隐私级别 (epsilon)
  + 配置隐私阈值

**警告**  
合成数据生成可以防止推断出个人属性，无论特定个体存在于原始数据集中，还是存在这些个体的学习属性。但是，它并不能阻止原始数据集中的文字值，包括个人身份信息 (PII) 出现在合成数据集中。  
我们建议避免输入数据集中仅与一个数据主体关联的值，因为这些值可能会重新识别数据主体。例如，如果只有一个用户居住在邮政编码中，则合成数据集中存在该邮政编码将确认该用户位于原始数据集中。诸如截断高精度值或用*其他*目录替换不常见的目录之类的技术可以用来降低这种风险。这些转换可以是用于创建 ML 输入通道的查询的一部分。

有关如何为自定义模型训练生成合成数据的更多信息，请参阅[创建 SQL 分析模板](create-sql-analysis-template.md)。

带有合成输出的分析模板只能用于创建 ML 输入通道。有关更多信息，请参阅 [在 AWS Clean Rooms ML 中创建机器学习输入通道](create-ml-input-channel.md)。

# 合成数据生成的注意事项
<a name="considerations-for-data-generation"></a>

借助 AWS Clean Rooms ML，协作成员可以创建一个合成数据集，该数据集可以不可逆转地将原始数据集的主体从其集体数据集中去识别出来，从而训练自定义机器学习模型。创建协作时，您必须配置付款信息，以指定谁为合成数据生成付费。以下是生成合成数据集和训练自定义机器学习模型的高级步骤：

1. 协作成员创建的分析模板包括：
   + 需要使用 SQL 来定义要合成的数据集。
   + 与隐私相关的配置，用于确保合成数据符合数据提供者的合规性要求。

1. 一旦所有数据提供者都批准了分析模板，协作查询运行器就会使用该模板创建一个机器学习 (ML) 输入通道。

1. Clean Rooms ML 生成合成数据集并验证其是否符合分析模板中指定的隐私阈值。

1. 如果满足所有阈值，则使用合成数据集填充 ML 输入通道。

1. 然后，客户可以使用此机器学习输入渠道来训练与协作相关的自定义 ML 模型。

重要注意事项：
+ 在 Clean Rooms ML 中生成的合成数据**不会**删除、编辑、混淆或消毒任何个人值，包括在原始数据集中找到的个人身份信息 (PII)。合成数据集是由原始数据集中的采样值生成的，但不是整个记录生成的。
+ 如果原始数据集包含相似的行，则合成数据可能包含看起来与原始数据集中的行完全相同的行。

数据集准备：
+ 避免使用类别分布严重不平衡的列。这对于预测值或 “Y” 列尤其重要。极端的不平衡会降低合成数据集的整体隐私。
+ Clean Rooms ML 不支持根据时间序列数据生成合成数据，在这些数据中，保持顺序记录之间的相关性非常重要。
+ Clean Rooms ML 不支持从文本或非结构化数据生成合成数据。
+  支持以下数据类型：    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/clean-rooms/latest/userguide/considerations-for-data-generation.html)

限制：
+ 对于合成数据生成，预测列的最大数目为 1。
+ 如果目标列是分类列，则原始数据集中的最大类别数为 100。
+ 在原始数据集中，行数必须介于 1,500 到 250 万之间，最大列数为 1.000。对于目标列中的非空值，最小行数为 1,000。

隐私指标：
+ Clean Rooms ML 提供了一个隐私分数，用于衡量生成的合成数据对成员资格推断攻击的保护程度（MIAs）。该服务保留了合成过程中原始数据的5％来计算该分数。
+ 接近 50% 的分数被认为是不错的；分数越高表示防御能力越差 MIAs。分数明显低于 50% 的情况很少见，这可能是由于合成数据中未显示原始数据的模式。

下游自定义模型：
+ 在 Clean Rooms ML 中生成的合成数据最适合训练二元分类模型和最多包含五个类别的多类分类模型。
+ 根据均方根误差 (RMSE) 的测量，使用在 Clean Rooms ML 中生成的合成数据训练回归模型可能会导致模型精度降低。