本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# AWS Clean Rooms ML 中的模型


AWS Clean Rooms ML 为双方提供了一种隐私保护方法，便于双方识别其数据中的相似用户，而无需彼此共享数据。第一方将训练数据带到， AWS Clean Rooms 这样他们就可以创建和配置外观相似的模型并将其与协作关联起来。然后，会将种子数据引入到协作中，以便创建与训练数据类似的相似细分。

有关其工作方式的更详细说明，请参阅[跨账户作业](ml-behaviors.md#ml-behaviors-cross-account-jobs)。

以下主题提供有关如何在 Clean Rooms ML 中创建和配置 AWS 模型的信息。

**Topics**
+ [

# AWS Clean Rooms ML 的隐私保护
](ml-privacy.md)
+ [

# Clean Rooms ML 的训练数据要求
](ml-training-data-requirements.md)
+ [

# Clean Rooms ML 的种子数据要求
](ml-seed-data-requirements.md)
+ [

# AWS Clean Rooms 机器学习模型评估指标
](ml-metrics.md)

# AWS Clean Rooms ML 的隐私保护


Clean Rooms ML 旨在降低*成员身份推断攻击*的风险；通过这种推断攻击，训练数据提供者可以了解哪些成员位于种子数据中，种子数据提供者可以了解哪些成员位于训练数据中。我们采取了一些措施以防范这种攻击。

首先，种子数据提供者不直接观察 Clean Rooms ML 输出，同时训练数据提供者也根本无法观察种子数据。种子数据提供者可以选择将种子数据包含在输出细分中。

接下来，通过训练数据的随机样本创建相似模型。该样本包含大量与种子受众不匹配的用户。此过程使得确定用户是否不在数据中变得更加困难，这是推断成员资格的另一种途径。

此外，可以在种子特定的相似模型训练的每个参数中使用多个种子客户。这限制了模型可以过度拟合的程度，从而限制了可以推断的用户相关数据量。因此，我们建议种子数据的最小大小为 500 个用户。

最后，一定不要向训练数据提供者提供用户级指标，这可以阻断成员身份推断攻击的另一种途径。

# Clean Rooms ML 的训练数据要求
训练数据要求

要成功创建相似模型，您的训练数据必须满足以下要求：
+ 训练数据必须采用 Parquet、CSV 或 JSON 格式。
**注意**  
不支持 Zstandard (ZSTD) 压缩的 Parquet 数据。
+ 您的训练数据必须编入 AWS Glue目录。有关更多信息，请参阅 AWS Glue 开发人员指南[中的 AWS Glue 数据目录入门](https://docs.aws.amazon.com//glue/latest/dg/start-data-catalog.html)。我们建议使用 AWS Glue 爬虫来创建表，因为架构是自动推断出来的。
+ 包含训练数据和种子数据的 Amazon S3 存储桶与您的其他 Clean Rooms 机器学习资源位于同一 AWS 区域。
+ 训练数据必须包含至少 100,000 个独立用户 IDs ，每个用户至少有两个项目互动。
+ 训练数据必须包含至少 100 万条记录。
+ [CreateTrainingDataset](https://docs.aws.amazon.com/cleanrooms-ml/latest/APIReference/API_CreateTrainingDataset.html)操作中指定的架构必须与创建 AWS Glue 表时定义的架构保持一致。
+ 所提供的表中定义的必填字段是在 [CreateTrainingDataset](https://docs.aws.amazon.com/cleanrooms-ml/latest/APIReference/API_CreateTrainingDataset.html) 操作中定义的。    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/clean-rooms/latest/userguide/ml-training-data-requirements.html)
+ 或者，您最多可以提供 10 个分类或数值特征。

以下是 CSV 格式的有效训练数据集的示例

```
USER_ID,ITEM_ID,TIMESTAMP,EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE)
196,242,881250949,click,15
186,302,891717742,click,13
22,377,878887116,click,10
244,51,880606923,click,20
166,346,886397596,click,10
```

# Clean Rooms ML 的种子数据要求
种子数据要求

相似模型的种子数据可以直接来自 Amazon S3 存储桶，也可以来自 SQL 查询结果。

直接提供的种子数据必须满足以下要求：
+ 种子数据必须采用 JSON 行格式，并包含用户列表 IDs。
+ 种子大小应介于 25 到 500,000 个唯一用户之间 IDs。
+ 种子用户的最小数量必须与您在创建配置的受众模型时指定的最小匹配种子大小值相匹配。

以下是 CSV 格式的有效训练数据集的示例

```
{"user_id": "abc"}
{"user_id": "def"}
{"user_id": "ghijkl"}
{"user_id": "123"}
{"user_id": "456"}
{"user_id": "7890"}
```

# AWS Clean Rooms 机器学习模型评估指标
模型指标

Clean Rooms ML 计算*召回率*和*相关性分数*以确定模型的性能。召回率比较相似数据和训练数据之间的相似性。相关性分数用于确定受众规模应该有多大，而不是模型是否性能很好。

*召回率*是衡量相似细分与训练数据相似程度的公正标准。召回率是受众生成作业在种子受众中包含的训练数据样本中最相似用户的百分比（默认情况下，最相似百分比为 20％）。值范围为 0-1，值越大表示受众越好。召回值大致等于最大区间百分比就表示受众模型等同于随机选择。

我们认为这是比准确性、精度和 F1 分数更好的评估指标，因为 Clean Rooms ML 在构建模型时没有准确地标记真正的负面用户。

细分级*相关性分数* 是一个相似性指标，值范围从 -1（最不相似）到 1（最相似）。Clean Rooms ML 为不同的细分大小计算一组相关性分数，以帮助您确定数据的最佳细分大小。随着区段大小的增加，相关性分数会单调降低，因此，随着区段大小的增加，它可能与种子数据不太相似。在细分级相关性分数达到 0 时，模型预测相似细分中的所有用户来自与种子数据相同的分布。增加输出大小可能会包括相似细分中来自与种子数据不同的分布的用户。

相关性分数是在单个活动中标准化的，不应用于比较不同的活动。不应将相关性分数用作任何业务结果的单一来源证据，因为除了相关性外，这些分数还会受到多个复杂因素的影响，例如库存质量、库存类型、广告投放时间等。

相关性分数不应用于判断种子质量，而应用于判断它是否可以增加或减少。考虑以下示例：
+ 全部为正分 - 这表明预测为相似的输出用户比相似细分中包含的用户多。这对于属于大型市场的种子数据来说很常见，例如，过去一个月内购买过牙膏的每个人。我们建议查看较小的种子数据，例如，过去一个月内多次购买牙膏的每个人。
+ 全部为负分或您所需的相似细分大小为负分 - 这表明 Clean Rooms ML 预测在所需的相似细分大小中没有足够的相似用户。这可能是因为，种子数据太具体或市场太小。我们建议为种子数据应用更少的筛选条件，或者扩大市场。例如，如果原始种子数据是购买婴儿车和汽车座椅的客户，您可以将市场扩大到购买多种婴儿产品的客户。

训练数据提供者确定是否公开相关性分数以及计算相关性分数的桶区间。