

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Clean Rooms ML 的训练数据要求
<a name="ml-training-data-requirements"></a>

要成功创建相似模型，您的训练数据必须满足以下要求：
+ 训练数据必须采用 Parquet、CSV 或 JSON 格式。
**注意**  
不支持 Zstandard (ZSTD) 压缩的 Parquet 数据。
+ 您的训练数据必须编入 AWS Glue目录。有关更多信息，请参阅 AWS Glue 开发人员指南[中的 AWS Glue 数据目录入门](https://docs.aws.amazon.com//glue/latest/dg/start-data-catalog.html)。我们建议使用 AWS Glue 爬虫来创建表，因为架构是自动推断出来的。
+ 包含训练数据和种子数据的 Amazon S3 存储桶与您的其他 Clean Rooms 机器学习资源位于同一 AWS 区域。
+ 训练数据必须包含至少 100,000 个独立用户 IDs ，每个用户至少有两个项目互动。
+ 训练数据必须包含至少 100 万条记录。
+ [CreateTrainingDataset](https://docs.aws.amazon.com/cleanrooms-ml/latest/APIReference/API_CreateTrainingDataset.html)操作中指定的架构必须与创建 AWS Glue 表时定义的架构保持一致。
+ 所提供的表中定义的必填字段是在 [CreateTrainingDataset](https://docs.aws.amazon.com/cleanrooms-ml/latest/APIReference/API_CreateTrainingDataset.html) 操作中定义的。    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/clean-rooms/latest/userguide/ml-training-data-requirements.html)
+ 或者，您最多可以提供 10 个分类或数值特征。

以下是 CSV 格式的有效训练数据集的示例

```
USER_ID,ITEM_ID,TIMESTAMP,EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE)
196,242,881250949,click,15
186,302,891717742,click,13
22,377,878887116,click,10
244,51,880606923,click,20
166,346,886397596,click,10
```