

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Clean Rooms ML 的訓練資料需求
<a name="ml-training-data-requirements"></a>

若要成功建立類似模型，您的訓練資料必須符合下列要求：
+ 訓練資料必須是 Parquet、CSV 或 JSON 格式。
**注意**  
不支援 Zstandard (ZSTD) 壓縮 Parquet 資料。
+ 您的訓練資料必須編製目錄 AWS Glue。如需詳細資訊，請參閱《 AWS Glue 開發人員指南》中的 [ AWS Glue Data Catalog 入門](https://docs.aws.amazon.com//glue/latest/dg/start-data-catalog.html)。我們建議您使用 AWS Glue 爬蟲程式來建立資料表，因為系統會自動推斷結構描述。
+ 包含訓練資料和種子資料的 Amazon S3 儲存貯體位於與其他 Clean Rooms ML 資源相同的 AWS 區域。
+ 訓練資料必須至少包含 100，000 個唯一使用者 IDs，每個 ID 至少有兩個項目互動。
+ 訓練資料必須至少包含 100 萬筆記錄。
+ [CreateTrainingDataset](https://docs.aws.amazon.com/cleanrooms-ml/latest/APIReference/API_CreateTrainingDataset.html) 動作中指定的結構描述必須與建立 AWS Glue 資料表時定義的結構描述相符。
+ 在 [CreateTrainingDataset](https://docs.aws.amazon.com/cleanrooms-ml/latest/APIReference/API_CreateTrainingDataset.html) 動作中定義了所提供資料表中定義的必要欄位。    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/clean-rooms/latest/userguide/ml-training-data-requirements.html)
+ 或者，您可以提供總共最多 10 個分類或數值功能。

以下是 CSV 格式的有效訓練資料集範例

```
USER_ID,ITEM_ID,TIMESTAMP,EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE)
196,242,881250949,click,15
186,302,891717742,click,13
22,377,878887116,click,10
244,51,880606923,click,20
166,346,886397596,click,10
```