

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Exigences relatives aux données de formation pour Clean Rooms ML
<a name="ml-training-data-requirements"></a>

Pour réussir à créer un modèle similaire, vos données d'entraînement doivent répondre aux exigences suivantes :
+ Les données d'entraînement doivent être au format Parquet, CSV ou JSON.
**Note**  
Les données Parquet compressées au format Zstandard (ZSTD) ne sont pas prises en charge.
+ Vos données d'entraînement doivent être cataloguées dans. AWS Glue Pour plus d'informations, consultez [Getting started with the AWS Glue Data Catalog](https://docs.aws.amazon.com//glue/latest/dg/start-data-catalog.html) dans le manuel du AWS Glue développeur. Nous vous recommandons d'utiliser AWS Glue des robots d'exploration pour créer vos tables, car le schéma est déduit automatiquement.
+ Le compartiment Amazon S3 qui contient les données d'entraînement et les données de départ se trouve dans la même AWS région que vos autres ressources Clean Rooms ML.
+ Les données d'entraînement doivent contenir au moins 100 000 utilisateurs uniques IDs ayant chacun au moins deux interactions avec des éléments.
+ Les données d'entraînement doivent contenir au moins 1 million d'enregistrements.
+ Le schéma spécifié dans l'[CreateTrainingDataset](https://docs.aws.amazon.com/cleanrooms-ml/latest/APIReference/API_CreateTrainingDataset.html)action doit être aligné sur le schéma défini lors de la création de la AWS Glue table.
+ Les champs obligatoires, tels que définis dans le tableau fourni, sont définis dans l'[CreateTrainingDataset](https://docs.aws.amazon.com/cleanrooms-ml/latest/APIReference/API_CreateTrainingDataset.html)action.    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/clean-rooms/latest/userguide/ml-training-data-requirements.html)
+ Vous pouvez éventuellement fournir jusqu'à 10 caractéristiques catégorielles ou numériques au total.

Voici un exemple d'ensemble de données d'entraînement valide au format CSV

```
USER_ID,ITEM_ID,TIMESTAMP,EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE)
196,242,881250949,click,15
186,302,891717742,click,13
22,377,878887116,click,10
244,51,880606923,click,20
166,346,886397596,click,10
```