

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Génération de jeux de données synthétiques garantissant une meilleure confidentialité
<a name="synthetic-data-generation"></a>

Un jeu de *données synthétique* possède des propriétés statistiques similaires à celles du jeu de données d'origine sur lequel il est basé, mais ne contient pas les observations du monde réel présentes dans le jeu de données d'origine. En utilisant des ensembles de données synthétiques optimisés pour la confidentialité, vous pouvez découvrir de nouveaux cas d'utilisation de modèles d'apprentissage automatique (ML) que les problèmes de confidentialité des données évitaient auparavant. Lorsque vous créez un canal d'entrée ML, vous pouvez générer des données synthétiques pour protéger les informations sensibles lors de l'entraînement des modèles de ML. 

Lorsque vous créez un modèle avec des données synthétiques, vous devez :
+ Exiger que la sortie du modèle soit synthétique
+ Classer les colonnes du schéma de sortie en tant que colonnes numériques ou catégoriques
+ Personnalisez les données synthétiques en fonction des besoins de l'organisation
+ Ajustez les paramètres de confidentialité :
  + Définir le niveau de confidentialité (epsilon)
  + Configurer le seuil de confidentialité

**Avertissement**  
La génération de données synthétiques empêche de déduire des attributs individuels, que des individus spécifiques soient présents dans l'ensemble de données d'origine ou que des attributs d'apprentissage de ces individus soient présents. Cependant, cela n'empêche pas les valeurs littérales de l'ensemble de données d'origine, y compris les informations personnelles identifiables (PII), d'apparaître dans l'ensemble de données synthétique.  
Nous recommandons d'éviter dans le jeu de données d'entrée les valeurs associées à une seule personne concernée, car elles peuvent permettre de réidentifier une personne concernée. Par exemple, si un seul utilisateur vit dans un code postal, la présence de ce code postal dans le jeu de données synthétique confirmera que cet utilisateur figurait dans le jeu de données d'origine. Des techniques telles que la troncation de valeurs de haute précision ou le remplacement de catalogues peu courants par *d'autres* peuvent être utilisées pour atténuer ce risque. Ces transformations peuvent faire partie de la requête utilisée pour créer le canal d'entrée ML.

Pour plus d'informations sur la façon de générer des données synthétiques pour l'entraînement de modèles personnalisés, consultez[Création d’un modèle d’analyse SQL](create-sql-analysis-template.md).

Les modèles d'analyse avec des sorties synthétiques ne peuvent être utilisés que pour créer des canaux d'entrée ML. Pour de plus amples informations, veuillez consulter [Création d'un canal d'entrée ML dans AWS Clean Rooms ML](create-ml-input-channel.md).

# Considérations relatives à la génération de données synthétiques
<a name="considerations-for-data-generation"></a>

Avec AWS Clean Rooms ML, les membres de la collaboration peuvent créer un ensemble de données synthétique qui désidentifie de manière irréversible les sujets du jeu de données d'origine de leurs ensembles de données collectifs afin de créer un modèle d'apprentissage automatique personnalisé. Lors de la création de la collaboration, vous devez configurer les informations de paiement pour spécifier qui paie pour la génération de données synthétiques. Voici les étapes de haut niveau pour générer un ensemble de données synthétique et entraîner un modèle d'apprentissage automatique personnalisé :

1. Un membre de la collaboration crée un modèle d'analyse qui inclut :
   + Le code SQL nécessaire pour définir l'ensemble de données à synthétiser.
   + Configurations liées à la confidentialité utilisées pour garantir que les données synthétiques répondent aux exigences de conformité des fournisseurs de données.

1. Une fois que tous les fournisseurs de données ont approuvé le modèle d'analyse, le lanceur de requêtes collaboratif crée un canal d'entrée d'apprentissage automatique (ML) à l'aide du modèle.

1. Clean Rooms ML génère le jeu de données synthétique et vérifie qu'il respecte les seuils de confidentialité spécifiés dans le modèle d'analyse. 

1. Si tous les seuils sont satisfaits, le canal d'entrée ML est rempli avec le jeu de données synthétique.

1. Les clients peuvent ensuite utiliser ce canal de saisie ML pour entraîner le modèle de ML personnalisé associé à la collaboration.

Considérations importantes :
+ Les données synthétiques générées dans Clean Rooms ML ne suppriment, **ne** suppriment, ne masquent ni ne nettoient aucune valeur individuelle, y compris les informations personnelles identifiables (PII) trouvées dans le jeu de données d'origine. Le jeu de données synthétique est généré en échantillonnant des valeurs, mais pas des enregistrements complets, à partir du jeu de données d'origine.
+ Si le jeu de données d'origine contient des lignes similaires, il est possible que les données synthétiques contiennent des lignes identiques à celles du jeu de données d'origine.

Préparation du jeu de données :
+ Évitez les colonnes dont la distribution des classes est significativement déséquilibrée. Ceci est particulièrement important pour la valeur prédite ou la colonne « Y ». Les déséquilibres extrêmes réduisent la confidentialité globale de l'ensemble de données synthétique.
+ Clean Rooms ML ne prend pas en charge la génération de données synthétiques à partir de séries chronologiques pour lesquelles il est important de maintenir des corrélations entre les enregistrements séquentiels.
+ Clean Rooms ML ne prend pas en charge la génération de données synthétiques à partir de texte ou de données non structurées.
+  Les types de données suivants sont pris en charge :     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/clean-rooms/latest/userguide/considerations-for-data-generation.html)

Limites:
+ Pour la génération de données synthétiques, le nombre maximum de colonnes prédictives est d'une.
+ Si la colonne cible est catégorique, le nombre maximum de catégories dans le jeu de données d'origine est de 100.
+ Dans le jeu de données d'origine, le nombre de lignes doit être compris entre 1 500 et 2,5 millions et le nombre maximum de colonnes est de 1 000. Pour les valeurs non nulles de la colonne cible, le nombre minimum de lignes est de 1 000.

Indicateurs de confidentialité :
+ Clean Rooms ML fournit un score de confidentialité qui mesure le niveau de protection des données synthétiques générées contre les attaques par inférence d'adhésion (MIAs). Le service utilise 5 % des données originales issues du processus de synthèse pour calculer ce score.
+ Des scores proches de 50 % sont considérés comme bons ; des scores élevés indiquent une protection moindre contre MIAs. Les scores significativement inférieurs à 50 % sont rares et peuvent être dus à la non-représentation des modèles issus des données d'origine dans les données synthétisées.

Modèle personnalisé en aval :
+ Les données synthétiques générées dans Clean Rooms ML conviennent parfaitement à l'entraînement de modèles de classification binaires et de modèles de classification à classes multiples comportant jusqu'à cinq classes.
+ L'entraînement de modèles de régression utilisant des données synthétiques générées dans Clean Rooms ML peut entraîner une faible précision du modèle, telle que mesurée par l'erreur quadratique moyenne (RMSE).