

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Geração de conjuntos de dados sintéticos com privacidade aprimorada
<a name="synthetic-data-generation"></a>

Um *conjunto de dados sintético* tem propriedades estatísticas semelhantes ao conjunto de dados original em que se baseia, mas não contém as observações do mundo real presentes no conjunto de dados original. Ao usar conjuntos de dados sintéticos com privacidade aprimorada, você pode desbloquear novos casos de uso de treinamento de modelos de aprendizado de máquina (ML) que as preocupações com a privacidade de dados evitavam anteriormente. Ao criar um canal de entrada de ML, você pode gerar dados sintéticos para proteger informações confidenciais enquanto treina modelos de ML. 

Ao criar um modelo com dados sintéticos, você deve:
+ Exigir que a saída do modelo seja sintética
+ Classifique as colunas do esquema de saída como numéricas ou categóricas
+ Personalize dados sintéticos com base nas necessidades organizacionais
+ Ajuste as configurações de privacidade:
  + Defina o nível de privacidade (épsilon)
  + Configurar limite de privacidade

**Atenção**  
A geração de dados sintéticos protege contra a inferência de atributos individuais, independentemente de indivíduos específicos estarem presentes no conjunto de dados original ou de atributos de aprendizagem desses indivíduos. No entanto, isso não impede que valores literais do conjunto de dados original, incluindo informações de identificação pessoal (PII), apareçam no conjunto de dados sintético.  
Recomendamos evitar valores no conjunto de dados de entrada associados a apenas um titular de dados, pois eles podem reidentificar um titular de dados. Por exemplo, se apenas um usuário residir em um CEP, a presença desse CEP no conjunto de dados sintético confirmaria que o usuário estava no conjunto de dados original. Técnicas como truncar valores de alta precisão ou substituir catálogos incomuns por *outros* podem ser usadas para mitigar esse risco. Essas transformações podem fazer parte da consulta usada para criar o canal de entrada de ML.

Para obter mais informações sobre como gerar dados sintéticos para treinamento de modelos personalizados, consulte[Criar um modelo de análise do SQL](create-sql-analysis-template.md).

Modelos de análise com saídas sintéticas só podem ser usados para criar canais de entrada de ML. Para obter mais informações, consulte [Criação de um canal de entrada de ML no AWS Clean Rooms ML](create-ml-input-channel.md).

# Considerações para geração de dados sintéticos
<a name="considerations-for-data-generation"></a>

Com o AWS Clean Rooms ML, os membros da colaboração podem criar um conjunto de dados sintético que desidentifica irreversivelmente os sujeitos do conjunto de dados original de seus conjuntos de dados coletivos para treinar um modelo de aprendizado de máquina personalizado. Ao criar a colaboração, você deve configurar as informações de pagamento para especificar quem paga pela geração de dados sintéticos. Aqui estão as etapas de alto nível para gerar um conjunto de dados sintético e treinar um modelo personalizado de aprendizado de máquina:

1. Um membro da colaboração cria um modelo de análise que inclui:
   + O SQL precisava definir o conjunto de dados a ser sintetizado.
   + Configurações relacionadas à privacidade usadas para garantir que os dados sintéticos atendam aos requisitos de conformidade dos provedores de dados.

1. Depois que todos os provedores de dados aprovam o modelo de análise, o executor de consultas de colaboração cria um canal de entrada de aprendizado de máquina (ML) usando o modelo.

1. O Clean Rooms ML gera o conjunto de dados sintético e verifica se ele atende aos limites de privacidade especificados no modelo de análise. 

1. Se todos os limites forem satisfeitos, o canal de entrada de ML será preenchido com o conjunto de dados sintético.

1. Os clientes podem então usar esse canal de entrada de ML para treinar o modelo de ML personalizado associado à colaboração.

Considerações importantes:
+ Os dados sintéticos gerados no Clean Rooms ML **não** removem, editam, ofuscam ou higienizam nenhum valor individual, incluindo informações de identificação pessoal (PII) encontradas no conjunto de dados original. O conjunto de dados sintético é gerado por valores de amostragem, mas não por registros inteiros, do conjunto de dados original.
+ Se o conjunto de dados original contiver linhas semelhantes, é possível que os dados sintéticos contenham linhas que pareçam idênticas às linhas do conjunto de dados original.

Preparação do conjunto de dados:
+ Evite colunas com uma distribuição de classes significativamente desequilibrada. Isso é especialmente importante para o valor previsto ou a coluna “Y”. Desequilíbrios extremos reduzem a privacidade geral do conjunto de dados sintéticos.
+ O Clean Rooms ML não oferece suporte à geração de dados sintéticos a partir de dados de séries temporais, nos quais é importante manter correlações entre registros sequenciais.
+ O Clean Rooms ML não oferece suporte à geração de dados sintéticos a partir de texto ou dados não estruturados.
+  Os seguintes tipos de dados são compatíveis:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/clean-rooms/latest/userguide/considerations-for-data-generation.html)

Limitações:
+ Para geração de dados sintéticos, o número máximo de colunas preditivas é uma.
+ Se a coluna de destino for categórica, o número máximo de categorias no conjunto de dados original será 100.
+ No conjunto de dados original, o número de linhas deve estar entre 1.500 e 2,5 milhões e o número máximo de colunas é 1.000. Para valores não nulos na coluna de destino, o número mínimo de linhas é 1.000.

Métricas de privacidade:
+ O Clean Rooms ML fornece uma pontuação de privacidade que mede a proteção dos dados sintéticos gerados contra ataques de inferência de membros (MIAs). O serviço retém 5% dos dados originais do processo de sintetização para calcular essa pontuação.
+ Pontuações próximas a 50% são consideradas boas; pontuações mais altas indicam menos proteção contra MIAs. Pontuações significativamente abaixo de 50% são raras e podem ser devidas à não representação dos padrões dos dados originais nos dados sintetizados.

Modelo personalizado downstream:
+ Os dados sintéticos gerados no Clean Rooms ML são mais adequados para treinar modelos de classificação binária e modelos de classificação multiclasse com até cinco classes.
+ Treinar modelos de regressão usando dados sintéticos gerados em Clean Rooms ML pode resultar em baixa precisão do modelo, conforme medido pelo Root Mean Square Error (RMSE).