

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Generación de conjuntos de datos sintéticos con mayor privacidad
<a name="synthetic-data-generation"></a>

Un *conjunto de datos sintético* tiene propiedades estadísticas similares al conjunto de datos original en el que se basa, pero no contiene las observaciones del mundo real presentes en el conjunto de datos original. Al utilizar conjuntos de datos sintéticos que mejoran la privacidad, puedes descubrir nuevos casos de uso del entrenamiento con modelos de aprendizaje automático (ML) que antes se impedían por cuestiones de privacidad de datos. Al crear un canal de entrada de aprendizaje automático, puede generar datos sintéticos para proteger la información confidencial y, al mismo tiempo, entrenar modelos de aprendizaje automático. 

Al crear una plantilla con datos sintéticos, debe:
+ Exija que el resultado de la plantilla sea sintético
+ Clasifique las columnas del esquema de salida como numéricas o categóricas
+ Personalice los datos sintéticos en función de las necesidades de la organización
+ Ajusta la configuración de privacidad:
  + Establece el nivel de privacidad (épsilon)
  + Configure el umbral de privacidad

**aviso**  
La generación de datos sintéticos evita la inferencia de atributos individuales, ya sea que haya personas específicas presentes en el conjunto de datos original o que estén presentes los atributos de aprendizaje de esas personas. Sin embargo, no impide que los valores literales del conjunto de datos original, incluida la información de identificación personal (PII), aparezcan en el conjunto de datos sintético.  
Recomendamos evitar los valores en el conjunto de datos de entrada que estén asociados a un solo sujeto de datos, ya que pueden volver a identificar a un sujeto de datos. Por ejemplo, si solo un usuario vive en un código postal, la presencia de ese código postal en el conjunto de datos sintético confirmaría que el usuario estaba en el conjunto de datos original. Para mitigar este riesgo, se pueden utilizar técnicas como truncar valores de alta precisión o reemplazar catálogos poco comunes por *otros*. Estas transformaciones pueden formar parte de la consulta utilizada para crear el canal de entrada de ML.

Para obtener más información sobre cómo generar datos sintéticos para el entrenamiento de modelos personalizados, consulte[Creación de una plantilla de análisis SQL](create-sql-analysis-template.md).

Las plantillas de análisis con salidas sintéticas solo se pueden utilizar para crear canales de entrada de aprendizaje automático. Para obtener más información, consulte [Creación de un canal de entrada de ML en AWS Clean Rooms ML](create-ml-input-channel.md).

# Consideraciones para la generación de datos sintéticos
<a name="considerations-for-data-generation"></a>

Con AWS Clean Rooms ML, los miembros de la colaboración pueden crear un conjunto de datos sintético que desidentifique de forma irreversible los sujetos del conjunto de datos original de sus conjuntos de datos colectivos para entrenar un modelo de aprendizaje automático personalizado. Al crear la colaboración, debe configurar la información de pago para especificar quién paga por la generación de datos sintéticos. Estos son los pasos básicos para generar un conjunto de datos sintético y entrenar un modelo de aprendizaje automático personalizado:

1. Un miembro de la colaboración crea una plantilla de análisis que incluye:
   + El SQL necesario para definir el conjunto de datos que se va a sintetizar.
   + Las configuraciones relacionadas con la privacidad se utilizan para garantizar que los datos sintéticos cumplan con los requisitos de conformidad de los proveedores de datos.

1. Una vez que todos los proveedores de datos aprueban la plantilla de análisis, el ejecutor de consultas de colaboración crea un canal de entrada de aprendizaje automático (ML) utilizando la plantilla.

1. Clean Rooms ML genera el conjunto de datos sintético y verifica que cumpla con los umbrales de privacidad especificados en la plantilla de análisis. 

1. Si se cumplen todos los umbrales, el canal de entrada de ML se rellena con el conjunto de datos sintéticos.

1. Luego, los clientes pueden usar este canal de entrada de aprendizaje automático para entrenar el modelo de aprendizaje automático personalizado asociado a la colaboración.

Consideraciones importantes:
+ Los datos sintéticos generados en Clean Rooms ML **no** eliminan, censuran, ocultan ni sanean ningún valor individual, incluida la información de identificación personal (PII) que se encuentra en el conjunto de datos original. El conjunto de datos sintético se genera mediante el muestreo de valores, pero no de registros completos, del conjunto de datos original.
+ Si el conjunto de datos original contiene filas similares, es posible que los datos sintéticos contengan filas que parezcan idénticas a las filas del conjunto de datos original.

Preparación del conjunto de datos:
+ Evite las columnas con una distribución de clases significativamente desequilibrada. Esto es especialmente importante para el valor previsto o la columna «Y». Los desequilibrios extremos reducen la privacidad general del conjunto de datos sintéticos.
+ Clean Rooms ML no admite la generación de datos sintéticos a partir de datos de series temporales, por lo que es importante mantener las correlaciones entre los registros secuenciales.
+ Clean Rooms ML no admite la generación de datos sintéticos a partir de texto o datos no estructurados.
+  Los siguientes tipos de datos son compatibles:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/clean-rooms/latest/userguide/considerations-for-data-generation.html)

Limitaciones:
+ Para la generación de datos sintéticos, el número máximo de columnas predictivas es una.
+ Si la columna de destino es categórica, el número máximo de categorías en el conjunto de datos original es 100.
+ En el conjunto de datos original, el número de filas debe estar entre 1500 y 2,5 millones y el número máximo de columnas es 1000. Para valores no nulos en la columna de destino, el número mínimo de filas es 1000.

Métricas de privacidad:
+ Clean Rooms ML proporciona una puntuación de privacidad que mide el grado de protección de los datos sintéticos generados contra los ataques de inferencia de miembros (MIAs). El servicio retiene el 5% de los datos originales del proceso de síntesis para calcular esta puntuación.
+ Los puntajes cercanos al 50% se consideran buenos; los puntajes más altos indican una menor protección en contra. MIAs Los puntajes significativamente inferiores al 50% son poco frecuentes y pueden deberse a que los datos sintetizados no están representados en los patrones de los datos originales.

Modelo personalizado descendente:
+ Los datos sintéticos generados en Clean Rooms ML son los más adecuados para entrenar modelos de clasificación binaria y modelos de clasificación multiclase con hasta cinco clases.
+ El entrenamiento de modelos de regresión con datos sintéticos generados en el aprendizaje automático de salas limpias puede provocar una baja precisión del modelo, medida mediante el error cuadrático medio (RMSE).