View a markdown version of this page

Protección de datos - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Protección de datos

El modelo de responsabilidad AWS compartida se aplica a la protección de datos en Amazon EMR en EKS. Como se describe en este modelo, AWS es responsable de proteger la infraestructura global en la que se basa toda la AWS nube. Usted es responsable de mantener el control sobre el contenido alojado en esta infraestructura. Este contenido incluye la configuración de seguridad y las tareas de administración de los servicios de AWS que usted utiliza. Para obtener más información sobre la privacidad de datos, consulte las Preguntas frecuentes sobre la privacidad de datos. Para obtener información sobre la protección de datos en Europa, consulte la entrada del blog sobre el modelo de responsabilidad AWS compartida y el RGPD en el blog AWS de seguridad.

Con fines de protección de datos, le recomendamos que proteja las credenciales de las AWS cuentas y configure cuentas individuales con AWS Identity and Access Management (IAM). De esta manera, cada usuario recibe únicamente los permisos necesarios para cumplir con sus obligaciones laborales. También recomendamos proteger sus datos de las siguientes maneras:

  • Utiliza la autenticación multifactor (MFA) en cada cuenta.

  • Úselo SSL/TLS para comunicarse con AWS los recursos. Recomendamos TLS 1.2 o una versión posterior.

  • Configure la API y el registro de actividad de los usuarios con AWS CloudTrail.

  • Utilice soluciones de AWS cifrado, junto con todos los controles de seguridad predeterminados de AWS los servicios.

  • Utilice avanzados servicios de seguridad administrados, como Amazon Macie, que lo ayuden a detectar y proteger los datos personales almacenados en Amazon S3.

  • Utilice las opciones de cifrado de Amazon EMR en EKS para cifrar datos en reposo y en tránsito.

  • Si necesita módulos criptográficos validados por FIPS 140-2 para acceder a AWS través de una interfaz de línea de comandos o una API, utilice un punto final FIPS. Para obtener más información acerca de los puntos de conexión de FIPS disponibles, consulte Estándar de procesamiento de la información federal (FIPS) 140-2.

Le recomendamos encarecidamente que nunca introduzca información de identificación confidencial, como, por ejemplo, números de cuenta de sus clientes, en los campos de formato libre, como el campo Nombre. Esto incluye cuando trabaja con Amazon EMR en EKS u otros AWS servicios mediante la consola, la API o AWS los AWS CLI SDK. Es posible que cualquier dato que ingrese en Amazon EMR en EKS o en otros servicios se incluya en los registros de diagnóstico. Cuando proporcione una URL a un servidor externo, no incluya información de credenciales en la URL para validar la solicitud para ese servidor.

Cifrado en reposo

El cifrado de datos ayuda a impedir que los usuarios no autorizados lean los datos en un clúster y sistemas de almacenamiento de datos asociados. Esto incluye los datos guardados en medios persistentes, conocidos como datos en reposo y datos que pueden ser interceptados cuando recorren la red, conocidos como datos en tránsito.

El cifrado de datos requiere las claves y los certificados. Puede elegir entre varias opciones, incluidas las claves administradas por AWS Key Management Service, las claves administradas por Amazon S3 y las claves y certificados de los proveedores personalizados que usted suministre. Si AWS KMS lo utilizas como proveedor de claves, se aplican cargos por el almacenamiento y el uso de las claves de cifrado. Para obtener más información, consulte AWS KMS Precios.

Antes de especificar las opciones de cifrado, decida qué sistemas de administración de claves y certificados quiere usar. A continuación, cree las claves y los certificados para los proveedores personalizados que especifique como parte de la configuración de cifrado.

Cifrado en reposo para datos de EMRFS en Amazon S3

El cifrado de Amazon S3 funciona con objetos del sistema de archivos de EMR (EMRFS) que se leen y se escriben en Amazon S3. Se especifica el cifrado del servidor (SSE) o el cifrado del cliente (CSE) de Amazon S3 como Modo de cifrado predeterminado al habilitar el cifrado en reposo. También puede especificar métodos de cifrado diferentes para buckets individuales utilizando Per bucket encryption overrides (Reemplazos de cifrado por bucket). Independientemente de si el cifrado de Amazon S3 está habilitado, la seguridad de la capa de transporte (TLS) cifra los objetos de EMRFS en tránsito entre los nodos del clúster de EMR y Amazon S3. Para obtener más información detallada sobre cómo lleva a cabo Amazon S3 el cifrado, consulte Protección de datos mediante cifrado en la Guía para desarrolladores de Amazon Simple Storage Service.

nota

Al utilizarlas AWS KMS, se cobran cargos por el almacenamiento y el uso de las claves de cifrado. Para obtener más información, consulte AWS KMS Precios.

Cifrado del servidor de Amazon S3

Cuando configura el cifrado del servidor de Amazon S3, Amazon S3 cifra los datos del objeto a medida que escribe los datos en el disco y descifra los datos cuando se accede. Para obtener más información sobre SSE, consulte Protección de datos mediante Server-Side cifrado en la Guía para desarrolladores de Amazon Simple Storage Service.

Puede elegir entre dos sistemas de administración de claves distintos al especificar SSE en Amazon EMR en EKS:

  • SSE-S3‐ Amazon S3 administra las claves por usted.

  • SSE-KMS‐ Utiliza una AWS KMS key para configurar las políticas adecuadas para Amazon EMR en EKS.

El SSE con claves proporcionadas por el cliente (SSE-C) no está disponible para su uso con Amazon EMR en EKS.

sugerencia

Para reducir AWS KMS los costes de uso SSE-KMS, considere la posibilidad de habilitar Amazon S3 Bucket Keys en sus buckets de Amazon S3. Las claves de bucket de Amazon S3 utilizan una clave de nivel de bucket de corta duración para reducir las llamadas a la AWS KMS API hasta en un 99 por ciento. Antes de habilitar las claves de bucket de Amazon S3, revise sus políticas de IAM y de AWS KMS claves: el contexto de cifrado cambia del ARN del objeto de Amazon S3 al ARN del bucket, lo que puede afectar a las políticas que utilizan el ARN del objeto para el control de acceso. Para obtener más información, consulte Reducir el costo de usar claves SSE-KMS de bucket de Amazon S3 en la Guía del usuario de Amazon Simple Storage Service.

Cifrado del cliente de Amazon S3

Con el cifrado del cliente de Amazon S3, el proceso de cifrado y descifrado de Amazon S3 se produce en el cliente de EMRFS en su clúster. Los objetos se cifran antes de cargarlos en Amazon S3 y se descifran después de que se descarguen. El proveedor que especifique proporciona la clave de cifrado que utiliza el cliente. El cliente puede usar las claves proporcionadas por AWS KMS (CSE-KMS) o una clase Java personalizada que proporcione la clave raíz del lado del cliente ()CSE-C. Las especificaciones de cifrado son ligeramente diferentes entre CSE-KMS y CSE-C, según el proveedor especificado y los metadatos del objeto que se va a descifrar o cifrar. Para obtener más información sobre estas diferencias, consulte Protección de datos mediante Client-Side cifrado en la Guía para desarrolladores de Amazon Simple Storage Service.

nota

El CSE de Amazon S3 solo garantiza que los datos de EMRFS intercambiados con Amazon S3 se cifren; no se cifran todos los datos en volúmenes de instancias de clúster. Además, ya que Hue no utiliza EMRFS, los objetos que Hue S3 File Browser escribe en Amazon S3 no se cifran.

Cifrado de disco local

Apache Spark admite el cifrado de datos temporales escritos en discos locales. Esto cubre archivos aleatorios, derrames aleatorios y bloques de datos almacenados en el disco para variables de transmisión y almacenamiento en caché. No cubre el cifrado de los datos de salida generados por aplicaciones con API como saveAsHadoopFile o saveAsTable. Es posible que tampoco abarque los archivos temporales creados explícitamente por el usuario. Para obtener más información, consulte Cifrado de almacenamiento local en la documentación de Spark. Spark no admite datos cifrados en un disco local, como los datos intermedios que un proceso ejecutor escribe en un disco local cuando los datos no caben en la memoria. Los datos que se conservan en el disco se asignan al tiempo de ejecución del trabajo, y Spark genera dinámicamente la clave que se usa para cifrar los datos de cada ejecución del trabajo. Una vez que termina el trabajo de Spark, ningún otro proceso puede descifrar los datos.

En el caso de los pods controladores y ejecutores, se cifran los datos en reposo que se conservan en el volumen montado. Hay tres opciones diferentes de almacenamiento AWS nativo que puedes usar con Kubernetes: EBS, EFS y FSx for Lustre. Las tres ofrecen cifrado en reposo mediante una clave administrada por el servicio o una AWS KMS key. Para obtener más información, consulte la Guía de prácticas recomendadas de EKS. Con este enfoque, se cifran todos los datos conservados en el volumen montado.

Administración de claves

Puede configurar KMS para que rote automáticamente las claves de KMS. De este modo, las claves se rotan una vez al año y se guardan las antiguas de forma indefinida para poder seguir descifrando los datos. Para obtener información adicional, consulte Rotación. AWS KMS keys

Cifrado en tránsito

Hay habilitados diversos mecanismos de cifrado con el cifrado en tránsito. Se trata de características de código abierto, específicas de la aplicación y que pueden variar según la versión de Amazon EMR en EKS. Las siguientes características de cifrado específicas de la aplicación se pueden habilitar con Amazon EMR en EKS:

  • Spark

    • La comunicación RPC interna entre los componentes de Spark, como el servicio de transferencia de bloques y el servicio aleatorio externo, se cifra mediante el AES-256 cifrado de las versiones 5.9.0 y posteriores de Amazon EMR. En versiones anteriores, la comunicación RPC interna se cifraba utilizando el SASL como sistema de cifrado. DIGEST-MD5

    • La comunicación mediante el protocolo HTTP con las interfaces de usuario, como el Spark History Server y los servidores de HTTPS-enabled archivos, se cifra mediante la configuración SSL de Spark. Para obtener más información, consulte SSL Configuration en la documentación de Spark.

    Para obtener más información, consulte Configuración de seguridad de Spark.

  • Debe permitir únicamente las conexiones cifradas a través de HTTPS (TLS) mediante la SecureTransport condición aws: de las políticas de IAM de bucket de Amazon S3.

  • Los resultados de las consultas que se envían a clientes JDBC u ODBC se cifran mediante TLS.