Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Rol de servicio para instancias de EC2 del clúster (perfil de instancia de EC2)
El rol de servicio para instancias de EC2 de clúster (también conocido como el perfil de instancia de EC2 para Amazon EMR) es un tipo especial de rol de servicio que está asignado a cada instancia de EC2 de un clúster de Amazon EMR cuando se lanza la instancia. Los procesos de aplicación que se ejecutan sobre el ecosistema de Hadoop asumen este rol para los permisos, para interactuar así con otros productos de AWS .
Para obtener más información sobre los roles de servicio para instancias de EC2, consulte Uso de un rol de IAM para conceder permisos a aplicaciones que se ejecutan en instancias de Amazon EC2 en la Guía del usuario de IAM.
importante
El rol de servicio predeterminado para las instancias de EC2 en clústeres y su política administrada AWS predeterminada asociada AmazonElasticMapReduceforEC2Role están en vías de caducar y no se proporcionan políticas AWS administradas sustitutivas. Tendrá que crear y especificar un perfil de instancia para reemplazar la política predeterminada y el rol obsoletos.
Política administrada y rol predeterminados
-
El nombre del rol predeterminado es
EMR_EC2_DefaultRole. -
La política administrada
EMR_EC2_DefaultRolepredeterminada,AmazonElasticMapReduceforEC2Role, está a punto de finalizar su soporte. En lugar de utilizar una política administrada predeterminada para el perfil de instancia de EC2, aplique políticas basadas en recursos a los buckets de S3 y otros recursos que Amazon EMR necesite, o utilice su propia política administrada por el cliente con un rol de IAM como perfil de instancia. Para obtener más información, consulte Creación de un rol de servicio para las instancias de EC2 del clúster con permisos de privilegios mínimos.
Lo siguiente muestra el contenido de la versión 3 de AmazonElasticMapReduceforEC2Role.
Su rol de servicio debe usar la siguiente política de confianza.
Creación de un rol de servicio para las instancias de EC2 del clúster con permisos de privilegios mínimos
Como práctica recomendada, le recomendamos encarecidamente que cree un rol de servicio para las instancias EC2 del clúster y una política de permisos que tenga los permisos mínimos para otros AWS servicios que requiera su aplicación.
La política administrada predeterminada, AmazonElasticMapReduceforEC2Role, proporciona los permisos que facilitan el lanzar un clúster inicial. Sin embargo, AmazonElasticMapReduceforEC2Role está en vías de quedar obsoleto y Amazon EMR no proporcionará una política predeterminada gestionada que AWS sustituya a la función obsoleta. Para lanzar un clúster inicial, debe proporcionar una política basada en los recursos o en la identificación administrada por el cliente.
Las siguientes instrucciones de política facilitan ejemplos de permisos necesarios para las distintas características de Amazon EMR. Le recomendamos que utilice estos permisos para crear una política de permisos que restrinja el acceso tan solo a aquellas funciones y recursos que necesite el clúster. Todos los ejemplos de declaraciones de política utilizan la us-west-2 región y el identificador de cuenta ficticio AWS . 123456789012 Sustituya estos según corresponda para el clúster.
Para obtener más información sobre la creación y la especificación de roles personalizados, consulte Personalización de roles de IAM con Amazon EMR.
nota
Si crea un rol de EMR personalizado para EC2, siga el flujo de trabajo básico, que crea automáticamente un perfil de instancia con el mismo nombre. Amazon EC2 le permite crear roles y perfiles de instancia con nombres diferentes, pero Amazon EMR no admite esta configuración y se produce un error “Perfil de instancia no válido” al crear el clúster.
Lectura y escritura de datos en Amazon S3 con EMRFS
Cuando una aplicación que se ejecuta en un clúster de Amazon EMR hace referencia a los datos con el formato s3://, Amazon EMR utiliza el perfil de instancia de EC2 para realizar la solicitud. Por lo general, los clústeres leen y escriben datos en Amazon S3 de esta forma, y Amazon EMR utiliza los permisos asociados al rol de servicio para instancias de EC2 del clúster de forma predeterminada. Para obtener más información, consulte Configuración de roles de IAM para solicitudes de EMRFS a Amazon S3.mydata
Dado que los roles de IAM para EMRFS seguirán usando los permisos asociados al rol de servicio para las instancias de EC2 del clúster, como práctica recomendada, le recomendamos que utilice los roles de IAM para EMRFS y limite los permisos de Amazon S3 y EMRFS asociados al rol de servicio para las instancias de EC2 del clúster.
La siguiente instrucción de ejemplo señala los permisos que EMRFS necesita para hacer solicitudes a Amazon S3.
-
my-data-bucket-in-s3-for-emrfs-reads-and-writesespecifica el bucket de Amazon S3 en el que el clúster lee y escribe los datos y todas las subcarpetas con/*. Añada solo los buckets y carpetas que necesita su aplicación. -
La instrucción de política que permite realizar acciones de
dynamodbsolo es necesaria si la vista coherente de EMRFS está habilitada.EmrFSMetadataespecifica la carpeta predeterminada para la vista coherente de EMRFS.
Almacenamiento de archivos de registro en Amazon S3
La siguiente instrucción de política permite al clúster de Amazon EMR almacenar los archivos de registro en la ubicación de Amazon S3 indicada. En el ejemplo siguiente, cuando se creó el clúster, s3://MyLoggingBucket/MyEMRClusterLogs se especificó mediante la ubicación S3 de la carpeta de registro en la consola, mediante la --log-uri AWS CLI opción del comando o mediante el LogUri parámetro del RunJobFlow comando. Para obtener más información, consulte Archivar archivos de registro en Amazon S3.
Uso del catálogo de datos de AWS Glue
La siguiente declaración de política permite las acciones que son necesarias si se utiliza el catálogo de datos de AWS Glue como almacén de aplicaciones. Para obtener más información, consulte Uso del catálogo de datos de AWS Glue como metaalmacén para Spark SQL, Uso del catálogo de datos de AWS Glue como metaalmacén para Hive y Uso de Presto con el catálogo de datos de AWS Glue en la Guía de versiones de Amazon EMR.