View a markdown version of this page

AWS environnement d'exécution pour Apache Spark (emr-spark-8.0.0) - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AWS environnement d'exécution pour Apache Spark (emr-spark-8.0.0)

cycle de vie pris en charge par emr-spark-8.0.0

Le tableau suivant décrit les dates de cycle de vie prises en charge pour Amazon EMR Spark 8.0.0.

Phase de support Date
Date de sortie initiale 21 mai 2026
Support standard jusqu'à 20 mai 2027
Fin de vie 20 mai 2027

Versions de l'application emr-spark-8.0.0

Cette version inclut les applications suivantes : AmazonCloudWatchAgentDelta, Hudi, Iceberg, JupyterEnterpriseGateway, Livy, et Spark.

Le tableau ci-dessous répertorie les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des trois versions précédentes d'Amazon EMR (le cas échéant).

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les rubriques suivantes :

Informations sur la version de l'application
emr-spark-8.0.0
AWS SDK pour Java 2,41,32
Python 3,11, 3,12, 3,13
Scala 2,13,16
AmazonCloudWatchAgent1,300032,2-amzn-0
Delta4.0.0-amzn-1-spark
Hudi1.1.0-amzn-0
Iceberg1.10.1-amzn-0
JupyterEnterpriseGateway2.6.0
Livy0.8.0 - incubation
Spark4,0.2-amzn-0

notes de mise à jour d'emr-spark-8.0.0

Les notes de mise à jour suivantes incluent des informations sur la version 8.0.0 d'Amazon EMR (emr-spark-8.0.0), avec Apache Spark 4.0.2.

Nouveautés

  • Apache Spark 4.0.2 GA — Première version prête pour la production de Spark 4.x sur Amazon EMR, basée sur la branche 4.0 en amont avec des correctifs Amazon pour les performances, la sécurité et l'intégration.

  • Disponible sur EC2, EKS et Serverless : cette version est disponible dans tous les modes de déploiement d'Amazon EMR.

  • Mode SQL ANSI : gestion des types plus stricte activée par défaut, ce qui améliore l'exactitude du code SQL et la compatibilité avec le comportement SQL standard.

  • Syntaxe SQL PIPE — Nouvel opérateur |> pour enchaîner les opérations SQL dans une syntaxe de type pipeline plus lisible.

  • Type de données VARIANT : prise en charge native des données JSON semi-structurées utilisant le type VARIANT, permettant des modèles de schéma en lecture sans définitions de schéma explicites.

  • Scriptage SQL : contrôlez les instructions de flux (IF/ELSE, WHILE, FOR) et les variables de session pour la logique SQL procédurale dans Spark SQL.

  • User-Defined Fonctions SQL — Définissez les UDFs directement dans SQL sans avoir besoin de Scala/Python code.

  • Améliorations du streaming — API de traitement statique arbitraire v2 avec WithState opérateur de transformation et point de contrôle amélioré du journal des modifications RockSDB.

  • Support d'Apache Iceberg v3 : prise en charge des types de données VARIANT dans les tables Iceberg, intégration des tables AWS S3.

  • Contrôle Fine-grained d'accès natif et accès complet aux tables (FTA) : pris en charge pour les tables Iceberg, Delta Lake et Hive.

  • JDK 17 par défaut — Amazon Corretto 17 est la JVM par défaut ; le JDK 21 est également disponible.

  • Scala 2.13 — Spark 4.x abandonne le support de Scala 2.12 ; tous les composants sont basés sur Scala 2.13.

Changements et améliorations depuis emr-spark-8.0-preview

  • Livy et JupyterEnterpriseGateway disponibles sous forme d'applications de charge de travail interactives

  • Support permanent du serveur d'historique Spark

Limites et problèmes connus

  • Le point de terminaison sécurisé Spark Connect avec support FGAC natif n'est pas disponible dans cette version.

  • AL2023 fournit Python 3.9 sous le nom de système Python, mais il n'est pas pris en charge pour les PySpark charges de travail.

Migration depuis EMR 7.x (Spark 3.5.x)

Lors de la migration d'EMR 7.x (qui utilise Spark 3.5.x) vers emr-spark-8.0.0 (Spark 4.0.2), pensez à utiliser l'agent de mise à niveau Spark pour faciliter la migration.

  • Le mode SQL ANSI est utilisé par défaut : coercition de type plus stricte ; les conversions implicites qui ont réussi auparavant peuvent désormais générer des erreurs.

  • Scala 2.13 — Toutes les versions de Spark 4.x utilisent Scala 2.13. Recompilez tous les fichiers JAR personnalisés créés avec Scala 2.12.

  • JDK 17 par défaut — Spark 4.0.2 ne prend en charge que le JDK 17 (par défaut) et le JDK 21.

  • Python 3.11 par défaut — Python 3.9 n'est plus la valeur par défaut pour PySpark. Vérifiez la compatibilité de vos dépendances Python.

  • AWS SDK — AWS Le SDK v1 pour Java a été supprimé. Mettez à jour votre application pour utiliser le AWS SDK v2 afin d'améliorer les performances et la gestion des ressources.

  • Accès S3 — EMRFS n'est plus disponible. Utilisez le connecteur S3A pour écrire des données persistantes sur Amazon S3 afin d'améliorer les performances et la compatibilité. Consultez Optimiser le runtime Amazon EMR pour Apache Spark avec EMR S3A. emr-s3-select a été supprimé.

  • Développement interactif — JupyterHub, Zeppelin et Hue ne sont plus inclus. Pour le développement interactif de Spark, utilisez EMR Studio, Livy et. JupyterEnterpriseGateway

  • Train de publication distinct : le label de sortie est emr-spark-8.0.0, et non emr-8.0.0. Cette version se concentre sur Spark. Pour Flink, HBase, Phoenix, Tez, Trino, Presto, utilisez EMR 7.x et attendez la future version multimoteur d'emr-8.0.0. Pig et Oozie ne sont pas inclus.

  • Point de terminaison VPC pour la communication entre le cluster EMR : à partir d'Amazon EMR Spark 8.0.0, Amazon EMR on EC2 fournit un point de terminaison VPC dans votre VPC pour la communication entre le service Amazon EMR et votre cluster lors du lancement d'un cluster dans des sous-réseaux privés. Votre rôle de service Amazon EMR doit inclure ec2:CreateVpcEndpoint des ec2:ModifyVpcEndpoint autorisations, ou vous devez créer le point de terminaison VPC manuellement avant de lancer un cluster. Le nom du service de point de terminaison VPC est. aws.api.region.emr-service-cell01

    • Cette modification met à jour les exigences réseau pour les clusters de sous-réseaux privés :

      • Le groupe de sécurité d'accès au service (ElasticMapReduce-ServiceAccess), attaché au point de terminaison du VPC, nécessite le protocole HTTPS entrant (port 443) en provenance du bloc CIDR du VPC. Les 8443/9443 règles de port utilisées dans les versions 7.x et antérieures d'Amazon EMR ne sont plus requises.

      • Le groupe de sécurité de l'instance principale nécessite un protocole HTTPS sortant (port 443) vers le groupe de sécurité d'accès aux services.

      • Les règles du port entrant 8443 et du port sortant 9443 utilisées dans les versions 7.x et antérieures d'Amazon EMR ne sont plus requises pour les groupes de sécurité principaux, principaux et des instances de tâches.

      • Si vous utilisez une politique de point de terminaison VPC personnalisée pour Amazon S3, vous devez autoriser l'accès aux compartiments de données de l'instance Amazon EMR (et). aws157-instance-data-0-prod-region aws157-instance-data-1-prod-region

    • Pour plus d'informations, consultez les sections Clusters EMR dans les sous-réseaux privés, groupes de EMR-managed sécurité Amazon et Politique minimale d'Amazon S3 pour les sous-réseaux privés dans le guide de gestion Amazon EMR.

Versions Java par défaut d'emr-spark-8.0.0

ApplicationVersion Java/Amazon Corretto (la valeur par défaut est en gras)
Spark17, 21
Livy17, 11, 8
Hadoop17, 11, 8

Versions des composants emr-spark-8.0.0

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ils commencent généralement par emr ouaws. Big-data les packages d'applications de la dernière version d'Amazon EMR sont généralement les dernières versions disponibles dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants dans Amazon EMR diffèrent des versions de la communauté. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. EmrVersion commence à 0. Par exemple, si un composant de la communauté open source nommé myapp-component avec la version 2.2 a été modifié trois fois en vue de son inclusion dans différentes versions d'Amazon EMR, sa version apparaît sous le nom 2.2-amzn-2.

Composant Version Description
adot-java-agent1,31,0Agent Java qui collecte des métriques à partir des démons d’application.
delta4.0.0-amzn-1-sparkDelta Lake est un format de table ouvert pour les jeux de données analytiques de grande taille.
emr-amazon-cloudwatch-agent1,300032,2-amzn-0Application qui collecte des métriques au niveau interne du système ainsi que des métriques d’application personnalisées à partir d’instances Amazon EC2.
emr-ddb6.0.0Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies3.22.0-SparkBibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-notebook-env1.18.0Environnement Conda pour le bloc-notes EMR qui inclut la passerelle Jupyter Entreprise
emr-s3-dist-cp2,44,0Application de copie distribuée optimisée pour Amazon S3.
hadoop-client3.4.2-amzn-1Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode3.4.2-amzn-1HDFS node-level service for storing blocks.
hadoop-hdfs-library3.4.2-amzn-1Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode3.4.2-amzn-1Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-hdfs-zkfc3.4.2-amzn-1Service ZKFC pour le suivi des namenodes en mode HA.
hadoop-hdfs-journalnode3.4.2-amzn-1Service HDFS pour la gestion du journal du système de fichiers Hadoop sur les clusters HA.
hadoop-httpfs-server3.4.2-amzn-1Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server3.4.2-amzn-1Serveur de gestion des clés cryptographiques basé sur l'API de Hadoop. KeyProvider
hadoop-mapred3.4.2-amzn-1MapReduce bibliothèques de moteurs d'exécution pour exécuter une MapReduce application.
hadoop-yarn-nodemanager3.4.2-amzn-1Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager3.4.2-amzn-1Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hadoop-yarn-timeline-server3.4.2-amzn-1Service de récupération d'informations actuelles et historiques pour les applications YARN.
hudi1.1.0-amzn-0Infrastructure de traitement incrémentiel pour implémenter un pipeline à faible latence et à efficacité élevée.
hudi-spark1.1.0-amzn-0Bibliothèque de solution groupée pour exécuter Spark avec Hudi.
iceberg1.10.1-amzn-0Apache Iceberg est un format de table ouvert pour les jeux de données analytiques de grande taille.
livy-server0.8.0 - incubationInterface REST pour interagir avec Apache Spark
nginx1.12.1nginx [engine x] est un serveur HTTP et à proxy inverse
mariadb-server5,5,68 ans et plusServeur de base de données MariaDB.
nvidia-cuda12,5.0Pilotes Nvidia et boîte à outils Cuda
r4.3.2Projet R pour les calculs statistiques
spark-client4,0.2-amzn-0Clients de ligne de commande Spark.
spark-history-server4,0.2-amzn-0Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn4,0.2-amzn-0In-memory moteur d'exécution pour YARN.
spark-yarn-slave4,0.2-amzn-0Bibliothèques Apache Spark requises par les esclaves YARN.
spark-rapids26.02.2-amzn-0Plug-in Nvidia Spark RAPIDS qui accélère Apache Spark avec les GPU.
zookeeper-server3.9.3-amzn-6Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe.
zookeeper-client3.9.3-amzn-6ZooKeeper client en ligne de commande.

classifications de configuration emr-spark-8.0.0

Les classifications de configuration vous permettent de personnaliser les applications. Elles correspondent souvent à un fichier XML de configuration de l'application, tel que hive-site.xml. Pour de plus amples informations, veuillez consulter Configuration des applications.

Les actions de reconfiguration se produisent lorsque vous spécifiez une configuration pour les groupes d'instances d'un cluster en cours d'exécution. Amazon EMR lance uniquement des actions de reconfiguration pour les classifications que vous modifiez. Pour de plus amples informations, veuillez consulter Reconfigurer un groupe d'instances dans un cluster en cours d'exécution.

classifications d'emr-spark-8.0.0
Classifications Description Actions de reconfiguration

capacity-scheduler

Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.

Restarts the ResourceManager service.

container-executor

Modifiez les valeurs dans le fichier container-executor.cfg de Hadoop YARN.

Not available.

container-log4j

Modifiez les valeurs dans le fichier container-log4j.properties de Hadoop YARN.

Not available.

core-site

Modifiez les valeurs dans le fichier core-site.xml de Hadoop.

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.

docker-conf

Modifiez les paramètres liés au docker.

Not available.

hadoop-env

Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.

hadoop-log4j

Modifiez les valeurs dans le fichier log4j.properties de Hadoop.

Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.

hadoop-ssl-server

Modifier la configuration du serveur ssl hadoop

Not available.

hadoop-ssl-client

Modifier la configuration du client ssl hadoop

Not available.

hdfs-encryption-zones

Configurez les zones de chiffrement HDFS.

This classification should not be reconfigured.

hdfs-env

Modifiez les valeurs dans l'environnement HDFS.

Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC.

hdfs-site

Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs.

httpfs-env

Modifiez les valeurs dans l'environnement HTTPFS.

Restarts Hadoop Httpfs service.

httpfs-site

Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.

Restarts Hadoop Httpfs service.

hadoop-kms-acls

Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.

Not available.

hadoop-kms-env

Modifiez les valeurs dans l'environnement KMS de Hadoop.

Restarts Hadoop-KMS service.

hadoop-kms-java-home

Modification de la page d'accueil Java KMS d'Hadoop

Not available.

hadoop-kms-log4j

Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.

Not available.

hadoop-kms-site

Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.

Restarts Hadoop-KMS.

hudi-env

Modifiez les valeurs dans l'environnement Hudi.

Not available.

hudi-defaults

Modifiez les valeurs dans le fichier hudi-defaults.conf de Hudi.

Not available.

iceberg-defaults

Modification des valeurs du fichier iceberg-defaults.conf d'Iceberg.

Not available.

delta-defaults

Modification des valeurs dans le fichier delta-defaults.conf de Delta.

Not available.

jupyter-notebook-conf

Modifiez les valeurs dans le fichier jupyter_notebook_config.py de Jupyter Notebook.

Not available.

jupyter-s3-conf

Configuration de la persistance S3 de bloc-notes Jupyter.

Not available.

jupyter-sparkmagic-conf

Modifiez les valeurs dans le fichier config.json de Sparkmagic.

Not available.

livy-conf

Modifiez les valeurs dans le fichier livy.conf de Livy.

Restarts Livy Server.

livy-env

Modifiez les valeurs dans l'environnement Livy.

Restarts Livy Server.

livy-log4j2

Modifiez les paramètres Livy log4j2.properties.

Restarts Livy Server.

mapred-env

Modifiez les valeurs dans l'environnement de l' MapReduce application.

Restarts Hadoop MapReduce-HistoryServer.

mapred-site

Modifiez les valeurs dans le fichier mapred-site.xml de l' MapReduce application.

Restarts Hadoop MapReduce-HistoryServer.

spark

EMR-curated Paramètres Amazon pour Apache Spark.

This property modifies spark-defaults. See actions there.

spark-defaults

Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.

Restarts Spark history server and Spark thrift server.

spark-env

Modifiez les valeurs dans l'environnement Spark.

Restarts Spark history server and Spark thrift server.

spark-hive-site

Modifiez les valeurs dans le fichier hive-site.xml de Spark

Not available.

spark-log4j2

Modifiez les valeurs dans le fichier log4j2.properties de Spark.

Restarts Spark history server and Spark thrift server.

spark-metrics

Modifiez les valeurs dans le fichier metrics.properties de Spark.

Restarts Spark history server and Spark thrift server.

yarn-env

Modifiez les valeurs dans l'environnement YARN.

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.

yarn-site

Modifiez les valeurs dans le fichier yarn-site.xml de YARN.

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer.

zookeeper-config

Modifiez les valeurs dans ZooKeeper le fichier zoo.cfg.

Restarts Zookeeper server.

zookeeper-logback

Modifiez les valeurs dans ZooKeeper le fichier logback.xml.

Restarts Zookeeper server.

cloudwatch-logs

Configurez l'intégration CloudWatch des journaux pour les nœuds du cluster EMR.

Not available.

emr-metrics

Modifiez les paramètres métriques EMR pour ce nœud.

Restarts the CloudWatchAgent service.

Journal des modifications d'EMR Spark 8.0.0

Journal des modifications pour EMR Spark 8.0.0
DateÉvénementDescription
2026-05-21Publication de documentsNotes de mise à jour d'Amazon EMR Spark 8.0.0 (emr-spark-8.0.0) publiées pour la première fois