cycle de vie pris en charge par emr-spark-8.0.0 Versions de l'application emr-spark-8.0.0 notes de mise à jour d'emr-spark-8.0.0 Versions Java par défaut d'emr-spark-8.0.0 Versions des composants emr-spark-8.0.0 classifications de configuration emr-spark-8.0.0 Journal des modifications d'EMR Spark 8.0.0

AWS environnement d'exécution pour Apache Spark (emr-spark-8.0.0)

cycle de vie pris en charge par emr-spark-8.0.0

Le tableau suivant décrit les dates de cycle de vie prises en charge pour Amazon EMR Spark 8.0.0.

Phase de support	Date
Date de sortie initiale	21 mai 2026
Support standard jusqu'à	20 mai 2027
Fin de vie	20 mai 2027

Versions de l'application emr-spark-8.0.0

Cette version inclut les applications suivantes : AmazonCloudWatchAgent Delta, Hudi, Iceberg, JupyterEnterpriseGateway, Livy, et Spark.

Le tableau ci-dessous répertorie les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des trois versions précédentes d'Amazon EMR (le cas échéant).

Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les rubriques suivantes :

Informations sur la version de l'application
	emr-spark-8.0.0
AWS SDK pour Java	2,41,32
Python	3,11, 3,12, 3,13
Scala	2,13,16
AmazonCloudWatchAgent	1,300032,2-amzn-0
Delta	4.0.0-amzn-1-spark
Hudi	1.1.0-amzn-0
Iceberg	1.10.1-amzn-0
JupyterEnterpriseGateway	2.6.0
Livy	0.8.0 - incubation
Spark	4,0.2-amzn-0

notes de mise à jour d'emr-spark-8.0.0

Les notes de mise à jour suivantes incluent des informations sur la version 8.0.0 d'Amazon EMR (emr-spark-8.0.0), avec Apache Spark 4.0.2.

Nouveautés

Apache Spark 4.0.2 GA — Première version prête pour la production de Spark 4.x sur Amazon EMR, basée sur la branche 4.0 en amont avec des correctifs Amazon pour les performances, la sécurité et l'intégration.
Disponible sur EC2, EKS et Serverless : cette version est disponible dans tous les modes de déploiement d'Amazon EMR.
Mode SQL ANSI : gestion des types plus stricte activée par défaut, ce qui améliore l'exactitude du code SQL et la compatibilité avec le comportement SQL standard.
Syntaxe SQL PIPE — Nouvel opérateur |> pour enchaîner les opérations SQL dans une syntaxe de type pipeline plus lisible.
Type de données VARIANT — Support natif pour les données JSON semi-structurées utilisant le type VARIANT, permettant des modèles de schéma en lecture sans définitions de schéma explicites.
Scriptage SQL : contrôlez les instructions de flux (IF/ELSE, WHILE, FOR) et les variables de session pour la logique SQL procédurale dans Spark SQL.
User-Defined Fonctions SQL — Définissez les UDFs directement dans SQL sans avoir besoin de Scala/Python code.
Améliorations du streaming — API de traitement statique arbitraire v2 avec WithState opérateur de transformation et point de contrôle amélioré du journal des modifications RockSDB.
Support d'Apache Iceberg v3 : prise en charge des types de données VARIANT dans les tables Iceberg, intégration des tables AWS S3.
Contrôle Fine-grained d'accès natif et accès complet aux tables (FTA) : pris en charge pour les tables Iceberg, Delta Lake et Hive.
JDK 17 par défaut — Amazon Corretto 17 est la JVM par défaut ; le JDK 21 est également disponible.
Scala 2.13 — Spark 4.x abandonne le support de Scala 2.12 ; tous les composants sont basés sur Scala 2.13.

Changements et améliorations depuis emr-spark-8.0-preview

Livy et JupyterEnterpriseGateway disponibles sous forme d'applications de charge de travail interactives
Support permanent du serveur d'historique Spark

Limites et problèmes connus

Le point de terminaison sécurisé Spark Connect avec support FGAC natif n'est pas disponible dans cette version.
Le contrôle Fine-grained d'accès natif (FGAC) n'est pas disponible pour les tables Iceberg qui utilisent le type de données VARIANT.
Le compactage géré par Glue n'est pas pris en charge sur les tables Iceberg qui utilisent le type de données VARIANT.
AL2023 fournit Python 3.9 sous le nom de système Python, mais il n'est pas pris en charge pour les PySpark charges de travail.
Le nombre maximum d'étapes que vous pouvez ajouter ou annuler par demande est de 100.

Migration depuis EMR 7.x (Spark 3.5.x)

Lors de la migration d'EMR 7.x (qui utilise Spark 3.5.x) vers emr-spark-8.0.0 (Spark 4.0.2), pensez à utiliser l'agent de mise à niveau Spark pour faciliter la migration.

Le mode SQL ANSI est utilisé par défaut : coercition de type plus stricte ; les conversions implicites qui ont réussi auparavant peuvent désormais générer des erreurs.
Scala 2.13 — Toutes les versions de Spark 4.x utilisent Scala 2.13. Recompilez tous les fichiers JAR personnalisés créés avec Scala 2.12.
JDK 17 par défaut — Spark 4.0.2 ne prend en charge que le JDK 17 (par défaut) et le JDK 21.
Python 3.11 par défaut — Python 3.9 n'est plus la valeur par défaut pour PySpark. Vérifiez la compatibilité de vos dépendances Python.
AWS SDK — AWS Le SDK v1 pour Java a été supprimé. Mettez à jour votre application pour utiliser le AWS SDK v2 afin d'améliorer les performances et la gestion des ressources.
Accès S3 — EMRFS n'est plus disponible. Utilisez le connecteur S3A pour écrire des données persistantes sur Amazon S3 afin d'améliorer les performances et la compatibilité. Consultez Optimiser le runtime Amazon EMR pour Apache Spark avec EMR S3A. emr-s3-select a été supprimé.
Développement interactif — JupyterHub, Zeppelin et Hue ne sont plus inclus. Pour le développement interactif de Spark, utilisez EMR Studio, Livy et. JupyterEnterpriseGateway
Train de publication distinct : le label de sortie est emr-spark-8.0.0, et non emr-8.0.0. Cette version se concentre sur Spark. Pour Flink, HBase, Phoenix, Tez, Trino, Presto, utilisez EMR 7.x et attendez la future version multimoteur d'emr-8.0.0. Pig et Oozie ne sont pas inclus.
Point de terminaison VPC pour la communication entre le cluster EMR : à partir d'Amazon EMR Spark 8.0.0, Amazon EMR on EC2 fournit un point de terminaison VPC dans votre VPC pour la communication entre le service Amazon EMR et votre cluster lors du lancement d'un cluster dans des sous-réseaux privés. Votre rôle de service Amazon EMR doit inclure ec2:CreateVpcEndpoint des ec2:ModifyVpcEndpoint autorisations, ou vous devez créer le point de terminaison VPC manuellement avant de lancer un cluster. Le nom du service de point de terminaison VPC est. aws.api.region.emr-service-cell01
- Cette modification met à jour les exigences réseau pour les clusters de sous-réseaux privés :
  - Le groupe de sécurité d'accès au service (ElasticMapReduce-ServiceAccess), attaché au point de terminaison du VPC, nécessite le protocole HTTPS entrant (port 443) en provenance du bloc CIDR du VPC. Les 8443/9443 règles de port utilisées dans les versions 7.x et antérieures d'Amazon EMR ne sont plus requises.
  - Le groupe de sécurité de l'instance principale nécessite un protocole HTTPS sortant (port 443) vers le groupe de sécurité d'accès aux services.
  - Les règles du port entrant 8443 et du port sortant 9443 utilisées dans les versions 7.x et antérieures d'Amazon EMR ne sont plus requises pour les groupes de sécurité principaux, principaux et des instances de tâches.
  - Si vous utilisez une politique de point de terminaison VPC personnalisée pour Amazon S3, vous devez autoriser l'accès aux compartiments de données de l'instance Amazon EMR (et). aws157-instance-data-0-prod-region aws157-instance-data-1-prod-region
- Pour plus d'informations, consultez les sections Clusters EMR dans les sous-réseaux privés, groupes de EMR-managed sécurité Amazon et Politique minimale d'Amazon S3 pour les sous-réseaux privés dans le guide de gestion Amazon EMR.

Versions Java par défaut d'emr-spark-8.0.0

Application	Version Java/Amazon Corretto (la valeur par défaut est en gras)
Spark	17, 21
Livy	17, 11, 8
Hadoop	17, 11, 8

Versions des composants emr-spark-8.0.0

Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ils commencent généralement par emr ouaws. Big-data les packages d'applications de la dernière version d'Amazon EMR sont généralement les dernières versions disponibles dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.

Certains composants dans Amazon EMR diffèrent des versions de la communauté. Ces composants ont une étiquette de version sous la forme CommunityVersion-amzn-EmrVersion. EmrVersion commence à 0. Par exemple, si un composant de la communauté open source nommé myapp-component avec la version 2.2 a été modifié trois fois en vue de son inclusion dans différentes versions d'Amazon EMR, sa version apparaît sous le nom 2.2-amzn-2.

Composant	Version	Description
adot-java-agent	1,31,0	Agent Java qui collecte des métriques à partir des démons d’application.
delta	4.0.0-amzn-1-spark	Delta Lake est un format de table ouvert pour les jeux de données analytiques de grande taille.
emr-amazon-cloudwatch-agent	1,300032,2-amzn-0	Application qui collecte des métriques au niveau interne du système ainsi que des métriques d’application personnalisées à partir d’instances Amazon EC2.
emr-ddb	6.0.0	Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop.
emr-goodies	3.22.0-Spark	Bibliothèques proposant plus de commodités pour l'écosystème Hadoop.
emr-notebook-env	1.18.0	Environnement Conda pour le bloc-notes EMR qui inclut la passerelle Jupyter Entreprise
emr-s3-dist-cp	2,44,0	Application de copie distribuée optimisée pour Amazon S3.
hadoop-client	3.4.2-amzn-1	Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ».
hadoop-hdfs-datanode	3.4.2-amzn-1	HDFS node-level service for storing blocks.
hadoop-hdfs-library	3.4.2-amzn-1	Bibliothèque et client de ligne de commande HDFS
hadoop-hdfs-namenode	3.4.2-amzn-1	Service HDFS pour le suivi des noms de fichier et des emplacements de bloc.
hadoop-hdfs-zkfc	3.4.2-amzn-1	Service ZKFC pour le suivi des namenodes en mode HA.
hadoop-hdfs-journalnode	3.4.2-amzn-1	Service HDFS pour la gestion du journal du système de fichiers Hadoop sur les clusters HA.
hadoop-httpfs-server	3.4.2-amzn-1	Point de terminaison HTTP pour les opérations HDFS.
hadoop-kms-server	3.4.2-amzn-1	Serveur de gestion des clés cryptographiques basé sur l'API de Hadoop. KeyProvider
hadoop-mapred	3.4.2-amzn-1	MapReduce bibliothèques de moteurs d'exécution pour exécuter une MapReduce application.
hadoop-yarn-nodemanager	3.4.2-amzn-1	Service YARN pour la gestion de conteneurs sur un nœud individuel.
hadoop-yarn-resourcemanager	3.4.2-amzn-1	Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées.
hadoop-yarn-timeline-server	3.4.2-amzn-1	Service de récupération d'informations actuelles et historiques pour les applications YARN.
hudi	1.1.0-amzn-0	Infrastructure de traitement incrémentiel pour implémenter un pipeline à faible latence et à efficacité élevée.
hudi-spark	1.1.0-amzn-0	Bibliothèque de solution groupée pour exécuter Spark avec Hudi.
iceberg	1.10.1-amzn-0	Apache Iceberg est un format de table ouvert pour les jeux de données analytiques de grande taille.
livy-server	0.8.0 - incubation	Interface REST pour interagir avec Apache Spark
nginx	1.12.1	nginx [engine x] est un serveur HTTP et à proxy inverse
mariadb-server	5,5,68 ans et plus	Serveur de base de données MariaDB.
nvidia-cuda	12,5.0	Pilotes Nvidia et boîte à outils Cuda
r	4.3.2	Projet R pour les calculs statistiques
spark-client	4,0.2-amzn-0	Clients de ligne de commande Spark.
spark-history-server	4,0.2-amzn-0	Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée.
spark-on-yarn	4,0.2-amzn-0	In-memory moteur d'exécution pour YARN.
spark-yarn-slave	4,0.2-amzn-0	Bibliothèques Apache Spark requises par les esclaves YARN.
spark-rapids	26.02.2-amzn-0	Plug-in Nvidia Spark RAPIDS qui accélère Apache Spark avec les GPU.
zookeeper-server	3.9.3-amzn-6	Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe.
zookeeper-client	3.9.3-amzn-6	ZooKeeper client en ligne de commande.

classifications de configuration emr-spark-8.0.0

Les classifications de configuration vous permettent de personnaliser les applications. Elles correspondent souvent à un fichier XML de configuration de l'application, tel que hive-site.xml. Pour de plus amples informations, veuillez consulter Configuration des applications.

Les actions de reconfiguration se produisent lorsque vous spécifiez une configuration pour les groupes d'instances d'un cluster en cours d'exécution. Amazon EMR lance uniquement des actions de reconfiguration pour les classifications que vous modifiez. Pour de plus amples informations, veuillez consulter Reconfigurer un groupe d'instances dans un cluster en cours d'exécution.

classifications d'emr-spark-8.0.0
Classifications	Description	Actions de reconfiguration
capacity-scheduler	Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop.	Restarts the ResourceManager service.
container-executor	Modifiez les valeurs dans le fichier container-executor.cfg de Hadoop YARN.	Not available.
container-log4j	Modifiez les valeurs dans le fichier container-log4j.properties de Hadoop YARN.	Not available.
core-site	Modifiez les valeurs dans le fichier core-site.xml de Hadoop.	Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.
docker-conf	Modifiez les paramètres liés au docker.	Not available.
hadoop-env	Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop.	Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.
hadoop-log4j	Modifiez les valeurs dans le fichier log4j.properties de Hadoop.	Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.
hadoop-ssl-server	Modifier la configuration du serveur ssl hadoop	Not available.
hadoop-ssl-client	Modifier la configuration du client ssl hadoop	Not available.
hdfs-encryption-zones	Configurez les zones de chiffrement HDFS.	This classification should not be reconfigured.
hdfs-env	Modifiez les valeurs dans l'environnement HDFS.	Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC.
hdfs-site	Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS.	Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs.
httpfs-env	Modifiez les valeurs dans l'environnement HTTPFS.	Restarts Hadoop Httpfs service.
httpfs-site	Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop.	Restarts Hadoop Httpfs service.
hadoop-kms-acls	Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop.	Not available.
hadoop-kms-env	Modifiez les valeurs dans l'environnement KMS de Hadoop.	Restarts Hadoop-KMS service.
hadoop-kms-java-home	Modification de la page d'accueil Java KMS d'Hadoop	Not available.
hadoop-kms-log4j	Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop.	Not available.
hadoop-kms-site	Modifiez les valeurs dans le fichier kms-site.xml de Hadoop.	Restarts Hadoop-KMS.
hudi-env	Modifiez les valeurs dans l'environnement Hudi.	Not available.
hudi-defaults	Modifiez les valeurs dans le fichier hudi-defaults.conf de Hudi.	Not available.
iceberg-defaults	Modification des valeurs du fichier iceberg-defaults.conf d'Iceberg.	Not available.
delta-defaults	Modification des valeurs dans le fichier delta-defaults.conf de Delta.	Not available.
jupyter-notebook-conf	Modifiez les valeurs dans le fichier jupyter_notebook_config.py de Jupyter Notebook.	Not available.
jupyter-s3-conf	Configuration de la persistance S3 de bloc-notes Jupyter.	Not available.
jupyter-sparkmagic-conf	Modifiez les valeurs dans le fichier config.json de Sparkmagic.	Not available.
livy-conf	Modifiez les valeurs dans le fichier livy.conf de Livy.	Restarts Livy Server.
livy-env	Modifiez les valeurs dans l'environnement Livy.	Restarts Livy Server.
livy-log4j2	Modifiez les paramètres Livy log4j2.properties.	Restarts Livy Server.
mapred-env	Modifiez les valeurs dans l'environnement de l' MapReduce application.	Restarts Hadoop MapReduce-HistoryServer.
mapred-site	Modifiez les valeurs dans le fichier mapred-site.xml de l' MapReduce application.	Restarts Hadoop MapReduce-HistoryServer.
spark	EMR-curated Paramètres Amazon pour Apache Spark.	This property modifies spark-defaults. See actions there.
spark-defaults	Modifiez les valeurs dans le fichier spark-defaults.conf de Spark.	Restarts Spark history server and Spark thrift server.
spark-env	Modifiez les valeurs dans l'environnement Spark.	Restarts Spark history server and Spark thrift server.
spark-hive-site	Modifiez les valeurs dans le fichier hive-site.xml de Spark	Not available.
spark-log4j2	Modifiez les valeurs dans le fichier log4j2.properties de Spark.	Restarts Spark history server and Spark thrift server.
spark-metrics	Modifiez les valeurs dans le fichier metrics.properties de Spark.	Restarts Spark history server and Spark thrift server.
yarn-env	Modifiez les valeurs dans l'environnement YARN.	Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.
yarn-site	Modifiez les valeurs dans le fichier yarn-site.xml de YARN.	Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer.
zookeeper-config	Modifiez les valeurs dans ZooKeeper le fichier zoo.cfg.	Restarts Zookeeper server.
zookeeper-logback	Modifiez les valeurs dans ZooKeeper le fichier logback.xml.	Restarts Zookeeper server.
cloudwatch-logs	Configurez l'intégration CloudWatch des journaux pour les nœuds du cluster EMR.	Not available.
emr-metrics	Modifiez les paramètres métriques EMR pour ce nœud.	Restarts the CloudWatchAgent service.

Journal des modifications d'EMR Spark 8.0.0

Journal des modifications pour EMR Spark 8.0.0
Date	Événement	Description
2026-05-21	Publication de documents	Notes de mise à jour d'Amazon EMR Spark 8.0.0 (emr-spark-8.0.0) publiées pour la première fois

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Versions de l'application dans AWS environnement d'exécution pour les versions d'Apache Spark

Versions Amazon EMR 7.x