Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
AWS environnement d'exécution pour Apache Spark (emr-spark-8.0.0)
cycle de vie pris en charge par emr-spark-8.0.0
Le tableau suivant décrit les dates de cycle de vie prises en charge pour Amazon EMR Spark 8.0.0.
| Phase de support | Date |
|---|---|
| Date de sortie initiale | 21 mai 2026 |
| Support standard jusqu'à | 20 mai 2027 |
| Fin de vie | 20 mai 2027 |
Versions de l'application emr-spark-8.0.0
Cette version inclut les applications suivantes : AmazonCloudWatchAgentDelta
Le tableau ci-dessous répertorie les versions d'application disponibles dans cette version d'Amazon EMR et les versions d'application des trois versions précédentes d'Amazon EMR (le cas échéant).
Pour obtenir un historique complet des versions des applications de chaque version d'Amazon EMR, consultez les rubriques suivantes :
| emr-spark-8.0.0 | |
|---|---|
| AWS SDK pour Java | 2,41,32 |
| Python | 3,11, 3,12, 3,13 |
| Scala | 2,13,16 |
| AmazonCloudWatchAgent | 1,300032,2-amzn-0 |
| Delta | 4.0.0-amzn-1-spark |
| Hudi | 1.1.0-amzn-0 |
| Iceberg | 1.10.1-amzn-0 |
| JupyterEnterpriseGateway | 2.6.0 |
| Livy | 0.8.0 - incubation |
| Spark | 4,0.2-amzn-0 |
notes de mise à jour d'emr-spark-8.0.0
Les notes de mise à jour suivantes incluent des informations sur la version 8.0.0 d'Amazon EMR (emr-spark-8.0.0), avec Apache Spark 4.0.2.
Nouveautés
Apache Spark 4.0.2 GA — Première version prête pour la production de Spark 4.x sur Amazon EMR, basée sur la branche 4.0 en amont avec des correctifs Amazon pour les performances, la sécurité et l'intégration.
Disponible sur EC2, EKS et Serverless : cette version est disponible dans tous les modes de déploiement d'Amazon EMR.
Mode SQL ANSI : gestion des types plus stricte activée par défaut, ce qui améliore l'exactitude du code SQL et la compatibilité avec le comportement SQL standard.
Syntaxe SQL PIPE — Nouvel opérateur |> pour enchaîner les opérations SQL dans une syntaxe de type pipeline plus lisible.
Type de données VARIANT : prise en charge native des données JSON semi-structurées utilisant le type VARIANT, permettant des modèles de schéma en lecture sans définitions de schéma explicites.
Scriptage SQL : contrôlez les instructions de flux (IF/ELSE, WHILE, FOR) et les variables de session pour la logique SQL procédurale dans Spark SQL.
User-Defined Fonctions SQL — Définissez les UDFs directement dans SQL sans avoir besoin de Scala/Python code.
Améliorations du streaming — API de traitement statique arbitraire v2 avec WithState opérateur de transformation et point de contrôle amélioré du journal des modifications RockSDB.
Support d'Apache Iceberg v3 : prise en charge des types de données VARIANT dans les tables Iceberg, intégration des tables AWS S3.
Contrôle Fine-grained d'accès natif et accès complet aux tables (FTA) : pris en charge pour les tables Iceberg, Delta Lake et Hive.
JDK 17 par défaut — Amazon Corretto 17 est la JVM par défaut ; le JDK 21 est également disponible.
Scala 2.13 — Spark 4.x abandonne le support de Scala 2.12 ; tous les composants sont basés sur Scala 2.13.
Changements et améliorations depuis emr-spark-8.0-preview
Livy et JupyterEnterpriseGateway disponibles sous forme d'applications de charge de travail interactives
Support permanent du serveur d'historique Spark
Limites et problèmes connus
Le point de terminaison sécurisé Spark Connect avec support FGAC natif n'est pas disponible dans cette version.
AL2023 fournit Python 3.9 sous le nom de système Python, mais il n'est pas pris en charge pour les PySpark charges de travail.
Migration depuis EMR 7.x (Spark 3.5.x)
Le mode SQL ANSI est utilisé par défaut : coercition de type plus stricte ; les conversions implicites qui ont réussi auparavant peuvent désormais générer des erreurs.
Scala 2.13 — Toutes les versions de Spark 4.x utilisent Scala 2.13. Recompilez tous les fichiers JAR personnalisés créés avec Scala 2.12.
JDK 17 par défaut — Spark 4.0.2 ne prend en charge que le JDK 17 (par défaut) et le JDK 21.
Python 3.11 par défaut — Python 3.9 n'est plus la valeur par défaut pour PySpark. Vérifiez la compatibilité de vos dépendances Python.
AWS SDK — AWS Le SDK v1 pour Java a été supprimé. Mettez à jour votre application pour utiliser le AWS SDK v2 afin d'améliorer les performances et la gestion des ressources.
Accès S3 — EMRFS n'est plus disponible. Utilisez le connecteur S3A pour écrire des données persistantes sur Amazon S3 afin d'améliorer les performances et la compatibilité. Consultez Optimiser le runtime Amazon EMR pour Apache Spark avec EMR S3A. emr-s3-select a été supprimé
. Développement interactif — JupyterHub, Zeppelin et Hue ne sont plus inclus. Pour le développement interactif de Spark, utilisez EMR Studio, Livy et. JupyterEnterpriseGateway
Train de publication distinct : le label de sortie est emr-spark-8.0.0, et non emr-8.0.0. Cette version se concentre sur Spark. Pour Flink, HBase, Phoenix, Tez, Trino, Presto, utilisez EMR 7.x et attendez la future version multimoteur d'emr-8.0.0. Pig et Oozie ne sont pas inclus.
Point de terminaison VPC pour la communication entre le cluster EMR : à partir d'Amazon EMR Spark 8.0.0, Amazon EMR on EC2 fournit un point de terminaison VPC dans votre VPC pour la communication entre le service Amazon EMR et votre cluster lors du lancement d'un cluster dans des sous-réseaux privés. Votre rôle de service Amazon EMR doit inclure
ec2:CreateVpcEndpointdesec2:ModifyVpcEndpointautorisations, ou vous devez créer le point de terminaison VPC manuellement avant de lancer un cluster. Le nom du service de point de terminaison VPC est.aws.api.region.emr-service-cell01Cette modification met à jour les exigences réseau pour les clusters de sous-réseaux privés :
Le groupe de sécurité d'accès au service (
ElasticMapReduce-ServiceAccess), attaché au point de terminaison du VPC, nécessite le protocole HTTPS entrant (port 443) en provenance du bloc CIDR du VPC. Les 8443/9443 règles de port utilisées dans les versions 7.x et antérieures d'Amazon EMR ne sont plus requises.Le groupe de sécurité de l'instance principale nécessite un protocole HTTPS sortant (port 443) vers le groupe de sécurité d'accès aux services.
Les règles du port entrant 8443 et du port sortant 9443 utilisées dans les versions 7.x et antérieures d'Amazon EMR ne sont plus requises pour les groupes de sécurité principaux, principaux et des instances de tâches.
Si vous utilisez une politique de point de terminaison VPC personnalisée pour Amazon S3, vous devez autoriser l'accès aux compartiments de données de l'instance Amazon EMR (et).
aws157-instance-data-0-prod-regionaws157-instance-data-1-prod-region
Pour plus d'informations, consultez les sections Clusters EMR dans les sous-réseaux privés, groupes de EMR-managed sécurité Amazon et Politique minimale d'Amazon S3 pour les sous-réseaux privés dans le guide de gestion Amazon EMR.
Versions Java par défaut d'emr-spark-8.0.0
| Application | Version Java/Amazon Corretto (la valeur par défaut est en gras) |
|---|---|
| Spark | 17, 21 |
| Livy | 17, 11, 8 |
| Hadoop | 17, 11, 8 |
Versions des composants emr-spark-8.0.0
Les composants installés par Amazon EMR avec cette version sont répertoriés ci-dessous. Certains sont installés dans le cadre de packages d'application de Big Data. Les autres sont propres à Amazon EMR et installés pour les fonctions et processus système. Ils commencent généralement par emr ouaws. Big-data les packages d'applications de la dernière version d'Amazon EMR sont généralement les dernières versions disponibles dans la communauté. Nous nous efforçons de mettre à disposition les versions de la communauté dans Amazon EMR le plus rapidement possible.
Certains composants dans Amazon EMR diffèrent des versions de la communauté. Ces composants ont une étiquette de version sous la forme . CommunityVersion-amzn-EmrVersion commence à 0. Par exemple, si un composant de la communauté open source nommé EmrVersionmyapp-component avec la version 2.2 a été modifié trois fois en vue de son inclusion dans différentes versions d'Amazon EMR, sa version apparaît sous le nom 2.2-amzn-2.
| Composant | Version | Description |
|---|---|---|
| adot-java-agent | 1,31,0 | Agent Java qui collecte des métriques à partir des démons d’application. |
| delta | 4.0.0-amzn-1-spark | Delta Lake est un format de table ouvert pour les jeux de données analytiques de grande taille. |
| emr-amazon-cloudwatch-agent | 1,300032,2-amzn-0 | Application qui collecte des métriques au niveau interne du système ainsi que des métriques d’application personnalisées à partir d’instances Amazon EC2. |
| emr-ddb | 6.0.0 | Connecteur Amazon DynamoDB pour les applications de l'écosystème Hadoop. |
| emr-goodies | 3.22.0-Spark | Bibliothèques proposant plus de commodités pour l'écosystème Hadoop. |
| emr-notebook-env | 1.18.0 | Environnement Conda pour le bloc-notes EMR qui inclut la passerelle Jupyter Entreprise |
| emr-s3-dist-cp | 2,44,0 | Application de copie distribuée optimisée pour Amazon S3. |
| hadoop-client | 3.4.2-amzn-1 | Clients de ligne de commande Hadoop tels que « hdfs », « hadoop » ou « yarn ». |
| hadoop-hdfs-datanode | 3.4.2-amzn-1 | HDFS node-level service for storing blocks. |
| hadoop-hdfs-library | 3.4.2-amzn-1 | Bibliothèque et client de ligne de commande HDFS |
| hadoop-hdfs-namenode | 3.4.2-amzn-1 | Service HDFS pour le suivi des noms de fichier et des emplacements de bloc. |
| hadoop-hdfs-zkfc | 3.4.2-amzn-1 | Service ZKFC pour le suivi des namenodes en mode HA. |
| hadoop-hdfs-journalnode | 3.4.2-amzn-1 | Service HDFS pour la gestion du journal du système de fichiers Hadoop sur les clusters HA. |
| hadoop-httpfs-server | 3.4.2-amzn-1 | Point de terminaison HTTP pour les opérations HDFS. |
| hadoop-kms-server | 3.4.2-amzn-1 | Serveur de gestion des clés cryptographiques basé sur l'API de Hadoop. KeyProvider |
| hadoop-mapred | 3.4.2-amzn-1 | MapReduce bibliothèques de moteurs d'exécution pour exécuter une MapReduce application. |
| hadoop-yarn-nodemanager | 3.4.2-amzn-1 | Service YARN pour la gestion de conteneurs sur un nœud individuel. |
| hadoop-yarn-resourcemanager | 3.4.2-amzn-1 | Service YARN pour l'allocation et la gestion des ressources de cluster et des applications distribuées. |
| hadoop-yarn-timeline-server | 3.4.2-amzn-1 | Service de récupération d'informations actuelles et historiques pour les applications YARN. |
| hudi | 1.1.0-amzn-0 | Infrastructure de traitement incrémentiel pour implémenter un pipeline à faible latence et à efficacité élevée. |
| hudi-spark | 1.1.0-amzn-0 | Bibliothèque de solution groupée pour exécuter Spark avec Hudi. |
| iceberg | 1.10.1-amzn-0 | Apache Iceberg est un format de table ouvert pour les jeux de données analytiques de grande taille. |
| livy-server | 0.8.0 - incubation | Interface REST pour interagir avec Apache Spark |
| nginx | 1.12.1 | nginx [engine x] est un serveur HTTP et à proxy inverse |
| mariadb-server | 5,5,68 ans et plus | Serveur de base de données MariaDB. |
| nvidia-cuda | 12,5.0 | Pilotes Nvidia et boîte à outils Cuda |
| r | 4.3.2 | Projet R pour les calculs statistiques |
| spark-client | 4,0.2-amzn-0 | Clients de ligne de commande Spark. |
| spark-history-server | 4,0.2-amzn-0 | Interface web pour afficher des événements enregistrés pour la durée de vie d'une application Spark terminée. |
| spark-on-yarn | 4,0.2-amzn-0 | In-memory moteur d'exécution pour YARN. |
| spark-yarn-slave | 4,0.2-amzn-0 | Bibliothèques Apache Spark requises par les esclaves YARN. |
| spark-rapids | 26.02.2-amzn-0 | Plug-in Nvidia Spark RAPIDS qui accélère Apache Spark avec les GPU. |
| zookeeper-server | 3.9.3-amzn-6 | Service centralisé conçu pour la conservation des informations de configuration, l'affectation de noms, la synchronisation distribuée et la fourniture de services de groupe. |
| zookeeper-client | 3.9.3-amzn-6 | ZooKeeper client en ligne de commande. |
classifications de configuration emr-spark-8.0.0
Les classifications de configuration vous permettent de personnaliser les applications. Elles correspondent souvent à un fichier XML de configuration de l'application, tel que hive-site.xml. Pour de plus amples informations, veuillez consulter Configuration des applications.
Les actions de reconfiguration se produisent lorsque vous spécifiez une configuration pour les groupes d'instances d'un cluster en cours d'exécution. Amazon EMR lance uniquement des actions de reconfiguration pour les classifications que vous modifiez. Pour de plus amples informations, veuillez consulter Reconfigurer un groupe d'instances dans un cluster en cours d'exécution.
| Classifications | Description | Actions de reconfiguration |
|---|---|---|
capacity-scheduler | Modifiez les valeurs dans le fichier capacity-scheduler.xml de Hadoop. | Restarts the ResourceManager service. |
container-executor | Modifiez les valeurs dans le fichier container-executor.cfg de Hadoop YARN. | Not available. |
container-log4j | Modifiez les valeurs dans le fichier container-log4j.properties de Hadoop YARN. | Not available. |
core-site | Modifiez les valeurs dans le fichier core-site.xml de Hadoop. | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer. |
docker-conf | Modifiez les paramètres liés au docker. | Not available. |
hadoop-env | Modifiez les valeurs dans l'environnement Hadoop pour tous les composants Hadoop. | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer. |
hadoop-log4j | Modifiez les valeurs dans le fichier log4j.properties de Hadoop. | Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer. |
hadoop-ssl-server | Modifier la configuration du serveur ssl hadoop | Not available. |
hadoop-ssl-client | Modifier la configuration du client ssl hadoop | Not available. |
hdfs-encryption-zones | Configurez les zones de chiffrement HDFS. | This classification should not be reconfigured. |
hdfs-env | Modifiez les valeurs dans l'environnement HDFS. | Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC. |
hdfs-site | Modifiez les valeurs dans le fichier hdfs-site.xml de HDFS. | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs. |
httpfs-env | Modifiez les valeurs dans l'environnement HTTPFS. | Restarts Hadoop Httpfs service. |
httpfs-site | Modifiez les valeurs dans le fichier httpfs-site.xml de Hadoop. | Restarts Hadoop Httpfs service. |
hadoop-kms-acls | Modifiez les valeurs dans le fichier kms-acls.xml de Hadoop. | Not available. |
hadoop-kms-env | Modifiez les valeurs dans l'environnement KMS de Hadoop. | Restarts Hadoop-KMS service. |
hadoop-kms-java-home | Modification de la page d'accueil Java KMS d'Hadoop | Not available. |
hadoop-kms-log4j | Modifiez les valeurs dans le fichier kms-log4j.properties de Hadoop. | Not available. |
hadoop-kms-site | Modifiez les valeurs dans le fichier kms-site.xml de Hadoop. | Restarts Hadoop-KMS. |
hudi-env | Modifiez les valeurs dans l'environnement Hudi. | Not available. |
hudi-defaults | Modifiez les valeurs dans le fichier hudi-defaults.conf de Hudi. | Not available. |
iceberg-defaults | Modification des valeurs du fichier iceberg-defaults.conf d'Iceberg. | Not available. |
delta-defaults | Modification des valeurs dans le fichier delta-defaults.conf de Delta. | Not available. |
jupyter-notebook-conf | Modifiez les valeurs dans le fichier jupyter_notebook_config.py de Jupyter Notebook. | Not available. |
jupyter-s3-conf | Configuration de la persistance S3 de bloc-notes Jupyter. | Not available. |
jupyter-sparkmagic-conf | Modifiez les valeurs dans le fichier config.json de Sparkmagic. | Not available. |
livy-conf | Modifiez les valeurs dans le fichier livy.conf de Livy. | Restarts Livy Server. |
livy-env | Modifiez les valeurs dans l'environnement Livy. | Restarts Livy Server. |
livy-log4j2 | Modifiez les paramètres Livy log4j2.properties. | Restarts Livy Server. |
mapred-env | Modifiez les valeurs dans l'environnement de l' MapReduce application. | Restarts Hadoop MapReduce-HistoryServer. |
mapred-site | Modifiez les valeurs dans le fichier mapred-site.xml de l' MapReduce application. | Restarts Hadoop MapReduce-HistoryServer. |
spark | EMR-curated Paramètres Amazon pour Apache Spark. | This property modifies spark-defaults. See actions there. |
spark-defaults | Modifiez les valeurs dans le fichier spark-defaults.conf de Spark. | Restarts Spark history server and Spark thrift server. |
spark-env | Modifiez les valeurs dans l'environnement Spark. | Restarts Spark history server and Spark thrift server. |
spark-hive-site | Modifiez les valeurs dans le fichier hive-site.xml de Spark | Not available. |
spark-log4j2 | Modifiez les valeurs dans le fichier log4j2.properties de Spark. | Restarts Spark history server and Spark thrift server. |
spark-metrics | Modifiez les valeurs dans le fichier metrics.properties de Spark. | Restarts Spark history server and Spark thrift server. |
yarn-env | Modifiez les valeurs dans l'environnement YARN. | Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer. |
yarn-site | Modifiez les valeurs dans le fichier yarn-site.xml de YARN. | Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer. |
zookeeper-config | Modifiez les valeurs dans ZooKeeper le fichier zoo.cfg. | Restarts Zookeeper server. |
zookeeper-logback | Modifiez les valeurs dans ZooKeeper le fichier logback.xml. | Restarts Zookeeper server. |
cloudwatch-logs | Configurez l'intégration CloudWatch des journaux pour les nœuds du cluster EMR. | Not available. |
emr-metrics | Modifiez les paramètres métriques EMR pour ce nœud. | Restarts the CloudWatchAgent service. |
Journal des modifications d'EMR Spark 8.0.0
| Date | Événement | Description |
|---|---|---|
| 2026-05-21 | Publication de documents | Notes de mise à jour d'Amazon EMR Spark 8.0.0 (emr-spark-8.0.0) publiées pour la première fois |