View a markdown version of this page

AWS runtime per Apache Spark (emr-spark-8.0.0) - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWS runtime per Apache Spark (emr-spark-8.0.0)

ciclo di vita supportato da emr-spark-8.0.0

La tabella seguente descrive le date del ciclo di vita supportate per Amazon EMR Spark 8.0.0.

Fase di supporto Data
Data di rilascio iniziale 21 maggio 2026
Supporto standard fino al 20 maggio 2027
Fine del ciclo di vita 20 maggio 2027

versioni dell'applicazione emr-spark-8.0.0

Questa versione include le seguenti applicazioni: AmazonCloudWatchAgent,,,, Delta, Hudie. IcebergJupyterEnterpriseGatewayLivySpark

La seguente tabella elenca le versioni dell'applicazione disponibili in questo rilascio di Amazon EMR e quelle nei precedenti tre rilasci di Amazon EMR (quando applicabile).

Per la cronologia completa delle versioni dell'applicazione di ogni rilascio di Amazon EMR, fai riferimento ai seguenti argomenti:

Informazioni sulla versione dell'applicazione
emr-spark-8.0.0
AWS SDK per Java 2.41.32
Python 3,11, 3,12, 3,13
Scala 2,13,16
AmazonCloudWatchAgent1,300032,2-amzn-0
Delta4.0.0-amzn-1-spark
Hudi1.1.0-amzn-0
Iceberg1.10.1-amzn-0
JupyterEnterpriseGateway2.6.0
Livy0.8.0 - incubazione
Spark4.0.2-amzn-0

note di rilascio di emr-spark-8.0.0

Le seguenti note di rilascio includono informazioni per la versione 8.0.0 di Amazon EMR (emr-spark-8.0.0), con Apache Spark 4.0.2.

Cosa c'è di nuovo

  • Apache Spark 4.0.2 GA — Prima versione di Spark 4.x pronta per la produzione su Amazon EMR, basata sul ramo upstream branch-4.0 con patch Amazon per prestazioni, sicurezza e integrazione.

  • Disponibile su EC2, EKS e Serverless: questa versione è disponibile in tutte le modalità di implementazione di Amazon EMR.

  • Modalità SQL ANSI: gestione dei tipi più rigorosa abilitata per impostazione predefinita, che migliora la correttezza e la compatibilità SQL con il comportamento SQL standard.

  • Sintassi SQL PIPE: nuovo operatore |> per concatenare le operazioni SQL in una sintassi più leggibile, in stile pipeline.

  • Tipo di dati VARIANT: supporto nativo per dati JSON semistrutturati che utilizzano il tipo VARIANT, che abilita modelli di tipo schema-on-read senza definizioni di schema esplicite.

  • SQL Scripting: istruzioni di flusso di controllo (IF/ELSE, WHILE, FOR) e variabili di sessione per la logica SQL procedurale all'interno di Spark SQL.

  • User-Defined Funzioni SQL: definisci le UDF direttamente in SQL senza richiedere codice. Scala/Python

  • Miglioramenti allo streaming: Arbitrary Stateful Processing API v2 con operatore di trasformazione e checkpoint migliorato del changelog RockSDBWithState .

  • Supporto per Apache Iceberg v3: supporto del tipo di dati VARIANT nelle tabelle Iceberg AWS , integrazione con S3 Tables.

  • Controllo degli Fine-grained accessi nativo e accesso completo alla tabella (FTA): supportati per le tabelle Iceberg, Delta Lake e Hive.

  • JDK 17 predefinito — Amazon Corretto 17 è la JVM predefinita; è disponibile anche JDK 21.

  • Scala 2.13 — Spark 4.x non supporta Scala 2.12; tutti i componenti sono stati creati con Scala 2.13.

Modifiche e miglioramenti rispetto a emr-spark-8.0-preview

  • Livy JupyterEnterpriseGateway e disponibili come applicazioni interattive per carichi di lavoro

  • Supporto persistente per Spark History Server

Problemi noti e limitazioni

  • L'endpoint sicuro Spark Connect con supporto FGAC nativo non è disponibile in questa versione.

  • AL2023 fornisce Python 3.9 come Python di sistema, ma non è supportato per i carichi di lavoro. PySpark

Migrazione da EMR 7.x (Spark 3.5.x)

Durante la migrazione da EMR 7.x (che utilizza Spark 3.5.x) a emr-spark-8.0.0 (Spark 4.0.2), prendi in considerazione l'utilizzo di Spark Upgrade Agent per facilitare la migrazione.

  • La modalità SQL ANSI è quella predefinita: coercizione di tipo più rigorosa; i cast impliciti che in precedenza avevano successo possono ora generare errori.

  • Scala 2.13 — Tutte le build di Spark 4.x utilizzano Scala 2.13. Ricompila qualsiasi JAR personalizzato creato con Scala 2.12.

  • JDK 17 predefinito — Spark 4.0.2 supporta solo JDK 17 (impostazione predefinita) e JDK 21.

  • Python 3.11 predefinito — Python 3.9 non è più l'impostazione predefinita per. PySpark Verifica la compatibilità delle tue dipendenze in Python.

  • AWS SDK — L' AWS SDK v1 per Java è stato rimosso. Aggiorna l'applicazione per utilizzare AWS SDK v2 per migliorare le prestazioni e la gestione delle risorse.

  • Accesso S3: EMRFS non è più disponibile. Usa il connettore S3A per scrivere dati persistenti su Amazon S3 per prestazioni e compatibilità migliori. Vedi Optimize Amazon EMR runtime per Apache Spark con EMR S3A. emr-s3-select è stato rimosso.

  • Sviluppo interattivo: Zeppelin e Hue non sono più inclusi JupyterHub. Per lo sviluppo interattivo di Spark, usa EMR Studio, Livy e. JupyterEnterpriseGateway

  • Linea di rilascio separata: l'etichetta di rilascio è emr-spark-8.0.0, non emr-8.0.0. Questa versione si concentra su Spark. Per Flink, HBase, Phoenix, Tez, Trino, Presto, usa EMR 7.x e attendi le future release multi-engine emr-8.0.0. Pig e Oozie non sono inclusi.

  • Endpoint VPC per la comunicazione con cluster EMR: a partire da Amazon EMR Spark 8.0.0, Amazon EMR su EC2 fornisce un endpoint VPC nel tuo VPC per la comunicazione tra il servizio Amazon EMR e il cluster quando avvii un cluster in sottoreti private. Il ruolo del servizio Amazon EMR deve includere ec2:ModifyVpcEndpoint le autorizzazioni ec2:CreateVpcEndpoint e, in alternativa, è necessario creare l'endpoint VPC manualmente prima di avviare un cluster. Il nome del servizio endpoint VPC è. aws.api.region.emr-service-cell01

    • Questa modifica aggiorna i requisiti di rete per i cluster di sottoreti privati:

      • Il gruppo di sicurezza di accesso al servizio (ElasticMapReduce-ServiceAccess), collegato all'endpoint VPC, richiede HTTPS in ingresso (porta 443) dal blocco VPC CIDR. 8443/9443 Le regole di porta utilizzate nelle versioni 7.x e precedenti di Amazon EMR non sono più necessarie.

      • Il gruppo di sicurezza dell'istanza principale richiede HTTPS in uscita (porta 443) verso il gruppo di sicurezza di accesso al servizio.

      • Le regole della porta in entrata 8443 e della porta in uscita 9443 utilizzate nelle versioni 7.x e precedenti di Amazon EMR non sono più necessarie nei gruppi di sicurezza primari, core e task instance.

      • Se utilizzi una policy di endpoint VPC personalizzata per Amazon S3, devi consentire l'accesso ai bucket di dati delle istanze Amazon EMR (e). aws157-instance-data-0-prod-region aws157-instance-data-1-prod-region

    • Per ulteriori informazioni, consulta i cluster EMR nelle sottoreti private, i gruppi di sicurezza EMR-managed Amazon e la policy minima di Amazon S3 per sottoreti private nella Amazon EMR Management Guide.

Versioni Java predefinite di emr-spark-8.0.0

ApplicazioneVersione Java/Amazon Corretto (l'impostazione predefinita è in grassetto)
Spark17, 21
Livy17, 11, 8
Hadoop17, 11, 8

versioni dei componenti emr-spark-8.0.0

I componenti che Amazon EMR installa con questo rilascio sono elencati di seguito. Alcuni sono installati come parte di pacchetti di applicazione dei big data. Altri sono specifici per Amazon EMR e installati per processi e caratteristiche del sistema. In genere iniziano con o. emr aws Big-data i pacchetti di applicazioni nella versione più recente di Amazon EMR sono in genere la versione più recente disponibile nella community. Mettiamo a disposizione i rilasci della community in Amazon EMR il più rapidamente possibile.

Alcuni componenti in Amazon EMR differiscono dalle versioni della community. Tali componenti hanno un'etichetta che indica la versione nel modulo CommunityVersion-amzn-EmrVersion. EmrVersion inizia da 0. Ad esempio, se un componente della community open source denominato myapp-component con versione 2.2 è stato modificato tre volte per essere incluso in rilasci diversi di Amazon EMR, tale versione di rilascio si presenta come 2.2-amzn-2.

Componente Versione Description
adot-java-agent1.31.0Un agente Java che raccoglie i parametri dai daemon delle applicazioni.
delta4.0.0-amzn-1-sparkDelta Lake è un formato a tabella aperta per set di dati analitici di grandissime dimensioni
emr-amazon-cloudwatch-agent1,300032,2-amzn-0Un'applicazione che raccoglie parametri interni a livello di sistema e parametri delle applicazioni personalizzati dalle istanze Amazon EC2.
emr-ddb6.0.0Connettore di Amazon DynamoDB per le applicazioni dell'ecosistema Hadoop.
emr-goodies3.22.0-scintillaLibrerie utili per l'ecosistema Hadoop.
emr-notebook-env1.18.0Ambiente Conda per EMR Notebooks che include il gateway aziendale Jupyter
emr-s3-dist-cp2.4.0Applicazione di copia distribuita ottimizzata per Amazon S3.
hadoop-client3.4.2-amzn-1Client di riga di comando Hadoop, ad esempio "hdfs", "hadoop" o "yarn".
hadoop-hdfs-datanode3.4.2-amzn-1Servizio a livello di nodo HDFS per lo storage di blocchi.
hadoop-hdfs-library3.4.2-amzn-1Libreria e client di riga di comando HDFS
hadoop-hdfs-namenode3.4.2-amzn-1Servizio HDFS per tenere traccia dei nomi di file e delle posizioni dei blocchi.
hadoop-hdfs-zkfc3.4.2-amzn-1Servizio ZKFC per il tracciamento dei namenode per la modalità HA.
hadoop-hdfs-journalnode3.4.2-amzn-1Servizio HDFS per gestire il giornale di registrazione del file system Hadoop su cluster HA.
hadoop-httpfs-server3.4.2-amzn-1Endpoint HTTP per le operazioni HDFS.
hadoop-kms-server3.4.2-amzn-1Server di gestione delle chiavi crittografiche basato sull'API di Hadoop. KeyProvider
hadoop-mapred3.4.2-amzn-1MapReduce librerie di motori di esecuzione per l'esecuzione di un'applicazione. MapReduce
hadoop-yarn-nodemanager3.4.2-amzn-1Servizio YARN per la gestione di container su un singolo nodo.
hadoop-yarn-resourcemanager3.4.2-amzn-1Servizio YARN per l'allocazione e la gestione delle risorse di cluster e delle applicazioni distribuite.
hadoop-yarn-timeline-server3.4.2-amzn-1Servizio per il recupero di informazioni correnti e della cronologia per applicazioni YARN.
hudi1.1.0-amzn-0Framework di elaborazione incrementale per alimentare la Data Pipeline a bassa latenza e alta efficienza.
hudi-spark1.1.0-amzn-0Libreria bundle per eseguire Spark con Hudi.
iceberg1.10.1-amzn-0Apache Iceberg è un formato a tabella aperta per enormi set di dati analitici
livy-server0.8.0 - incubazioneInterfaccia REST per l'interazione con Apache Spark
nginx1.12.1nginx [motore x] è un server proxy inverso e HTTP
mariadb-server5.5.68+Server di database MariaDB.
nvidia-cuda12,5,0Driver Nvidia e kit di strumenti Cuda
r43.2The R Project for Statistical Computing
spark-client4.0.2-amzn-0Client a riga di comando Spark.
spark-history-server4.0.2-amzn-0Interfaccia utente Web per la visualizzazione di eventi registrati per la durata di un'applicazione Spark completata.
spark-on-yarn4.0.2-amzn-0In-memory motore di esecuzione per YARN.
spark-yarn-slave4.0.2-amzn-0Librerie Apache Spark necessarie per gli slave YARN.
spark-rapids26.02.2-amzn-0Plugin Nvidia Spark RAPIDS che accelera Apache Spark con GPU.
zookeeper-server3.9.3-amzn-6Servizio centralizzato per la manutenzione delle informazioni di configurazione, i servizi di denominazione, la sincronizzazione distribuita e l'erogazione di servizi di gruppo.
zookeeper-client3.9.3-amzn-6ZooKeeper client a riga di comando.

classificazioni di configurazione emr-spark-8.0.0

Le classificazioni di configurazione consentono di personalizzare le applicazioni. Esse corrispondono spesso a un file XML di configurazione per l'applicazione, ad esempio hive-site.xml. Per ulteriori informazioni, consulta Configurazione delle applicazioni.

Le azioni di riconfigurazione vengono eseguite quando si specifica una configurazione per gruppi di istanze in un cluster in esecuzione. Amazon EMR avvia solo le azioni di riconfigurazione per le classificazioni modificate. Per ulteriori informazioni, consulta Riconfigurazione di un gruppo di istanze in un cluster in esecuzione.

classificazioni emr-spark-8.0.0
Classificazioni Description Operazioni di riconfigurazione

capacity-scheduler

Modifica i valori nel file capacity-scheduler.xml di Hadoop.

Restarts the ResourceManager service.

container-executor

Modificare i valori nel file container-executor.cfg di Hadoop YARN.

Not available.

container-log4j

Modifica i valori nel file container-log4j.properties di Hadoop YARN.

Not available.

core-site

Modifica i valori nel file core-site.xml di Hadoop.

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.

docker-conf

Modifica le impostazioni relative a docker.

Not available.

hadoop-env

Modifica i valori nell'ambiente Hadoop per tutti i componenti Hadoop.

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.

hadoop-log4j

Modifica i valori nel file log4j.properties di Hadoop.

Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.

hadoop-ssl-server

Modifica la configurazione server ssl hadoop

Not available.

hadoop-ssl-client

Modifica la configurazione client ssl hadoop

Not available.

hdfs-encryption-zones

Configura le zone di crittografia HDFS.

This classification should not be reconfigured.

hdfs-env

Modifica i valori nell'ambiente HDFS.

Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC.

hdfs-site

Modifica i valori nel file hdfs-site.xml di HDFS.

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs.

httpfs-env

Modifica i valori nell'ambiente HTTPFS.

Restarts Hadoop Httpfs service.

httpfs-site

Modifica i valori nel file httpfs-site.xml di Hadoop.

Restarts Hadoop Httpfs service.

hadoop-kms-acls

Modifica i valori nel file kms-acls.xml di Hadoop.

Not available.

hadoop-kms-env

Modifica i valori nell'ambiente Hadoop KMS.

Restarts Hadoop-KMS service.

hadoop-kms-java-home

Modifica la home Java KMS di Hadoop

Not available.

hadoop-kms-log4j

Modifica i valori nel file kms-log4j.properties di Hadoop.

Not available.

hadoop-kms-site

Modifica i valori nel file kms-site.xml di Hadoop.

Restarts Hadoop-KMS.

hudi-env

Modifica i valori nell'ambiente Hudi.

Not available.

hudi-defaults

Modifica i valori nel file hudi-defaults.conf di Hudi.

Not available.

iceberg-defaults

Modifica i valori nel file iceberg-defaults.conf di Iceberg.

Not available.

delta-defaults

Modifica i valori nel file delta-defaults.conf di Delta.

Not available.

jupyter-notebook-conf

Modifica i valori nel file jupyter_notebook_config.py di Jupyter Notebook.

Not available.

jupyter-s3-conf

Configura la persistenza di S3 del notebook Jupyter.

Not available.

jupyter-sparkmagic-conf

Modifica i valori nel file config.json di Sparkmagic.

Not available.

livy-conf

Modifica i valori nel file livy.conf di Livy.

Restarts Livy Server.

livy-env

Modifica i valori nell'ambiente Livy.

Restarts Livy Server.

livy-log4j2

Modifica le impostazioni di log4j2.properties di Livy.

Restarts Livy Server.

mapred-env

Modifica i valori nell'ambiente dell'applicazione. MapReduce

Restarts Hadoop MapReduce-HistoryServer.

mapred-site

Modificate i valori nel file mapred-site.xml dell' MapReduce applicazione.

Restarts Hadoop MapReduce-HistoryServer.

spark

EMR-curated Impostazioni Amazon per Apache Spark.

This property modifies spark-defaults. See actions there.

spark-defaults

Modifica i valori nel file spark-defaults.conf di Spark.

Restarts Spark history server and Spark thrift server.

spark-env

Modifica i valori nell'ambiente Spark.

Restarts Spark history server and Spark thrift server.

spark-hive-site

Modifica i valori nel file hive-site.xml di Spark

Not available.

spark-log4j2

Modifica i valori nel file log4j2.properties di Spark.

Restarts Spark history server and Spark thrift server.

spark-metrics

Modifica i valori nel file metrics.properties di Spark.

Restarts Spark history server and Spark thrift server.

yarn-env

Modifica i valori nell'ambiente YARN.

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.

yarn-site

Modifica i valori nel file yarn-site.xml di YARN.

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer.

zookeeper-config

Modifica i valori nel ZooKeeper file zoo.cfg.

Restarts Zookeeper server.

zookeeper-logback

Cambia i valori nel ZooKeeper file logback.xml.

Restarts Zookeeper server.

cloudwatch-logs

Configura l'integrazione CloudWatch dei log per i nodi del cluster EMR.

Not available.

emr-metrics

Modifica le impostazioni delle metriche emr per questo nodo.

Restarts the CloudWatchAgent service.

Registro modifiche EMR Spark 8.0.0

Registro delle modifiche per EMR Spark 8.0.0
DataEventDescription
2026-05-21Pubblicazione dei documentiNote di rilascio di Amazon EMR Spark 8.0.0 (emr-spark-8.0.0) pubblicate per la prima volta