ciclo di vita supportato da emr-spark-8.0.0 versioni dell'applicazione emr-spark-8.0.0 note di rilascio di emr-spark-8.0.0 Versioni Java predefinite di emr-spark-8.0.0 versioni dei componenti emr-spark-8.0.0 classificazioni di configurazione emr-spark-8.0.0 Registro modifiche EMR Spark 8.0.0

AWS runtime per Apache Spark (emr-spark-8.0.0)

ciclo di vita supportato da emr-spark-8.0.0

La tabella seguente descrive le date del ciclo di vita supportate per Amazon EMR Spark 8.0.0.

Fase di supporto	Data
Data di rilascio iniziale	21 maggio 2026
Supporto standard fino al	20 maggio 2027
Fine del ciclo di vita	20 maggio 2027

versioni dell'applicazione emr-spark-8.0.0

Questa versione include le seguenti applicazioni: AmazonCloudWatchAgent,,,, Delta, Hudie. Iceberg JupyterEnterpriseGateway Livy Spark

La seguente tabella elenca le versioni dell'applicazione disponibili in questo rilascio di Amazon EMR e quelle nei precedenti tre rilasci di Amazon EMR (quando applicabile).

Per la cronologia completa delle versioni dell'applicazione di ogni rilascio di Amazon EMR, fai riferimento ai seguenti argomenti:

Informazioni sulla versione dell'applicazione
	emr-spark-8.0.0
AWS SDK per Java	2.41.32
Python	3,11, 3,12, 3,13
Scala	2,13,16
AmazonCloudWatchAgent	1,300032,2-amzn-0
Delta	4.0.0-amzn-1-spark
Hudi	1.1.0-amzn-0
Iceberg	1.10.1-amzn-0
JupyterEnterpriseGateway	2.6.0
Livy	0.8.0 - incubazione
Spark	4.0.2-amzn-0

note di rilascio di emr-spark-8.0.0

Le seguenti note di rilascio includono informazioni per la versione 8.0.0 di Amazon EMR (emr-spark-8.0.0), con Apache Spark 4.0.2.

Cosa c'è di nuovo

Apache Spark 4.0.2 GA — Prima versione di Spark 4.x pronta per la produzione su Amazon EMR, basata sul ramo upstream branch-4.0 con patch Amazon per prestazioni, sicurezza e integrazione.
Disponibile su EC2, EKS e Serverless: questa versione è disponibile in tutte le modalità di implementazione di Amazon EMR.
Modalità SQL ANSI: gestione dei tipi più rigorosa abilitata per impostazione predefinita, che migliora la correttezza e la compatibilità SQL con il comportamento SQL standard.
Sintassi SQL PIPE: nuovo operatore |> per concatenare le operazioni SQL in una sintassi più leggibile in stile pipeline.
Tipo di dati VARIANT: supporto nativo per dati JSON semistrutturati che utilizzano il tipo VARIANT, che abilita modelli di tipo schema-on-read senza definizioni di schema esplicite.
SQL Scripting: istruzioni di flusso di controllo (IF/ELSE, WHILE, FOR) e variabili di sessione per la logica SQL procedurale all'interno di Spark SQL.
User-Defined Funzioni SQL: definisci le UDF direttamente in SQL senza richiedere codice. Scala/Python
Miglioramenti allo streaming: Arbitrary Stateful Processing API v2 con operatore di trasformazione e checkpoint migliorato del changelog RockSDBWithState .
Supporto per Apache Iceberg v3: supporto del tipo di dati VARIANT nelle tabelle Iceberg AWS , integrazione con S3 Tables.
Controllo degli Fine-grained accessi nativo e accesso completo alla tabella (FTA): supportati per le tabelle Iceberg, Delta Lake e Hive.
JDK 17 predefinito — Amazon Corretto 17 è la JVM predefinita; è disponibile anche JDK 21.
Scala 2.13 — Spark 4.x non supporta Scala 2.12; tutti i componenti sono stati creati con Scala 2.13.

Modifiche e miglioramenti rispetto a emr-spark-8.0-preview

Livy JupyterEnterpriseGateway e disponibili come applicazioni interattive per carichi di lavoro
Supporto persistente per Spark History Server

Problemi noti e limitazioni

L'endpoint sicuro Spark Connect con supporto FGAC nativo non è disponibile in questa versione.
Native Fine-grained Access Control (FGAC) non è disponibile per le tabelle Iceberg che utilizzano il tipo di dati VARIANT.
Glue Managed Compaction non è supportato sulle tabelle Iceberg che utilizzano il tipo di dati VARIANT.
AL2023 fornisce Python 3.9 come Python di sistema, ma non è supportato per i carichi di lavoro. PySpark
Il numero massimo di passaggi che è possibile aggiungere o annullare per richiesta è 100.

Migrazione da EMR 7.x (Spark 3.5.x)

Durante la migrazione da EMR 7.x (che utilizza Spark 3.5.x) a emr-spark-8.0.0 (Spark 4.0.2), prendi in considerazione l'utilizzo di Spark Upgrade Agent per facilitare la migrazione.

La modalità SQL ANSI è quella predefinita: coercizione di tipo più rigorosa; i cast impliciti che in precedenza avevano successo possono ora generare errori.
Scala 2.13 — Tutte le build di Spark 4.x utilizzano Scala 2.13. Ricompila qualsiasi JAR personalizzato creato con Scala 2.12.
JDK 17 predefinito — Spark 4.0.2 supporta solo JDK 17 (impostazione predefinita) e JDK 21.
Python 3.11 predefinito — Python 3.9 non è più l'impostazione predefinita per. PySpark Verifica la compatibilità delle tue dipendenze in Python.
AWS SDK — L' AWS SDK v1 per Java è stato rimosso. Aggiorna l'applicazione per utilizzare AWS SDK v2 per migliorare le prestazioni e la gestione delle risorse.
Accesso S3: EMRFS non è più disponibile. Usa il connettore S3A per scrivere dati persistenti su Amazon S3 per prestazioni e compatibilità migliori. Vedi Optimize Amazon EMR runtime per Apache Spark con EMR S3A. emr-s3-select è stato rimosso.
Sviluppo interattivo: Zeppelin e Hue non sono più inclusi JupyterHub. Per lo sviluppo interattivo di Spark, usa EMR Studio, Livy e. JupyterEnterpriseGateway
Linea di rilascio separata: l'etichetta di rilascio è emr-spark-8.0.0, non emr-8.0.0. Questa versione si concentra su Spark. Per Flink, HBase, Phoenix, Tez, Trino, Presto, usa EMR 7.x e attendi le future release multi-engine emr-8.0.0. Pig e Oozie non sono inclusi.
Endpoint VPC per la comunicazione con cluster EMR: a partire da Amazon EMR Spark 8.0.0, Amazon EMR su EC2 fornisce un endpoint VPC nel tuo VPC per la comunicazione tra il servizio Amazon EMR e il cluster quando avvii un cluster in sottoreti private. Il ruolo del servizio Amazon EMR deve includere ec2:ModifyVpcEndpoint le autorizzazioni ec2:CreateVpcEndpoint e, in alternativa, è necessario creare l'endpoint VPC manualmente prima di avviare un cluster. Il nome del servizio endpoint VPC è. aws.api.region.emr-service-cell01
- Questa modifica aggiorna i requisiti di rete per i cluster di sottoreti privati:
  - Il gruppo di sicurezza di accesso al servizio (ElasticMapReduce-ServiceAccess), collegato all'endpoint VPC, richiede HTTPS in ingresso (porta 443) dal blocco VPC CIDR. 8443/9443 Le regole di porta utilizzate nelle versioni 7.x e precedenti di Amazon EMR non sono più necessarie.
  - Il gruppo di sicurezza dell'istanza principale richiede HTTPS in uscita (porta 443) verso il gruppo di sicurezza di accesso al servizio.
  - Le regole della porta in entrata 8443 e della porta in uscita 9443 utilizzate nelle versioni 7.x e precedenti di Amazon EMR non sono più necessarie nei gruppi di sicurezza primari, core e task instance.
  - Se utilizzi una policy di endpoint VPC personalizzata per Amazon S3, devi consentire l'accesso ai bucket di dati delle istanze Amazon EMR (e). aws157-instance-data-0-prod-region aws157-instance-data-1-prod-region
- Per ulteriori informazioni, consulta i cluster EMR nelle sottoreti private, i gruppi di sicurezza EMR-managed Amazon e la policy minima di Amazon S3 per sottoreti private nella Amazon EMR Management Guide.

Versioni Java predefinite di emr-spark-8.0.0

Applicazione	Versione Java/Amazon Corretto (l'impostazione predefinita è in grassetto)
Spark	17, 21
Livy	17, 11, 8
Hadoop	17, 11, 8

versioni dei componenti emr-spark-8.0.0

I componenti che Amazon EMR installa con questo rilascio sono elencati di seguito. Alcuni sono installati come parte di pacchetti di applicazione dei big data. Altri sono specifici per Amazon EMR e installati per processi e caratteristiche del sistema. In genere iniziano con o. emr aws Big-data i pacchetti di applicazioni nella versione più recente di Amazon EMR sono in genere la versione più recente disponibile nella community. Mettiamo a disposizione i rilasci della community in Amazon EMR il più rapidamente possibile.

Alcuni componenti in Amazon EMR differiscono dalle versioni della community. Tali componenti hanno un'etichetta che indica la versione nel modulo CommunityVersion-amzn-EmrVersion. EmrVersion inizia da 0. Ad esempio, se un componente della community open source denominato myapp-component con versione 2.2 è stato modificato tre volte per essere incluso in rilasci diversi di Amazon EMR, tale versione di rilascio si presenta come 2.2-amzn-2.

Componente	Versione	Description
adot-java-agent	1.31.0	Un agente Java che raccoglie i parametri dai daemon delle applicazioni.
delta	4.0.0-amzn-1-spark	Delta Lake è un formato a tabella aperta per set di dati analitici di grandissime dimensioni
emr-amazon-cloudwatch-agent	1,300032,2-amzn-0	Un'applicazione che raccoglie parametri interni a livello di sistema e parametri delle applicazioni personalizzati dalle istanze Amazon EC2.
emr-ddb	6.0.0	Connettore di Amazon DynamoDB per le applicazioni dell'ecosistema Hadoop.
emr-goodies	3.22.0-scintilla	Librerie utili per l'ecosistema Hadoop.
emr-notebook-env	1.18.0	Ambiente Conda per EMR Notebooks che include il gateway aziendale Jupyter
emr-s3-dist-cp	2.4.0	Applicazione di copia distribuita ottimizzata per Amazon S3.
hadoop-client	3.4.2-amzn-1	Client di riga di comando Hadoop, ad esempio "hdfs", "hadoop" o "yarn".
hadoop-hdfs-datanode	3.4.2-amzn-1	Servizio a livello di nodo HDFS per lo storage di blocchi.
hadoop-hdfs-library	3.4.2-amzn-1	Libreria e client di riga di comando HDFS
hadoop-hdfs-namenode	3.4.2-amzn-1	Servizio HDFS per tenere traccia dei nomi di file e delle posizioni dei blocchi.
hadoop-hdfs-zkfc	3.4.2-amzn-1	Servizio ZKFC per il tracciamento dei namenode per la modalità HA.
hadoop-hdfs-journalnode	3.4.2-amzn-1	Servizio HDFS per gestire il giornale di registrazione del file system Hadoop su cluster HA.
hadoop-httpfs-server	3.4.2-amzn-1	Endpoint HTTP per le operazioni HDFS.
hadoop-kms-server	3.4.2-amzn-1	Server di gestione delle chiavi crittografiche basato sull'API di Hadoop. KeyProvider
hadoop-mapred	3.4.2-amzn-1	MapReduce librerie di motori di esecuzione per l'esecuzione di un'applicazione. MapReduce
hadoop-yarn-nodemanager	3.4.2-amzn-1	Servizio YARN per la gestione di container su un singolo nodo.
hadoop-yarn-resourcemanager	3.4.2-amzn-1	Servizio YARN per l'allocazione e la gestione delle risorse di cluster e delle applicazioni distribuite.
hadoop-yarn-timeline-server	3.4.2-amzn-1	Servizio per il recupero di informazioni correnti e della cronologia per applicazioni YARN.
hudi	1.1.0-amzn-0	Framework di elaborazione incrementale per alimentare la Data Pipeline a bassa latenza e alta efficienza.
hudi-spark	1.1.0-amzn-0	Libreria bundle per eseguire Spark con Hudi.
iceberg	1.10.1-amzn-0	Apache Iceberg è un formato a tabella aperta per enormi set di dati analitici
livy-server	0.8.0 - incubazione	Interfaccia REST per l'interazione con Apache Spark
nginx	1.12.1	nginx [motore x] è un server proxy inverso e HTTP
mariadb-server	5.5.68+	Server di database MariaDB.
nvidia-cuda	12,5,0	Driver Nvidia e kit di strumenti Cuda
r	43.2	The R Project for Statistical Computing
spark-client	4.0.2-amzn-0	Client a riga di comando Spark.
spark-history-server	4.0.2-amzn-0	Interfaccia utente Web per la visualizzazione di eventi registrati per la durata di un'applicazione Spark completata.
spark-on-yarn	4.0.2-amzn-0	In-memory motore di esecuzione per YARN.
spark-yarn-slave	4.0.2-amzn-0	Librerie Apache Spark necessarie per gli slave YARN.
spark-rapids	26.02.2-amzn-0	Plugin Nvidia Spark RAPIDS che accelera Apache Spark con GPU.
zookeeper-server	3.9.3-amzn-6	Servizio centralizzato per la manutenzione delle informazioni di configurazione, i servizi di denominazione, la sincronizzazione distribuita e l'erogazione di servizi di gruppo.
zookeeper-client	3.9.3-amzn-6	ZooKeeper client a riga di comando.

classificazioni di configurazione emr-spark-8.0.0

Le classificazioni di configurazione consentono di personalizzare le applicazioni. Esse corrispondono spesso a un file XML di configurazione per l'applicazione, ad esempio hive-site.xml. Per ulteriori informazioni, consulta Configurazione delle applicazioni.

Le azioni di riconfigurazione vengono eseguite quando si specifica una configurazione per gruppi di istanze in un cluster in esecuzione. Amazon EMR avvia solo le azioni di riconfigurazione per le classificazioni modificate. Per ulteriori informazioni, consulta Riconfigurazione di un gruppo di istanze in un cluster in esecuzione.

classificazioni emr-spark-8.0.0
Classificazioni	Description	Operazioni di riconfigurazione
capacity-scheduler	Modifica i valori nel file capacity-scheduler.xml di Hadoop.	Restarts the ResourceManager service.
container-executor	Modificare i valori nel file container-executor.cfg di Hadoop YARN.	Not available.
container-log4j	Modifica i valori nel file container-log4j.properties di Hadoop YARN.	Not available.
core-site	Modifica i valori nel file core-site.xml di Hadoop.	Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.
docker-conf	Modifica le impostazioni relative a docker.	Not available.
hadoop-env	Modifica i valori nell'ambiente Hadoop per tutti i componenti Hadoop.	Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.
hadoop-log4j	Modifica i valori nel file log4j.properties di Hadoop.	Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.
hadoop-ssl-server	Modifica la configurazione server ssl hadoop	Not available.
hadoop-ssl-client	Modifica la configurazione client ssl hadoop	Not available.
hdfs-encryption-zones	Configura le zone di crittografia HDFS.	This classification should not be reconfigured.
hdfs-env	Modifica i valori nell'ambiente HDFS.	Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC.
hdfs-site	Modifica i valori nel file hdfs-site.xml di HDFS.	Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs.
httpfs-env	Modifica i valori nell'ambiente HTTPFS.	Restarts Hadoop Httpfs service.
httpfs-site	Modifica i valori nel file httpfs-site.xml di Hadoop.	Restarts Hadoop Httpfs service.
hadoop-kms-acls	Modifica i valori nel file kms-acls.xml di Hadoop.	Not available.
hadoop-kms-env	Modifica i valori nell'ambiente Hadoop KMS.	Restarts Hadoop-KMS service.
hadoop-kms-java-home	Modifica la home Java KMS di Hadoop	Not available.
hadoop-kms-log4j	Modifica i valori nel file kms-log4j.properties di Hadoop.	Not available.
hadoop-kms-site	Modifica i valori nel file kms-site.xml di Hadoop.	Restarts Hadoop-KMS.
hudi-env	Modifica i valori nell'ambiente Hudi.	Not available.
hudi-defaults	Modifica i valori nel file hudi-defaults.conf di Hudi.	Not available.
iceberg-defaults	Modifica i valori nel file iceberg-defaults.conf di Iceberg.	Not available.
delta-defaults	Modifica i valori nel file delta-defaults.conf di Delta.	Not available.
jupyter-notebook-conf	Modifica i valori nel file jupyter_notebook_config.py di Jupyter Notebook.	Not available.
jupyter-s3-conf	Configura la persistenza di S3 del notebook Jupyter.	Not available.
jupyter-sparkmagic-conf	Modifica i valori nel file config.json di Sparkmagic.	Not available.
livy-conf	Modifica i valori nel file livy.conf di Livy.	Restarts Livy Server.
livy-env	Modifica i valori nell'ambiente Livy.	Restarts Livy Server.
livy-log4j2	Modifica le impostazioni di log4j2.properties di Livy.	Restarts Livy Server.
mapred-env	Modifica i valori nell'ambiente dell'applicazione. MapReduce	Restarts Hadoop MapReduce-HistoryServer.
mapred-site	Modificate i valori nel file mapred-site.xml dell' MapReduce applicazione.	Restarts Hadoop MapReduce-HistoryServer.
spark	EMR-curated Impostazioni Amazon per Apache Spark.	This property modifies spark-defaults. See actions there.
spark-defaults	Modifica i valori nel file spark-defaults.conf di Spark.	Restarts Spark history server and Spark thrift server.
spark-env	Modifica i valori nell'ambiente Spark.	Restarts Spark history server and Spark thrift server.
spark-hive-site	Modifica i valori nel file hive-site.xml di Spark	Not available.
spark-log4j2	Modifica i valori nel file log4j2.properties di Spark.	Restarts Spark history server and Spark thrift server.
spark-metrics	Modifica i valori nel file metrics.properties di Spark.	Restarts Spark history server and Spark thrift server.
yarn-env	Modifica i valori nell'ambiente YARN.	Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.
yarn-site	Modifica i valori nel file yarn-site.xml di YARN.	Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer.
zookeeper-config	Modifica i valori nel ZooKeeper file zoo.cfg.	Restarts Zookeeper server.
zookeeper-logback	Modifica i valori nel ZooKeeper file logback.xml.	Restarts Zookeeper server.
cloudwatch-logs	Configura l'integrazione CloudWatch dei log per i nodi del cluster EMR.	Not available.
emr-metrics	Modifica le impostazioni delle metriche emr per questo nodo.	Restarts the CloudWatchAgent service.

Registro modifiche EMR Spark 8.0.0

Registro delle modifiche per EMR Spark 8.0.0
Data	Event	Description
2026-05-21	Pubblicazione dei documenti	Note di rilascio di Amazon EMR Spark 8.0.0 (emr-spark-8.0.0) pubblicate per la prima volta

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Versioni delle applicazioni in AWS runtime per le versioni di Apache Spark

Versioni del rilascio di Amazon EMR 7.x