Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWS runtime per Apache Spark (emr-spark-8.0.0)
ciclo di vita supportato da emr-spark-8.0.0
La tabella seguente descrive le date del ciclo di vita supportate per Amazon EMR Spark 8.0.0.
| Fase di supporto | Data |
|---|---|
| Data di rilascio iniziale | 21 maggio 2026 |
| Supporto standard fino al | 20 maggio 2027 |
| Fine del ciclo di vita | 20 maggio 2027 |
versioni dell'applicazione emr-spark-8.0.0
Questa versione include le seguenti applicazioni: AmazonCloudWatchAgent,,,, Delta
La seguente tabella elenca le versioni dell'applicazione disponibili in questo rilascio di Amazon EMR e quelle nei precedenti tre rilasci di Amazon EMR (quando applicabile).
Per la cronologia completa delle versioni dell'applicazione di ogni rilascio di Amazon EMR, fai riferimento ai seguenti argomenti:
| emr-spark-8.0.0 | |
|---|---|
| AWS SDK per Java | 2.41.32 |
| Python | 3,11, 3,12, 3,13 |
| Scala | 2,13,16 |
| AmazonCloudWatchAgent | 1,300032,2-amzn-0 |
| Delta | 4.0.0-amzn-1-spark |
| Hudi | 1.1.0-amzn-0 |
| Iceberg | 1.10.1-amzn-0 |
| JupyterEnterpriseGateway | 2.6.0 |
| Livy | 0.8.0 - incubazione |
| Spark | 4.0.2-amzn-0 |
note di rilascio di emr-spark-8.0.0
Le seguenti note di rilascio includono informazioni per la versione 8.0.0 di Amazon EMR (emr-spark-8.0.0), con Apache Spark 4.0.2.
Cosa c'è di nuovo
Apache Spark 4.0.2 GA — Prima versione di Spark 4.x pronta per la produzione su Amazon EMR, basata sul ramo upstream branch-4.0 con patch Amazon per prestazioni, sicurezza e integrazione.
Disponibile su EC2, EKS e Serverless: questa versione è disponibile in tutte le modalità di implementazione di Amazon EMR.
Modalità SQL ANSI: gestione dei tipi più rigorosa abilitata per impostazione predefinita, che migliora la correttezza e la compatibilità SQL con il comportamento SQL standard.
Sintassi SQL PIPE: nuovo operatore |> per concatenare le operazioni SQL in una sintassi più leggibile, in stile pipeline.
Tipo di dati VARIANT: supporto nativo per dati JSON semistrutturati che utilizzano il tipo VARIANT, che abilita modelli di tipo schema-on-read senza definizioni di schema esplicite.
SQL Scripting: istruzioni di flusso di controllo (IF/ELSE, WHILE, FOR) e variabili di sessione per la logica SQL procedurale all'interno di Spark SQL.
User-Defined Funzioni SQL: definisci le UDF direttamente in SQL senza richiedere codice. Scala/Python
Miglioramenti allo streaming: Arbitrary Stateful Processing API v2 con operatore di trasformazione e checkpoint migliorato del changelog RockSDBWithState .
Supporto per Apache Iceberg v3: supporto del tipo di dati VARIANT nelle tabelle Iceberg AWS , integrazione con S3 Tables.
Controllo degli Fine-grained accessi nativo e accesso completo alla tabella (FTA): supportati per le tabelle Iceberg, Delta Lake e Hive.
JDK 17 predefinito — Amazon Corretto 17 è la JVM predefinita; è disponibile anche JDK 21.
Scala 2.13 — Spark 4.x non supporta Scala 2.12; tutti i componenti sono stati creati con Scala 2.13.
Modifiche e miglioramenti rispetto a emr-spark-8.0-preview
Livy JupyterEnterpriseGateway e disponibili come applicazioni interattive per carichi di lavoro
Supporto persistente per Spark History Server
Problemi noti e limitazioni
L'endpoint sicuro Spark Connect con supporto FGAC nativo non è disponibile in questa versione.
AL2023 fornisce Python 3.9 come Python di sistema, ma non è supportato per i carichi di lavoro. PySpark
Migrazione da EMR 7.x (Spark 3.5.x)
La modalità SQL ANSI è quella predefinita: coercizione di tipo più rigorosa; i cast impliciti che in precedenza avevano successo possono ora generare errori.
Scala 2.13 — Tutte le build di Spark 4.x utilizzano Scala 2.13. Ricompila qualsiasi JAR personalizzato creato con Scala 2.12.
JDK 17 predefinito — Spark 4.0.2 supporta solo JDK 17 (impostazione predefinita) e JDK 21.
Python 3.11 predefinito — Python 3.9 non è più l'impostazione predefinita per. PySpark Verifica la compatibilità delle tue dipendenze in Python.
AWS SDK — L' AWS SDK v1 per Java è stato rimosso. Aggiorna l'applicazione per utilizzare AWS SDK v2 per migliorare le prestazioni e la gestione delle risorse.
Accesso S3: EMRFS non è più disponibile. Usa il connettore S3A per scrivere dati persistenti su Amazon S3 per prestazioni e compatibilità migliori. Vedi Optimize Amazon EMR runtime per Apache Spark con EMR S3A. emr-s3-select è stato rimosso
. Sviluppo interattivo: Zeppelin e Hue non sono più inclusi JupyterHub. Per lo sviluppo interattivo di Spark, usa EMR Studio, Livy e. JupyterEnterpriseGateway
Linea di rilascio separata: l'etichetta di rilascio è emr-spark-8.0.0, non emr-8.0.0. Questa versione si concentra su Spark. Per Flink, HBase, Phoenix, Tez, Trino, Presto, usa EMR 7.x e attendi le future release multi-engine emr-8.0.0. Pig e Oozie non sono inclusi.
Endpoint VPC per la comunicazione con cluster EMR: a partire da Amazon EMR Spark 8.0.0, Amazon EMR su EC2 fornisce un endpoint VPC nel tuo VPC per la comunicazione tra il servizio Amazon EMR e il cluster quando avvii un cluster in sottoreti private. Il ruolo del servizio Amazon EMR deve includere
ec2:ModifyVpcEndpointle autorizzazioniec2:CreateVpcEndpointe, in alternativa, è necessario creare l'endpoint VPC manualmente prima di avviare un cluster. Il nome del servizio endpoint VPC è.aws.api.region.emr-service-cell01Questa modifica aggiorna i requisiti di rete per i cluster di sottoreti privati:
Il gruppo di sicurezza di accesso al servizio (
ElasticMapReduce-ServiceAccess), collegato all'endpoint VPC, richiede HTTPS in ingresso (porta 443) dal blocco VPC CIDR. 8443/9443 Le regole di porta utilizzate nelle versioni 7.x e precedenti di Amazon EMR non sono più necessarie.Il gruppo di sicurezza dell'istanza principale richiede HTTPS in uscita (porta 443) verso il gruppo di sicurezza di accesso al servizio.
Le regole della porta in entrata 8443 e della porta in uscita 9443 utilizzate nelle versioni 7.x e precedenti di Amazon EMR non sono più necessarie nei gruppi di sicurezza primari, core e task instance.
Se utilizzi una policy di endpoint VPC personalizzata per Amazon S3, devi consentire l'accesso ai bucket di dati delle istanze Amazon EMR (e).
aws157-instance-data-0-prod-regionaws157-instance-data-1-prod-region
Per ulteriori informazioni, consulta i cluster EMR nelle sottoreti private, i gruppi di sicurezza EMR-managed Amazon e la policy minima di Amazon S3 per sottoreti private nella Amazon EMR Management Guide.
Versioni Java predefinite di emr-spark-8.0.0
| Applicazione | Versione Java/Amazon Corretto (l'impostazione predefinita è in grassetto) |
|---|---|
| Spark | 17, 21 |
| Livy | 17, 11, 8 |
| Hadoop | 17, 11, 8 |
versioni dei componenti emr-spark-8.0.0
I componenti che Amazon EMR installa con questo rilascio sono elencati di seguito. Alcuni sono installati come parte di pacchetti di applicazione dei big data. Altri sono specifici per Amazon EMR e installati per processi e caratteristiche del sistema. In genere iniziano con o. emr aws Big-data i pacchetti di applicazioni nella versione più recente di Amazon EMR sono in genere la versione più recente disponibile nella community. Mettiamo a disposizione i rilasci della community in Amazon EMR il più rapidamente possibile.
Alcuni componenti in Amazon EMR differiscono dalle versioni della community. Tali componenti hanno un'etichetta che indica la versione nel modulo . CommunityVersion-amzn-EmrVersion inizia da 0. Ad esempio, se un componente della community open source denominato EmrVersionmyapp-component con versione 2.2 è stato modificato tre volte per essere incluso in rilasci diversi di Amazon EMR, tale versione di rilascio si presenta come 2.2-amzn-2.
| Componente | Versione | Description |
|---|---|---|
| adot-java-agent | 1.31.0 | Un agente Java che raccoglie i parametri dai daemon delle applicazioni. |
| delta | 4.0.0-amzn-1-spark | Delta Lake è un formato a tabella aperta per set di dati analitici di grandissime dimensioni |
| emr-amazon-cloudwatch-agent | 1,300032,2-amzn-0 | Un'applicazione che raccoglie parametri interni a livello di sistema e parametri delle applicazioni personalizzati dalle istanze Amazon EC2. |
| emr-ddb | 6.0.0 | Connettore di Amazon DynamoDB per le applicazioni dell'ecosistema Hadoop. |
| emr-goodies | 3.22.0-scintilla | Librerie utili per l'ecosistema Hadoop. |
| emr-notebook-env | 1.18.0 | Ambiente Conda per EMR Notebooks che include il gateway aziendale Jupyter |
| emr-s3-dist-cp | 2.4.0 | Applicazione di copia distribuita ottimizzata per Amazon S3. |
| hadoop-client | 3.4.2-amzn-1 | Client di riga di comando Hadoop, ad esempio "hdfs", "hadoop" o "yarn". |
| hadoop-hdfs-datanode | 3.4.2-amzn-1 | Servizio a livello di nodo HDFS per lo storage di blocchi. |
| hadoop-hdfs-library | 3.4.2-amzn-1 | Libreria e client di riga di comando HDFS |
| hadoop-hdfs-namenode | 3.4.2-amzn-1 | Servizio HDFS per tenere traccia dei nomi di file e delle posizioni dei blocchi. |
| hadoop-hdfs-zkfc | 3.4.2-amzn-1 | Servizio ZKFC per il tracciamento dei namenode per la modalità HA. |
| hadoop-hdfs-journalnode | 3.4.2-amzn-1 | Servizio HDFS per gestire il giornale di registrazione del file system Hadoop su cluster HA. |
| hadoop-httpfs-server | 3.4.2-amzn-1 | Endpoint HTTP per le operazioni HDFS. |
| hadoop-kms-server | 3.4.2-amzn-1 | Server di gestione delle chiavi crittografiche basato sull'API di Hadoop. KeyProvider |
| hadoop-mapred | 3.4.2-amzn-1 | MapReduce librerie di motori di esecuzione per l'esecuzione di un'applicazione. MapReduce |
| hadoop-yarn-nodemanager | 3.4.2-amzn-1 | Servizio YARN per la gestione di container su un singolo nodo. |
| hadoop-yarn-resourcemanager | 3.4.2-amzn-1 | Servizio YARN per l'allocazione e la gestione delle risorse di cluster e delle applicazioni distribuite. |
| hadoop-yarn-timeline-server | 3.4.2-amzn-1 | Servizio per il recupero di informazioni correnti e della cronologia per applicazioni YARN. |
| hudi | 1.1.0-amzn-0 | Framework di elaborazione incrementale per alimentare la Data Pipeline a bassa latenza e alta efficienza. |
| hudi-spark | 1.1.0-amzn-0 | Libreria bundle per eseguire Spark con Hudi. |
| iceberg | 1.10.1-amzn-0 | Apache Iceberg è un formato a tabella aperta per enormi set di dati analitici |
| livy-server | 0.8.0 - incubazione | Interfaccia REST per l'interazione con Apache Spark |
| nginx | 1.12.1 | nginx [motore x] è un server proxy inverso e HTTP |
| mariadb-server | 5.5.68+ | Server di database MariaDB. |
| nvidia-cuda | 12,5,0 | Driver Nvidia e kit di strumenti Cuda |
| r | 43.2 | The R Project for Statistical Computing |
| spark-client | 4.0.2-amzn-0 | Client a riga di comando Spark. |
| spark-history-server | 4.0.2-amzn-0 | Interfaccia utente Web per la visualizzazione di eventi registrati per la durata di un'applicazione Spark completata. |
| spark-on-yarn | 4.0.2-amzn-0 | In-memory motore di esecuzione per YARN. |
| spark-yarn-slave | 4.0.2-amzn-0 | Librerie Apache Spark necessarie per gli slave YARN. |
| spark-rapids | 26.02.2-amzn-0 | Plugin Nvidia Spark RAPIDS che accelera Apache Spark con GPU. |
| zookeeper-server | 3.9.3-amzn-6 | Servizio centralizzato per la manutenzione delle informazioni di configurazione, i servizi di denominazione, la sincronizzazione distribuita e l'erogazione di servizi di gruppo. |
| zookeeper-client | 3.9.3-amzn-6 | ZooKeeper client a riga di comando. |
classificazioni di configurazione emr-spark-8.0.0
Le classificazioni di configurazione consentono di personalizzare le applicazioni. Esse corrispondono spesso a un file XML di configurazione per l'applicazione, ad esempio hive-site.xml. Per ulteriori informazioni, consulta Configurazione delle applicazioni.
Le azioni di riconfigurazione vengono eseguite quando si specifica una configurazione per gruppi di istanze in un cluster in esecuzione. Amazon EMR avvia solo le azioni di riconfigurazione per le classificazioni modificate. Per ulteriori informazioni, consulta Riconfigurazione di un gruppo di istanze in un cluster in esecuzione.
| Classificazioni | Description | Operazioni di riconfigurazione |
|---|---|---|
capacity-scheduler | Modifica i valori nel file capacity-scheduler.xml di Hadoop. | Restarts the ResourceManager service. |
container-executor | Modificare i valori nel file container-executor.cfg di Hadoop YARN. | Not available. |
container-log4j | Modifica i valori nel file container-log4j.properties di Hadoop YARN. | Not available. |
core-site | Modifica i valori nel file core-site.xml di Hadoop. | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer. |
docker-conf | Modifica le impostazioni relative a docker. | Not available. |
hadoop-env | Modifica i valori nell'ambiente Hadoop per tutti i componenti Hadoop. | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer. |
hadoop-log4j | Modifica i valori nel file log4j.properties di Hadoop. | Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer. |
hadoop-ssl-server | Modifica la configurazione server ssl hadoop | Not available. |
hadoop-ssl-client | Modifica la configurazione client ssl hadoop | Not available. |
hdfs-encryption-zones | Configura le zone di crittografia HDFS. | This classification should not be reconfigured. |
hdfs-env | Modifica i valori nell'ambiente HDFS. | Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC. |
hdfs-site | Modifica i valori nel file hdfs-site.xml di HDFS. | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs. |
httpfs-env | Modifica i valori nell'ambiente HTTPFS. | Restarts Hadoop Httpfs service. |
httpfs-site | Modifica i valori nel file httpfs-site.xml di Hadoop. | Restarts Hadoop Httpfs service. |
hadoop-kms-acls | Modifica i valori nel file kms-acls.xml di Hadoop. | Not available. |
hadoop-kms-env | Modifica i valori nell'ambiente Hadoop KMS. | Restarts Hadoop-KMS service. |
hadoop-kms-java-home | Modifica la home Java KMS di Hadoop | Not available. |
hadoop-kms-log4j | Modifica i valori nel file kms-log4j.properties di Hadoop. | Not available. |
hadoop-kms-site | Modifica i valori nel file kms-site.xml di Hadoop. | Restarts Hadoop-KMS. |
hudi-env | Modifica i valori nell'ambiente Hudi. | Not available. |
hudi-defaults | Modifica i valori nel file hudi-defaults.conf di Hudi. | Not available. |
iceberg-defaults | Modifica i valori nel file iceberg-defaults.conf di Iceberg. | Not available. |
delta-defaults | Modifica i valori nel file delta-defaults.conf di Delta. | Not available. |
jupyter-notebook-conf | Modifica i valori nel file jupyter_notebook_config.py di Jupyter Notebook. | Not available. |
jupyter-s3-conf | Configura la persistenza di S3 del notebook Jupyter. | Not available. |
jupyter-sparkmagic-conf | Modifica i valori nel file config.json di Sparkmagic. | Not available. |
livy-conf | Modifica i valori nel file livy.conf di Livy. | Restarts Livy Server. |
livy-env | Modifica i valori nell'ambiente Livy. | Restarts Livy Server. |
livy-log4j2 | Modifica le impostazioni di log4j2.properties di Livy. | Restarts Livy Server. |
mapred-env | Modifica i valori nell'ambiente dell'applicazione. MapReduce | Restarts Hadoop MapReduce-HistoryServer. |
mapred-site | Modificate i valori nel file mapred-site.xml dell' MapReduce applicazione. | Restarts Hadoop MapReduce-HistoryServer. |
spark | EMR-curated Impostazioni Amazon per Apache Spark. | This property modifies spark-defaults. See actions there. |
spark-defaults | Modifica i valori nel file spark-defaults.conf di Spark. | Restarts Spark history server and Spark thrift server. |
spark-env | Modifica i valori nell'ambiente Spark. | Restarts Spark history server and Spark thrift server. |
spark-hive-site | Modifica i valori nel file hive-site.xml di Spark | Not available. |
spark-log4j2 | Modifica i valori nel file log4j2.properties di Spark. | Restarts Spark history server and Spark thrift server. |
spark-metrics | Modifica i valori nel file metrics.properties di Spark. | Restarts Spark history server and Spark thrift server. |
yarn-env | Modifica i valori nell'ambiente YARN. | Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer. |
yarn-site | Modifica i valori nel file yarn-site.xml di YARN. | Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer. |
zookeeper-config | Modifica i valori nel ZooKeeper file zoo.cfg. | Restarts Zookeeper server. |
zookeeper-logback | Cambia i valori nel ZooKeeper file logback.xml. | Restarts Zookeeper server. |
cloudwatch-logs | Configura l'integrazione CloudWatch dei log per i nodi del cluster EMR. | Not available. |
emr-metrics | Modifica le impostazioni delle metriche emr per questo nodo. | Restarts the CloudWatchAgent service. |
Registro modifiche EMR Spark 8.0.0
| Data | Event | Description |
|---|---|---|
| 2026-05-21 | Pubblicazione dei documenti | Note di rilascio di Amazon EMR Spark 8.0.0 (emr-spark-8.0.0) pubblicate per la prima volta |