Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
AWS Laufzeit für Apache Spark (emr-spark-8.0.0)
Von emr-spark-8.0.0 unterstützter Lebenszyklus
In der folgenden Tabelle werden die unterstützten Lebenszyklusdaten für Amazon EMR Spark 8.0.0 beschrieben.
| Unterstützungsphase | Date |
|---|---|
| Erstes Veröffentlichungsdatum | 21. Mai 2026 |
| Standard-Support bis | 20. Mai 2027 |
| Ende der Lebensdauer | 20. Mai 2027 |
emr-spark-8.0.0 Anwendungsversionen
Diese Version umfasst die folgenden Anwendungen: AmazonCloudWatchAgent,,,, DeltaHudi
In der folgenden Tabelle sind die in dieser Version von Amazon EMR verfügbaren Anwendungsversionen und die Anwendungsversionen der vorherigen drei Amazon-EMR-Versionen (sofern zutreffend) aufgeführt.
Einen umfassenden Verlauf der Anwendungsversionen für jede Version von Amazon EMR finden Sie in den folgenden Themen:
| emr-spark-8.0.0 | |
|---|---|
| AWS SDK for Java | 2.41.32 |
| Python | 3,11, 3,12, 3,13 |
| Scala | 2.13,16 |
| AmazonCloudWatchAgent | 1,300032,2-amzn-0 |
| Delta | 4.0.0-amzn-1-spark |
| Hudi | 1.1.0-amzn-0 |
| Iceberg | 1.10.1-amzn-0 |
| JupyterEnterpriseGateway | 2.6.0 |
| Livy | 0.8.0-inkubieren |
| Spark | 4.0.2-amzn-0 |
Versionshinweise zu emr-spark-8.0.0
Die folgenden Versionshinweise enthalten Informationen zur Amazon EMR-Version 8.0.0 (emr-spark-8.0.0) mit Apache Spark 4.0.2.
Was ist neu
Apache Spark 4.0.2 GA — Erste produktionsreife Version von Spark 4.x auf Amazon EMR, basierend auf dem Branch-4.0-Upstream-Zweig mit Amazon-Patches für Leistung, Sicherheit und Integration.
Verfügbar für EC2, EKS und Serverless — Diese Version ist in allen Amazon EMR-Bereitstellungsmodi verfügbar.
ANSI SQL-Modus — Striktere Typbehandlung ist standardmäßig aktiviert, wodurch die SQL-Korrektheit und Kompatibilität mit dem Standard-SQL-Verhalten verbessert wird.
SQL PIPE-Syntax — Neuer |>-Operator zur Verkettung von SQL-Operationen in einer besser lesbaren Syntax im Pipeline-Stil.
VARIANT-Datentyp — Systemeigene Unterstützung für halbstrukturierte JSON-Daten, die den VARIANT-Typ verwenden, wodurch Schema-on-Read-Muster ohne explizite Schemadefinitionen ermöglicht werden.
SQL Scripting — Steuern Sie Flow-Anweisungen (IF/ELSE, WHILE, FOR) und Sitzungsvariablen für die prozedurale SQL-Logik in Spark SQL.
User-Defined SQL-Funktionen — Definieren Sie UDFs direkt in SQL, ohne dass Code erforderlich ist Scala/Python .
Streaming-Verbesserungen — Arbitrary Stateful Processing API v2 mit WithState Transformationsoperator und verbessertem RocksDB-Changelog-Checkpointing.
Apache Iceberg v3-Unterstützung — Support des VARIANT-Datentyps in Iceberg-Tabellen, Integration von AWS S3-Tabellen.
Native Fine-grained Zugriffskontrolle und vollständiger Tabellenzugriff (FTA) — Unterstützt für Iceberg-, Delta Lake- und Hive-Tabellen.
JDK 17 Standard — Amazon Corretto 17 ist die Standard-JVM; JDK 21 ist ebenfalls verfügbar.
Scala 2.13 — Spark 4.x stellt die Unterstützung für Scala 2.12 ein; alle Komponenten wurden gegen Scala 2.13 entwickelt.
Änderungen und Verbesserungen seit emr-spark-8.0-preview
Livy und als interaktive Workload-Anwendungen verfügbar JupyterEnterpriseGateway
Dauerhafte Unterstützung für Spark History Server
Bekannte Probleme und Einschränkungen
Der sichere Spark Connect-Endpunkt mit nativer FGAC-Unterstützung ist in dieser Version nicht verfügbar.
AL2023 liefert Python 3.9 als System-Python aus, wird aber für PySpark Workloads nicht unterstützt.
Migration von EMR 7.x (Spark 3.5.x)
Der ANSI-SQL-Modus ist Standard — Strengere Typenzwänge; implizite Umwandlungen, die zuvor erfolgreich waren, können nun zu Fehlern führen.
Scala 2.13 — Alle Spark 4.x-Builds verwenden Scala 2.13. Kompilieren Sie alle benutzerdefinierten JAR-Dateien, die für Scala 2.12 erstellt wurden, neu.
JDK 17-Standard — Spark 4.0.2 unterstützt nur JDK 17 (Standard) und JDK 21.
Python 3.11-Standard — Python 3.9 ist nicht mehr der Standard für PySpark. Überprüfen Sie die Kompatibilität Ihrer Python-Abhängigkeiten.
AWS SDK — AWS SDK v1 für Java wurde entfernt. Aktualisieren Sie Ihre Anwendung so, dass sie AWS SDK v2 für ein verbessertes Leistungs- und Ressourcenmanagement verwendet.
S3-Zugriff — EMRFS ist nicht mehr verfügbar. Verwenden Sie den S3A-Connector, um persistente Daten in Amazon S3 zu schreiben, um eine bessere Leistung und Kompatibilität zu erzielen. Siehe Optimieren der Amazon EMR-Laufzeit für Apache Spark mit EMR S3A. emr-s3-select
wurde entfernt. Interaktive Entwicklung — JupyterHub, Zeppelin und Hue sind nicht mehr enthalten. Verwenden Sie für die interaktive Spark-Entwicklung EMR Studio, Livy und. JupyterEnterpriseGateway
Separater Release-Train — Das Release-Label lautet emr-spark-8.0.0, nicht emr-8.0.0. Diese Version konzentriert sich auf Spark. Verwenden Sie für Flink, HBase, Phoenix, Tez, Trino, Presto EMR 7.x und warten Sie auf die future Multi-Engine-Version emr-8.0.0. Pig und Oozie sind nicht enthalten.
VPC-Endpunkt für EMR-Cluster-Kommunikation — Ab Amazon EMR Spark 8.0.0 stellt Amazon EMR on EC2 einen VPC-Endpunkt in Ihrer VPC für die Kommunikation zwischen dem Amazon EMR-Service und Ihrem Cluster bereit, wenn Sie einen Cluster in privaten Subnetzen starten. Ihre Amazon EMR-Servicerolle muss
ec2:ModifyVpcEndpointBerechtigungen enthaltenec2:CreateVpcEndpoint, oder Sie müssen den VPC-Endpunkt manuell erstellen, bevor Sie einen Cluster starten. Der VPC-Endpunktdienstname lautetaws.api..region.emr-service-cell01Diese Änderung aktualisiert die Netzwerkanforderungen für private Subnetzcluster:
Die Sicherheitsgruppe für den Dienstzugriff (
ElasticMapReduce-ServiceAccess), die an den VPC-Endpunkt angehängt ist, benötigt eingehendes HTTPS (Port 443) aus dem VPC-CIDR-Block. Die in Amazon EMR-Versionen 7.x und früheren Versionen verwendeten 8443/9443 Portregeln sind nicht mehr erforderlich.Die primäre Instance-Sicherheitsgruppe benötigt ausgehendes HTTPS (Port 443) zur Sicherheitsgruppe für den Servicezugriff.
Die Regeln für eingehenden Port 8443 und ausgehenden Port 9443, die in Amazon EMR-Versionen 7.x und früheren Versionen verwendet wurden, sind für primäre Sicherheitsgruppen, Core- und Task-Instance-Sicherheitsgruppen nicht mehr erforderlich.
Wenn Sie eine benutzerdefinierte VPC-Endpunktrichtlinie für Amazon S3 verwenden, müssen Sie den Zugriff auf die Amazon EMR-Instance-Daten-Buckets (
aws157-instance-data-0-prod-und) zulassen.regionaws157-instance-data-1-prod-region
Weitere Informationen finden Sie unter EMR-Cluster in privaten Subnetzen, EMR-managed Amazon-Sicherheitsgruppen und Amazon S3-Mindestrichtlinie für private Subnetze im Amazon EMR Management Guide.
Standard-Java-Versionen von emr-spark-8.0.0
| Anwendung | Java-/Amazon-Corretto-Version (Standard ist fett gedruckt) |
|---|---|
| Spark | 17, 21 |
| Livy | 17, 11, 8 |
| Hadoop | 17, 11, 8 |
Komponentenversionen von emr-spark-8.0.0
Die Komponenten, die Amazon EMR mit dieser Version installiert, sind nachstehend aufgeführt. Einige werden als Teil von Big-Data-Anwendungspaketen installiert. Andere sind nur für Amazon EMR verfügbar und werden für Systemprozesse und -Features installiert. Diese beginnen normalerweise mit oder. emr aws Big-data Anwendungspakete in der neuesten Amazon EMR-Version sind normalerweise die neueste Version, die in der Community zu finden ist. Wir stellen Community-Versionen in Amazon EMR so schnell wie möglich zur Verfügung.
Einige Komponenten in Amazon EMR unterscheiden sich von Community-Versionen. Diese Komponenten verfügen über eine Versionsbezeichnung in der Form . Der CommunityVersion-amzn-EmrVersion beginnt bei 0. Wenn zum Beispiel eine Open-Source-Community-Komponente mit dem Namen EmrVersionmyapp-component der Version 2.2 dreimal für die Aufnahme in verschiedene Amazon-EMR-Versionen geändert wurde, wird ihre Version als 2.2-amzn-2 aufgeführt.
| Komponente | Version | Description |
|---|---|---|
| adot-java-agent | 1.31.0 | Ein Java-Agent, der Metriken von Anwendungs-Daemons sammelt. |
| delta | 4.0.0-amzn-1-Spark | Delta Lake ist ein offenes Tabellenformat für riesige analytische Datensätze |
| emr-amazon-cloudwatch-agent | 1,300032,2-amzn-0 | Eine Anwendung, die interne Metriken auf Systemebene und benutzerdefinierte Anwendungsmetriken von Amazon-EC2-Instances erfasst. |
| emr-ddb | 6.0.0 | Amazon DynamoDB-Connector für Anwendungen aus dem Hadoop-Ökosystem. |
| emr-goodies | 3.22.0-Funke | Praktische Bibliotheken für das Hadoop-Ökosystem. |
| emr-notebook-env | 1.18.0 | Conda Env für EMR-Notebooks, das Jupyter Enterprise Gateway enthält |
| emr-s3-dist-cp | 2,44,0 | Verteilte Kopieranwendung, die für Amazon S3 optimiert ist. |
| hadoop-client | 3.4.2-amzn-1 | Hadoop-Befehlszeilen-Clients wie z. B. "hdfs", "Hadoop" oder "Garn". |
| hadoop-hdfs-datanode | 3.4.2-amzn-1 | HDFS-Service auf Knotenebene zum Speichern von Blöcken. |
| hadoop-hdfs-library | 3.4.2-amzn-1 | HDFS-Client und -Bibliothek für die Befehlszeile |
| hadoop-hdfs-namenode | 3.4.2-amzn-1 | HDFS-Service für die Nachverfolgung von Dateinamen und Block-Speicherorten. |
| hadoop-hdfs-zkfc | 3.4.2-amzn-1 | ZKFC-Dienst zum Verfolgen von Namenodes für den HA-Modus. |
| hadoop-hdfs-journalnode | 3.4.2-amzn-1 | HDFS-Service zum Verwalten des Hadoop-Dateisystemjournals auf HA-Clustern. |
| hadoop-httpfs-server | 3.4.2-amzn-1 | HTTP-Endpunkt für HDFS-Operationen. |
| hadoop-kms-server | 3.4.2-amzn-1 | Kryptografischer Schlüsselverwaltungsserver, der auf der Hadoop-API basiert. KeyProvider |
| hadoop-mapred | 3.4.2-amzn-1 | MapReduce Execution Engine-Bibliotheken zum Ausführen einer Anwendung. MapReduce |
| hadoop-yarn-nodemanager | 3.4.2-amzn-1 | YARN-Service für die Verwaltung von Containern auf einem einzelnen Knoten. |
| hadoop-yarn-resourcemanager | 3.4.2-amzn-1 | YARN-Service für Zuweisung und Verwaltung von Cluster-Ressourcen und verteilten Anwendungen. |
| hadoop-yarn-timeline-server | 3.4.2-amzn-1 | Service für das Abrufen von aktuellen und historischen Informationen für YARN-Anwendungen. |
| hudi | 1.1.0-amzn-0 | Inkrementelles Verarbeitungs-Framework zur Versorgung der Datenpipline mit geringer Latenz und hoher Effizienz. |
| hudi-spark | 1.1.0-amzn-0 | Bündel-Bibliothek zum Ausführen von Spark mit Hudi. |
| iceberg | 1.10.1-amzn-0 | Apache Iceberg ist ein offenes Tabellenformat für sehr große analytische Datensätze |
| livy-server | 0.8.0-inkubieren | REST-Schnittstelle für die Interaktion mit Apache Spark |
| nginx | 1.12.1 | nginx [engine x] ist ein HTTP- und Reverse-Proxy-Server. |
| mariadb-server | 5.5.68+ | MariaDB-Datenbankserver. |
| nvidia-cuda | 12,5,0 | Nvidia-Treiber und Cuda-Toolkit |
| r | 4.3.2 | The R Project for Statistical Computing (Software zur statistischen Datenverarbeitung) |
| spark-client | 4.0.2-amzn-0 | Spark-Befehlszeilen-Clients. |
| spark-history-server | 4.0.2-amzn-0 | Web-Benutzeroberfläche zum Anzeigen von protokollierten Ereignissen für die gesamte Lebensdauer einer abgeschlossenen Spark-Anwendung. |
| spark-on-yarn | 4.0.2-amzn-0 | In-memory Ausführungs-Engine für YARN. |
| spark-yarn-slave | 4.0.2-amzn-0 | Apache Spark-Bibliotheken, die von YARN-Slaves benötigt werden. |
| spark-rapids | 26.02.2-amzn-0 | Nvidia-Spark-RAPIDS-Plugin, das Apache Spark mit GPUs beschleunigt. |
| zookeeper-server | 3.9.3-amzn-6 | Zentraler Service für die Verwaltung von Konfigurationsinformationen, die Benennung, die Bereitstellung verteilter Synchronisierung und die Bereitstellung von Gruppenservices. |
| zookeeper-client | 3.9.3-amzn-6 | ZooKeeper Befehlszeilen-Client. |
Klassifizierungen der Konfiguration von emr-spark-8.0.0
Mithilfe von Konfigurationsklassifizierungen können Sie Anwendungen anpassen. Diese entsprechen häufig einer XML-Konfigurationsdatei für die Anwendung, z. B. hive-site.xml Weitere Informationen finden Sie unter Anwendungen konfigurieren.
Aktionen zur Neukonfiguration treten auf, wenn Sie eine Konfiguration für Instance-Gruppen in einem laufenden Cluster angeben. Amazon EMR initiiert nur Rekonfigurationsaktionen für die Klassifizierungen, die Sie ändern. Weitere Informationen finden Sie unter Eine Instance-Gruppe in einem laufenden Cluster neu konfigurieren.
| Klassifizierungen | Description | Aktionen zur Neukonfiguration |
|---|---|---|
capacity-scheduler | Ändert die Werte in der capacity-scheduler.xml-Datei in Hadoop. | Restarts the ResourceManager service. |
container-executor | Ändern Sie die Werte in der Datei „container-executor.cfg“ Datei von Hadoop YARN. | Not available. |
container-log4j | Ändert die Werte in der container-log4j.properties-Datei in Hadoop YARN. | Not available. |
core-site | Ändert die Werte in der core-site.xml-Datei in Hadoop. | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer. |
docker-conf | Ändern Sie die Docker-bezogenen Einstellungen. | Not available. |
hadoop-env | Ändert die Werte in der Hadoop-Umgebung für alle Hadoop-Komponenten. | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer. |
hadoop-log4j | Ändert die Werte in der log4j.properties-Datei in Hadoop. | Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer. |
hadoop-ssl-server | Ändert die SSL-Server-Konfiguration in Hadoop. | Not available. |
hadoop-ssl-client | Ändert die SSL-Client-Konfiguration in Hadoop. | Not available. |
hdfs-encryption-zones | Konfiguriert die HDFS-Verschlüsselungszonen. | This classification should not be reconfigured. |
hdfs-env | Ändert die Werte in der HDFS-Umgebung. | Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC. |
hdfs-site | Ändert die Werte in der hdfs-site.xml-Datei in HDFS. | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs. |
httpfs-env | Ändert die Werte in der HTTPFS-Umgebung. | Restarts Hadoop Httpfs service. |
httpfs-site | Ändert die Werte in der httpfs-site.xml-Datei in Hadoop. | Restarts Hadoop Httpfs service. |
hadoop-kms-acls | Ändert die Werte in der kms-acls.xml-Datei in Hadoop. | Not available. |
hadoop-kms-env | Ändert die Werte in der KMS-Umgebung in Hadoop. | Restarts Hadoop-KMS service. |
hadoop-kms-java-home | Das KMS-Java-Home von Hadoop ändern | Not available. |
hadoop-kms-log4j | Ändert die Werte in der kms-log4j.properties-Datei in Hadoop. | Not available. |
hadoop-kms-site | Ändert die Werte in der kms-site.xml-Datei in Hadoop. | Restarts Hadoop-KMS. |
hudi-env | Ändern der Werte in der Hudi-Umgebung. | Not available. |
hudi-defaults | Ändern Sie die Werte in der hudi-defaults.conf-Datei in Hudi. | Not available. |
iceberg-defaults | Ändern Sie die Werte in der iceberg-defaults.conf-Datei von Iceberg. | Not available. |
delta-defaults | Ändern Sie die Werte in der delta-defaults.conf-Datei von Delta. | Not available. |
jupyter-notebook-conf | Ändert die Werte in der jupyter_notebook_config.py-Datei in Jupyter Notebook. | Not available. |
jupyter-s3-conf | Konfigurieren Sie die S3-Persistenz für Jupyter Notebooks. | Not available. |
jupyter-sparkmagic-conf | Ändert die Werte in der config.json-Datei in Sparkmagic. | Not available. |
livy-conf | Ändert die Werte in der livy.conf-Datei von Livy. | Restarts Livy Server. |
livy-env | Ändert die Werte in der Livy-Umgebung. | Restarts Livy Server. |
livy-log4j2 | Ändern Sie die log4j2.properties-Einstellungen für Livy. | Restarts Livy Server. |
mapred-env | Ändern Sie Werte in der Anwendungsumgebung. MapReduce | Restarts Hadoop MapReduce-HistoryServer. |
mapred-site | Ändern Sie die Werte in der Datei mapred-site.xml der MapReduce Anwendung. | Restarts Hadoop MapReduce-HistoryServer. |
spark | EMR-curated Amazon-Einstellungen für Apache Spark. | This property modifies spark-defaults. See actions there. |
spark-defaults | Ändert die Werte in der spark-defaults.conf-Datei in Spark. | Restarts Spark history server and Spark thrift server. |
spark-env | Ändert die Werte in der Spark-Umgebung. | Restarts Spark history server and Spark thrift server. |
spark-hive-site | Ändert die Werte in der hive-site.xml-Datei in Spark. | Not available. |
spark-log4j2 | Ändern Sie die Werte in der log4j2.properties-Datei in Spark. | Restarts Spark history server and Spark thrift server. |
spark-metrics | Ändert die Werte in der metrics.properties-Datei in Spark. | Restarts Spark history server and Spark thrift server. |
yarn-env | Ändert die Werte in der YARN-Umgebung. | Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer. |
yarn-site | Ändert die Werte in der yarn-site.xml-Datei in YARN. | Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer. |
zookeeper-config | Ändern Sie die Werte in ZooKeeper der Datei zoo.cfg. | Restarts Zookeeper server. |
zookeeper-logback | Ändern Sie die Werte in ZooKeeper der Datei logback.xml. | Restarts Zookeeper server. |
cloudwatch-logs | Konfigurieren Sie die CloudWatch Log-Integration für EMR-Clusterknoten. | Not available. |
emr-metrics | Ändern Sie die EMR-Metrikeinstellungen für diesen Knoten. | Restarts the CloudWatchAgent service. |
EMR Spark 8.0.0 Änderungsprotokoll
| Date | Veranstaltung | Description |
|---|---|---|
| 2026-05-21 | Veröffentlichung von Dokumenten | Erste Veröffentlichung der Versionshinweise zu Amazon EMR Spark 8.0.0 (emr-spark-8.0.0) |