emr-spark-8.0.0 mendukung siklus hidup versi aplikasi emr-spark-8.0.0 Catatan rilis emr-spark-8.0.0 emr-spark-8.0.0 versi Java standar versi komponen emr-spark-8.0.0 klasifikasi konfigurasi emr-spark-8.0.0 EMR Spark 8.0.0 perubahan log

AWS runtime untuk Apache Spark (emr-spark-8.0.0)

emr-spark-8.0.0 mendukung siklus hidup

Tabel berikut menjelaskan tanggal siklus hidup yang didukung untuk Amazon EMR Spark 8.0.0.

Fase Support	Date
Tanggal rilis awal	21 Mei 2026
Dukungan standar sampai	20 Mei 2027
Akhir hidup	20 Mei 2027

versi aplikasi emr-spark-8.0.0

Rilis ini mencakup aplikasi berikut: AmazonCloudWatchAgent, Delta, Hudi, Iceberg, JupyterEnterpriseGateway, Livy, dan Spark.

Tabel di bawah ini mencantumkan versi aplikasi yang tersedia dalam rilis Amazon EMR ini dan versi aplikasi dalam tiga rilis EMR Amazon sebelumnya (bila berlaku).

Untuk riwayat lengkap versi aplikasi untuk setiap rilis Amazon EMR, lihat topik berikut:

Informasi versi aplikasi
	emr-spark-8.0.0
AWS SDK for Java	2.41.32
Python	3.11, 3.12, 3.13
Skala	2.13.16
AmazonCloudWatchAgent	1.300032.2-amzn-0
Delta	4.0.0-amzn-1-percikan
Hudi	1.1.0-amzn-0
Iceberg	1.10.1-amzn-0
JupyterEnterpriseGateway	2.6.0
Livy	0.8.0-inkubasi
Spark	4.0.2-amzn-0

Catatan rilis emr-spark-8.0.0

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 8.0.0 (emr-spark-8.0.0), menampilkan Apache Spark 4.0.2.

Apa yang baru

Apache Spark 4.0.2 GA - Rilis Spark 4.x pertama yang siap produksi di Amazon EMR, berdasarkan cabang hulu cabang-4.0 dengan tambalan Amazon untuk kinerja, keamanan, dan integrasi.
Tersedia di EC2, EKS, dan Tanpa Server - Rilis ini tersedia di semua mode penyebaran EMR Amazon.
ANSI SQL Mode - Penanganan tipe yang lebih ketat diaktifkan secara default, meningkatkan kebenaran SQL dan kompatibilitas dengan perilaku SQL standar.
SQL PIPE Syntax - Operator |> baru untuk merantai operasi SQL dalam sintaks bergaya pipeline yang lebih mudah dibaca.
Jenis Data VARIANT — Dukungan asli untuk data JSON semi-terstruktur menggunakan tipe VARIANT, memungkinkan pola skema saat dibaca tanpa definisi skema eksplisit.
SQL Scripting — Pernyataan aliran kontrol (IF/ELSE, WHILE, FOR) dan variabel sesi untuk logika SQL prosedural dalam Spark SQL.
User-Defined Fungsi SQL — Tentukan UDF langsung di SQL tanpa memerlukan kode. Scala/Python
Peningkatan Streaming - Arbitrary Stateful Processing API v2 dengan WithState operator transformasi dan checkpointing log perubahan RocksDB yang disempurnakan.
Apache Iceberg v3 Support — Dukungan tipe data VARIANT dalam tabel Iceberg, integrasi Tabel S3. AWS
Native Fine-grained Access Control dan Full Table Access (FTA) — Didukung untuk tabel Iceberg, Delta Lake, dan Hive.
JDK 17 Default - Amazon Corretto 17 adalah JVM default; JDK 21 juga tersedia.
Scala 2.13 - Spark 4.x menjatuhkan dukungan Scala 2.12; semua komponen dibangun melawan Scala 2.13.

Perubahan dan penyempurnaan sejak emr-spark-8.0-preview

Livy dan JupyterEnterpriseGateway tersedia sebagai aplikasi beban kerja interaktif
Dukungan Server Riwayat Spark yang Persisten

Masalah umum dan batasan

Titik akhir aman Spark Connect dengan dukungan Native FGAC tidak tersedia dalam rilis ini.
Native Fine-grained Access Control (FGAC) tidak tersedia untuk tabel Iceberg yang menggunakan tipe data VARIANT.
Glue Managed Compaction tidak didukung pada tabel Iceberg yang menggunakan tipe data VARIANT.
AL2023 mengirimkan Python 3.9 sebagai sistem Python, tetapi tidak didukung untuk beban kerja. PySpark
Jumlah maksimum langkah yang dapat Anda tambahkan atau batalkan per permintaan adalah 100.

Migrasi dari EMR 7.x (Spark 3.5.x)

Saat bermigrasi dari EMR 7.x (yang menggunakan Spark 3.5.x) ke emr-spark-8.0.0 (Spark 4.0.2), pertimbangkan untuk menggunakan Agen Peningkatan Spark untuk membantu migrasi.

Mode ANSI SQL adalah default - Pemaksaan tipe yang lebih ketat; cast implisit yang sebelumnya berhasil sekarang dapat menimbulkan kesalahan.
Scala 2.13 - Semua build Spark 4.x menggunakan Scala 2.13. Kompilasi ulang JAR kustom apa pun yang dibuat terhadap Scala 2.12.
JDK 17 default - Spark 4.0.2 mendukung JDK 17 (default) dan JDK 21 saja.
Python 3.11 default — Python 3.9 tidak lagi default untuk. PySpark Verifikasi kompatibilitas dependensi Python Anda.
AWS SDK - AWS SDK v1 untuk Java telah dihapus. Perbarui aplikasi Anda untuk menggunakan AWS SDK v2 untuk meningkatkan kinerja dan manajemen sumber daya.
Akses S3 — EMRFS tidak lagi tersedia. Gunakan konektor S3A untuk menulis data persisten ke Amazon S3 untuk kinerja dan kompatibilitas yang lebih baik. Lihat Optimalkan runtime Amazon EMR untuk Apache Spark dengan EMR S3A. emr-s3-select telah dihapus.
Pengembangan Interaktif — JupyterHub, Zeppelin, dan Hue tidak lagi disertakan. Untuk pengembangan Spark interaktif, gunakan EMR Studio, Livy, dan. JupyterEnterpriseGateway
Kereta rilis terpisah - Label rilis adalah emr-spark-8.0.0, bukan emr-8.0.0. Rilis ini berfokus pada Spark. Untuk Flink, HBase, Phoenix, Tez, Trino, Presto, gunakan EMR 7.x dan tunggu rilis multi-engine emr-8.0.0 future. Babi dan Oozie tidak termasuk.
Titik akhir VPC untuk komunikasi cluster EMR — Dimulai dengan Amazon EMR Spark 8.0.0, Amazon EMR di EC2 menyediakan titik akhir VPC di VPC Anda untuk komunikasi antara layanan EMR Amazon dan klaster Anda saat meluncurkan klaster di subnet pribadi. Peran layanan EMR Amazon Anda harus menyertakan ec2:CreateVpcEndpoint dan ec2:ModifyVpcEndpoint izin, atau Anda harus membuat titik akhir VPC secara manual sebelum meluncurkan klaster. Nama layanan titik akhir VPC adalah. aws.api.region.emr-service-cell01
- Perubahan ini memperbarui persyaratan jaringan untuk kluster subnet pribadi:
  - Grup keamanan akses layanan (ElasticMapReduce-ServiceAccess), yang dilampirkan ke titik akhir VPC, memerlukan HTTPS masuk (port 443) dari blok CIDR VPC. 8443/9443 Aturan port yang digunakan di Amazon EMR merilis 7.x dan sebelumnya tidak lagi diperlukan.
  - Grup keamanan contoh utama memerlukan HTTPS keluar (port 443) ke grup keamanan akses layanan.
  - Aturan port masuk 8443 dan port keluar 9443 yang digunakan di Amazon EMR merilis 7.x dan sebelumnya tidak lagi diperlukan pada grup keamanan instance primer, inti, dan tugas.
  - Jika Anda menggunakan kebijakan titik akhir VPC khusus untuk Amazon S3, Anda harus mengizinkan akses ke bucket data instans EMR Amazon (dan). aws157-instance-data-0-prod-region aws157-instance-data-1-prod-region
- Untuk informasi selengkapnya, lihat kluster EMR di subnet pribadi, grup keamanan EMR-managed Amazon, dan kebijakan Minimum Amazon S3 untuk subnet pribadi di Panduan Manajemen EMR Amazon.

emr-spark-8.0.0 versi Java standar

Aplikasi	Versi Java/Amazon Corretto (defaultnya tebal)
Spark	17, 21
Livy	17, 11, 8
Hadoop	17, 11, 8

versi komponen emr-spark-8.0.0

Komponen yang diinstal oleh Amazon EMR dengan rilis ini tercantum di bawah ini. Beberapa komponen diinstal sebagai bagian dari paket aplikasi big data. Sedangkan komponen lainnya bersifak unik untuk Amazon EMR dan diinstal untuk proses sistem dan fitur. Ini biasanya dimulai dengan emr atauaws. Big-data paket aplikasi dalam rilis EMR Amazon terbaru biasanya merupakan versi terbaru yang ditemukan di komunitas. Kami menyediakan rilis komunitas di Amazon EMR secepat mungkin.

Beberapa komponen yang ada di Amazon EMR berbeda dari versi komunitas. Komponen ini mempunyai label versi dalam bentuk CommunityVersion-amzn-EmrVersion. EmrVersion dimulai dari 0. Misalnya, jika komponen komunitas open source bernama myapp-component dengan versi 2.2 telah dimodifikasi tiga kali untuk dimasukkan dalam rilis EMR Amazon yang berbeda, versi rilisnya terdaftar sebagai. 2.2-amzn-2

Komponen	Versi	Deskripsi
adot-java-agent	1.31.0	Agen Java yang mengumpulkan metrik dari daemon aplikasi.
delta	4.0.0-amzn-1-percikan	Danau Delta adalah format tabel terbuka untuk kumpulan data analitik yang sangat besar
emr-amazon-cloudwatch-agent	1.300032.2-amzn-0	Aplikasi yang mengumpulkan metrik tingkat sistem internal dan metrik aplikasi khusus dari instans Amazon EC2.
emr-ddb	6.0.0	Konektor Amazon DynamoDB untuk aplikasi ekosistem Hadoop.
emr-goodies	3.22.0-percikan	Perpustakaan kenyamanan ekstra untuk ekosistem Hadoop.
emr-notebook-env	1.18.0	Conda env untuk emr notebook yang mencakup gateway jupyter korporasi
emr-s3-dist-cp	2.44.0	Aplikasi salinan terdistribusi yang dioptimalkan untuk Amazon S3.
hadoop-client	3.4.2-amzn-1	Klien baris perintah Hadoop seperti 'hdfs', 'Hadoop', atau 'yarn'.
hadoop-hdfs-datanode	3.4.2-amzn-1	Layanan tingkat simpul HDFS untuk menyimpan blok.
hadoop-hdfs-library	3.4.2-amzn-1	Klien dan perpustakaan baris perintah HDFS
hadoop-hdfs-namenode	3.4.2-amzn-1	Layanan HDFS untuk melacak nama file dan lokasi blok.
hadoop-hdfs-zkfc	3.4.2-amzn-1	Layanan ZKFC untuk melacak namenodes untuk mode HA.
hadoop-hdfs-journalnode	3.4.2-amzn-1	Layanan HDFS untuk mengelola jurnal filesystem Hadoop pada klaster HA.
hadoop-httpfs-server	3.4.2-amzn-1	Titik akhir HTTP untuk operasi HDFS.
hadoop-kms-server	3.4.2-amzn-1	Server manajemen kunci kriptografi berdasarkan API Hadoop. KeyProvider
hadoop-mapred	3.4.2-amzn-1	MapReduce pustaka mesin eksekusi untuk menjalankan MapReduce aplikasi.
hadoop-yarn-nodemanager	3.4.2-amzn-1	Layanan YARN untuk mengelola kontainer pada simpul individu.
hadoop-yarn-resourcemanager	3.4.2-amzn-1	Layanan YARN untuk mengalokasikan dan mengelola sumber daya klaster dan aplikasi terdistribusi.
hadoop-yarn-timeline-server	3.4.2-amzn-1	Layanan untuk mengambil informasi terkini dan historis untuk aplikasi YARN.
hudi	1.1.0-amzn-0	Kerangka pemrosesan tambahan untuk memberi daya pada pipa data pada latensi rendah dan efisiensi tinggi.
hudi-spark	1.1.0-amzn-0	Perpustakaan paket untuk menjalankan Spark dengan Hudi.
iceberg	1.10.1-amzn-0	Apache Iceberg adalah format tabel terbuka untuk kumpulan data analitik besar
livy-server	0.8.0-inkubasi	Antarmuka REST untuk berinteraksi dengan Apache Spark
nginx	1.12.1	nginx [engine x] adalah server HTTP dan server proksi balik
mariadb-server	5.5.68+	Server basis data MariaDB.
nvidia-cuda	12.5.0	Driver Nvidia dan kit alat Cuda
r	4.3.2	Proyek R untuk Komputasi Statistik
spark-client	4.0.2-amzn-0	Klien baris perintah Spark.
spark-history-server	4.0.2-amzn-0	Web UI untuk melihat log acara untuk seluruh masa pakai aplikasi Spark.
spark-on-yarn	4.0.2-amzn-0	In-memory mesin eksekusi untuk YARN.
spark-yarn-slave	4.0.2-amzn-0	Perpustakaan Apache Spark yang dibutuhkan oleh slave YARN.
spark-rapids	26.02.2-amzn-0	Plugin Nvidia Spark RAPIDS yang mempercepat Apache Spark dengan GPU.
zookeeper-server	3.9.3-amzn-6	Layanan terpusat untuk menjaga informasi konfigurasi, penamaan, yang menyediakan sinkronisasi terdistribusi, dan menyediakan layanan grup.
zookeeper-client	3.9.3-amzn-6	ZooKeeper klien baris perintah.

klasifikasi konfigurasi emr-spark-8.0.0

Klasifikasi konfigurasi memungkinkan Anda menyesuaikan aplikasi. Ini sering kali bersesuaian dengan file XML konfigurasi untuk aplikasi, seperti hive-site.xml. Untuk informasi selengkapnya, lihat Konfigurasikan aplikasi.

Tindakan konfigurasi ulang terjadi ketika Anda menentukan konfigurasi untuk grup instans di klaster yang sedang berjalan. Amazon EMR hanya memulai tindakan konfigurasi ulang untuk klasifikasi yang Anda modifikasi. Untuk informasi selengkapnya, lihat Lakukan konfigurasi ulang pada grup instans di klaster yang sedang berjalan.

klasifikasi emr-spark-8.0.0
Klasifikasi	Deskripsi	Tindakan Konfigurasi Ulang
capacity-scheduler	Ubah nilai dalam file capacity-scheduler.xml Hadoop.	Restarts the ResourceManager service.
container-executor	Ubah nilai dalam file container-executor.cfg Hadoop YARN ini.	Not available.
container-log4j	Ubah nilai dalam file container-log4j.properties Hadoop YARN.	Not available.
core-site	Ubah nilai dalam file core-site.xml Hadoop.	Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.
docker-conf	Ubah pengaturan terkait docker.	Not available.
hadoop-env	Ubah nilai dalam lingkungan Hadoop untuk semua komponen Hadoop.	Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.
hadoop-log4j	Ubah nilai dalam file log4j.properties Hadoop ini.	Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.
hadoop-ssl-server	Ubah konfigurasi server ssl hadoop	Not available.
hadoop-ssl-client	Ubah konfigurasi klien ssl hadoop	Not available.
hdfs-encryption-zones	Konfigurasikan zona enkripsi HDFS.	This classification should not be reconfigured.
hdfs-env	Ubah nilai dalam lingkungan HDFS.	Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC.
hdfs-site	Ubah nilai dalam hdfs-site.xml HDFS.	Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs.
httpfs-env	Ubah nilai di lingkungan HTTPFS.	Restarts Hadoop Httpfs service.
httpfs-site	Ubah nilai dalam file httpfs-site.xml Hadoop.	Restarts Hadoop Httpfs service.
hadoop-kms-acls	Ubah nilai dalam file kms-acls.xml Hadoop.	Not available.
hadoop-kms-env	Ubah nilai dalam lingkungan Hadoop KMS.	Restarts Hadoop-KMS service.
hadoop-kms-java-home	Ubah rumah java KMS Hadoop	Not available.
hadoop-kms-log4j	Ubah nilai dalam file kms-log4j.properties Hadoop.	Not available.
hadoop-kms-site	Ubah nilai dalam file kms-site.xml Hadoop.	Restarts Hadoop-KMS.
hudi-env	Ubah nilai di lingkungan Hudi.	Not available.
hudi-defaults	Ubah nilai dalam file hudi-defaults.conf Hudi.	Not available.
iceberg-defaults	Ubah nilai dalam file iceberg-defaults.conf Iceberg.	Not available.
delta-defaults	Ubah nilai dalam file delta-defaults.conf Delta.	Not available.
jupyter-notebook-conf	Ubah nilai dalam file jupyter_notebook_config.py Jupyter Notebook.	Not available.
jupyter-s3-conf	Konfigurasikan persistensi Jupyter Notebook S3.	Not available.
jupyter-sparkmagic-conf	Ubah nilai dalam file config.json Sparkmagic.	Not available.
livy-conf	Ubah nilai dalam file livy.conf Livy.	Restarts Livy Server.
livy-env	Ubah nilai di lingkungan Livy.	Restarts Livy Server.
livy-log4j2	Ubah pengaturan Livy log4j2.properties.	Restarts Livy Server.
mapred-env	Ubah nilai di lingkungan MapReduce aplikasi.	Restarts Hadoop MapReduce-HistoryServer.
mapred-site	Ubah nilai dalam file mapred-site.xml MapReduce aplikasi.	Restarts Hadoop MapReduce-HistoryServer.
spark	EMR-curated Pengaturan Amazon untuk Apache Spark.	This property modifies spark-defaults. See actions there.
spark-defaults	Ubah nilai dalam file spark-defaults.conf Spark.	Restarts Spark history server and Spark thrift server.
spark-env	Ubah nilai di lingkungan Spark.	Restarts Spark history server and Spark thrift server.
spark-hive-site	Ubah nilai dalam file hive-site.xml Spark	Not available.
spark-log4j2	Ubah nilai dalam file log4j2.properties Spark.	Restarts Spark history server and Spark thrift server.
spark-metrics	Ubah nilai dalam file metrics.properties Spark.	Restarts Spark history server and Spark thrift server.
yarn-env	Ubah nilai di lingkungan YARN.	Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.
yarn-site	Ubah nilai dalam file yarn-site.xml YARN.	Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer.
zookeeper-config	Ubah nilai dalam ZooKeeper file zoo.cfg.	Restarts Zookeeper server.
zookeeper-logback	Ubah nilai dalam ZooKeeper file logback.xml.	Restarts Zookeeper server.
cloudwatch-logs	Konfigurasikan integrasi CloudWatch Log untuk node cluster EMR.	Not available.
emr-metrics	Ubah pengaturan metrik emr untuk simpul ini.	Restarts the CloudWatchAgent service.

EMR Spark 8.0.0 perubahan log

Ubah log untuk EMR Spark 8.0.0
Date	Peristiwa	Deskripsi
2026-05-21	Publikasi Docs	Amazon EMR Spark 8.0.0 (emr-spark-8.0.0) catatan rilis pertama kali diterbitkan

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Versi aplikasi di AWS runtime untuk rilis Apache Spark

Amazon EMR 7.x versi rilis