View a markdown version of this page

AWS runtime untuk Apache Spark (emr-spark-8.0.0) - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

AWS runtime untuk Apache Spark (emr-spark-8.0.0)

emr-spark-8.0.0 mendukung siklus hidup

Tabel berikut menjelaskan tanggal siklus hidup yang didukung untuk Amazon EMR Spark 8.0.0.

Fase Support Date
Tanggal rilis awal 21 Mei 2026
Dukungan standar sampai 20 Mei 2027
Akhir hidup 20 Mei 2027

versi aplikasi emr-spark-8.0.0

Rilis ini mencakup aplikasi berikut: AmazonCloudWatchAgent, Delta, Hudi, Iceberg, JupyterEnterpriseGateway, Livy, dan Spark.

Tabel di bawah ini mencantumkan versi aplikasi yang tersedia dalam rilis Amazon EMR ini dan versi aplikasi dalam tiga rilis EMR Amazon sebelumnya (bila berlaku).

Untuk riwayat lengkap versi aplikasi untuk setiap rilis Amazon EMR, lihat topik berikut:

Informasi versi aplikasi
emr-spark-8.0.0
AWS SDK for Java 2.41.32
Python 3.11, 3.12, 3.13
Skala 2.13.16
AmazonCloudWatchAgent1.300032.2-amzn-0
Delta4.0.0-amzn-1-percikan
Hudi1.1.0-amzn-0
Iceberg1.10.1-amzn-0
JupyterEnterpriseGateway2.6.0
Livy0.8.0-inkubasi
Spark4.0.2-amzn-0

Catatan rilis emr-spark-8.0.0

Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 8.0.0 (emr-spark-8.0.0), menampilkan Apache Spark 4.0.2.

Apa yang baru

  • Apache Spark 4.0.2 GA - Rilis Spark 4.x pertama yang siap produksi di Amazon EMR, berdasarkan cabang hulu cabang-4.0 dengan tambalan Amazon untuk kinerja, keamanan, dan integrasi.

  • Tersedia di EC2, EKS, dan Tanpa Server - Rilis ini tersedia di semua mode penyebaran EMR Amazon.

  • ANSI SQL Mode - Penanganan tipe yang lebih ketat diaktifkan secara default, meningkatkan kebenaran SQL dan kompatibilitas dengan perilaku SQL standar.

  • SQL PIPE Syntax - Operator |> baru untuk merantai operasi SQL dalam sintaks bergaya pipeline yang lebih mudah dibaca.

  • Jenis Data VARIANT — Dukungan asli untuk data JSON semi-terstruktur menggunakan tipe VARIANT, memungkinkan pola skema saat dibaca tanpa definisi skema eksplisit.

  • SQL Scripting — Pernyataan aliran kontrol (IF/ELSE, WHILE, FOR) dan variabel sesi untuk logika SQL prosedural dalam Spark SQL.

  • User-Defined Fungsi SQL — Tentukan UDF langsung di SQL tanpa memerlukan kode. Scala/Python

  • Peningkatan Streaming - Arbitrary Stateful Processing API v2 dengan WithState operator transformasi dan checkpointing log perubahan RocksDB yang disempurnakan.

  • Apache Iceberg v3 Support — Dukungan tipe data VARIANT dalam tabel Iceberg, integrasi Tabel S3. AWS

  • Native Fine-grained Access Control dan Full Table Access (FTA) — Didukung untuk tabel Iceberg, Delta Lake, dan Hive.

  • JDK 17 Default - Amazon Corretto 17 adalah JVM default; JDK 21 juga tersedia.

  • Scala 2.13 - Spark 4.x menjatuhkan dukungan Scala 2.12; semua komponen dibangun melawan Scala 2.13.

Perubahan dan penyempurnaan sejak emr-spark-8.0-preview

  • Livy dan JupyterEnterpriseGateway tersedia sebagai aplikasi beban kerja interaktif

  • Dukungan Server Riwayat Spark yang Persisten

Masalah umum dan batasan

  • Titik akhir aman Spark Connect dengan dukungan Native FGAC tidak tersedia dalam rilis ini.

  • AL2023 mengirimkan Python 3.9 sebagai sistem Python, tetapi tidak didukung untuk beban kerja. PySpark

Migrasi dari EMR 7.x (Spark 3.5.x)

Saat bermigrasi dari EMR 7.x (yang menggunakan Spark 3.5.x) ke emr-spark-8.0.0 (Spark 4.0.2), pertimbangkan untuk menggunakan Agen Peningkatan Spark untuk membantu migrasi.

  • Mode ANSI SQL adalah default - Pemaksaan tipe yang lebih ketat; cast implisit yang sebelumnya berhasil sekarang dapat menimbulkan kesalahan.

  • Scala 2.13 - Semua build Spark 4.x menggunakan Scala 2.13. Kompilasi ulang JAR kustom apa pun yang dibuat terhadap Scala 2.12.

  • JDK 17 default - Spark 4.0.2 mendukung JDK 17 (default) dan JDK 21 saja.

  • Python 3.11 default — Python 3.9 tidak lagi default untuk. PySpark Verifikasi kompatibilitas dependensi Python Anda.

  • AWS SDK - AWS SDK v1 untuk Java telah dihapus. Perbarui aplikasi Anda untuk menggunakan AWS SDK v2 untuk meningkatkan kinerja dan manajemen sumber daya.

  • Akses S3 — EMRFS tidak lagi tersedia. Gunakan konektor S3A untuk menulis data persisten ke Amazon S3 untuk kinerja dan kompatibilitas yang lebih baik. Lihat Optimalkan runtime Amazon EMR untuk Apache Spark dengan EMR S3A. emr-s3-select telah dihapus.

  • Pengembangan Interaktif — JupyterHub, Zeppelin, dan Hue tidak lagi disertakan. Untuk pengembangan Spark interaktif, gunakan EMR Studio, Livy, dan. JupyterEnterpriseGateway

  • Kereta rilis terpisah - Label rilis adalah emr-spark-8.0.0, bukan emr-8.0.0. Rilis ini berfokus pada Spark. Untuk Flink, HBase, Phoenix, Tez, Trino, Presto, gunakan EMR 7.x dan tunggu rilis multi-engine emr-8.0.0 future. Babi dan Oozie tidak termasuk.

  • Titik akhir VPC untuk komunikasi kluster EMR — Dimulai dengan Amazon EMR Spark 8.0.0, Amazon EMR di EC2 menyediakan titik akhir VPC di VPC Anda untuk komunikasi antara layanan EMR Amazon dan klaster Anda saat meluncurkan klaster di subnet pribadi. Peran layanan EMR Amazon Anda harus menyertakan ec2:CreateVpcEndpoint dan ec2:ModifyVpcEndpoint izin, atau Anda harus membuat titik akhir VPC secara manual sebelum meluncurkan klaster. Nama layanan titik akhir VPC adalah. aws.api.region.emr-service-cell01

    • Perubahan ini memperbarui persyaratan jaringan untuk kluster subnet pribadi:

      • Grup keamanan akses layanan (ElasticMapReduce-ServiceAccess), yang dilampirkan ke titik akhir VPC, memerlukan HTTPS masuk (port 443) dari blok CIDR VPC. 8443/9443 Aturan port yang digunakan di Amazon EMR merilis 7.x dan sebelumnya tidak lagi diperlukan.

      • Grup keamanan contoh utama memerlukan HTTPS keluar (port 443) ke grup keamanan akses layanan.

      • Aturan port masuk 8443 dan port keluar 9443 yang digunakan di Amazon EMR merilis 7.x dan sebelumnya tidak lagi diperlukan pada grup keamanan instance primer, inti, dan tugas.

      • Jika Anda menggunakan kebijakan titik akhir VPC khusus untuk Amazon S3, Anda harus mengizinkan akses ke bucket data instans EMR Amazon (dan). aws157-instance-data-0-prod-region aws157-instance-data-1-prod-region

    • Untuk informasi selengkapnya, lihat kluster EMR di subnet pribadi, grup keamanan EMR-managed Amazon, dan kebijakan Minimum Amazon S3 untuk subnet pribadi di Panduan Manajemen EMR Amazon.

emr-spark-8.0.0 versi Java standar

AplikasiVersi Java/Amazon Corretto (default tebal)
Spark17, 21
Livy17, 11, 8
Hadoop17, 11, 8

versi komponen emr-spark-8.0.0

Komponen yang diinstal oleh Amazon EMR dengan rilis ini tercantum di bawah ini. Beberapa komponen diinstal sebagai bagian dari paket aplikasi big data. Sedangkan komponen lainnya bersifak unik untuk Amazon EMR dan diinstal untuk proses sistem dan fitur. Ini biasanya dimulai dengan emr atauaws. Big-data paket aplikasi dalam rilis EMR Amazon terbaru biasanya merupakan versi terbaru yang ditemukan di komunitas. Kami menyediakan rilis komunitas di Amazon EMR secepat mungkin.

Beberapa komponen yang ada di Amazon EMR berbeda dari versi komunitas. Komponen ini mempunyai label versi dalam bentuk CommunityVersion-amzn-EmrVersion. EmrVersion dimulai dari 0. Misalnya, jika komponen komunitas open source bernama myapp-component dengan versi 2.2 telah dimodifikasi tiga kali untuk dimasukkan dalam rilis EMR Amazon yang berbeda, versi rilisnya terdaftar sebagai. 2.2-amzn-2

Komponen Versi Deskripsi
adot-java-agent1.31.0Agen Java yang mengumpulkan metrik dari daemon aplikasi.
delta4.0.0-amzn-1-percikanDanau Delta adalah format tabel terbuka untuk kumpulan data analitik yang sangat besar
emr-amazon-cloudwatch-agent1.300032.2-amzn-0Aplikasi yang mengumpulkan metrik tingkat sistem internal dan metrik aplikasi khusus dari instans Amazon EC2.
emr-ddb6.0.0Konektor Amazon DynamoDB untuk aplikasi ekosistem Hadoop.
emr-goodies3.22.0-percikanPerpustakaan kenyamanan ekstra untuk ekosistem Hadoop.
emr-notebook-env1.18.0Conda env untuk emr notebook yang mencakup gateway jupyter korporasi
emr-s3-dist-cp2.44.0Aplikasi salinan terdistribusi yang dioptimalkan untuk Amazon S3.
hadoop-client3.4.2-amzn-1Klien baris perintah Hadoop seperti 'hdfs', 'Hadoop', atau 'yarn'.
hadoop-hdfs-datanode3.4.2-amzn-1Layanan tingkat simpul HDFS untuk menyimpan blok.
hadoop-hdfs-library3.4.2-amzn-1Klien dan perpustakaan baris perintah HDFS
hadoop-hdfs-namenode3.4.2-amzn-1Layanan HDFS untuk melacak nama file dan lokasi blok.
hadoop-hdfs-zkfc3.4.2-amzn-1Layanan ZKFC untuk melacak namenodes untuk mode HA.
hadoop-hdfs-journalnode3.4.2-amzn-1Layanan HDFS untuk mengelola jurnal filesystem Hadoop pada klaster HA.
hadoop-httpfs-server3.4.2-amzn-1Titik akhir HTTP untuk operasi HDFS.
hadoop-kms-server3.4.2-amzn-1Server manajemen kunci kriptografi berdasarkan API Hadoop. KeyProvider
hadoop-mapred3.4.2-amzn-1MapReduce pustaka mesin eksekusi untuk menjalankan MapReduce aplikasi.
hadoop-yarn-nodemanager3.4.2-amzn-1Layanan YARN untuk mengelola kontainer pada simpul individu.
hadoop-yarn-resourcemanager3.4.2-amzn-1Layanan YARN untuk mengalokasikan dan mengelola sumber daya klaster dan aplikasi terdistribusi.
hadoop-yarn-timeline-server3.4.2-amzn-1Layanan untuk mengambil informasi terkini dan historis untuk aplikasi YARN.
hudi1.1.0-amzn-0Kerangka pemrosesan tambahan untuk memberi daya pada pipa data pada latensi rendah dan efisiensi tinggi.
hudi-spark1.1.0-amzn-0Perpustakaan paket untuk menjalankan Spark dengan Hudi.
iceberg1.10.1-amzn-0Apache Iceberg adalah format tabel terbuka untuk kumpulan data analitik besar
livy-server0.8.0-inkubasiAntarmuka REST untuk berinteraksi dengan Apache Spark
nginx1.12.1nginx [engine x] adalah server HTTP dan server proksi balik
mariadb-server5.5.68+Server basis data MariaDB.
nvidia-cuda12.5.0Driver Nvidia dan kit alat Cuda
r4.3.2Proyek R untuk Komputasi Statistik
spark-client4.0.2-amzn-0Klien baris perintah Spark.
spark-history-server4.0.2-amzn-0Web UI untuk melihat log acara untuk seluruh masa pakai aplikasi Spark.
spark-on-yarn4.0.2-amzn-0In-memory mesin eksekusi untuk YARN.
spark-yarn-slave4.0.2-amzn-0Perpustakaan Apache Spark yang dibutuhkan oleh slave YARN.
spark-rapids26.02.2-amzn-0Plugin Nvidia Spark RAPIDS yang mempercepat Apache Spark dengan GPU.
zookeeper-server3.9.3-amzn-6Layanan terpusat untuk menjaga informasi konfigurasi, penamaan, yang menyediakan sinkronisasi terdistribusi, dan menyediakan layanan grup.
zookeeper-client3.9.3-amzn-6ZooKeeper klien baris perintah.

klasifikasi konfigurasi emr-spark-8.0.0

Klasifikasi konfigurasi memungkinkan Anda menyesuaikan aplikasi. Ini sering kali bersesuaian dengan file XML konfigurasi untuk aplikasi, seperti hive-site.xml. Untuk informasi selengkapnya, lihat Konfigurasikan aplikasi.

Tindakan konfigurasi ulang terjadi ketika Anda menentukan konfigurasi untuk grup instans di klaster yang sedang berjalan. Amazon EMR hanya memulai tindakan konfigurasi ulang untuk klasifikasi yang Anda modifikasi. Untuk informasi selengkapnya, lihat Lakukan konfigurasi ulang pada grup instans di klaster yang sedang berjalan.

klasifikasi emr-spark-8.0.0
Klasifikasi Deskripsi Tindakan Konfigurasi Ulang

capacity-scheduler

Ubah nilai dalam file capacity-scheduler.xml Hadoop.

Restarts the ResourceManager service.

container-executor

Ubah nilai dalam file container-executor.cfg Hadoop YARN ini.

Not available.

container-log4j

Ubah nilai dalam file container-log4j.properties Hadoop YARN.

Not available.

core-site

Ubah nilai dalam file core-site.xml Hadoop.

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.

docker-conf

Ubah pengaturan terkait docker.

Not available.

hadoop-env

Ubah nilai dalam lingkungan Hadoop untuk semua komponen Hadoop.

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.

hadoop-log4j

Ubah nilai dalam file log4j.properties Hadoop ini.

Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.

hadoop-ssl-server

Ubah konfigurasi server ssl hadoop

Not available.

hadoop-ssl-client

Ubah konfigurasi klien ssl hadoop

Not available.

hdfs-encryption-zones

Konfigurasikan zona enkripsi HDFS.

This classification should not be reconfigured.

hdfs-env

Ubah nilai dalam lingkungan HDFS.

Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC.

hdfs-site

Ubah nilai dalam hdfs-site.xml HDFS.

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs.

httpfs-env

Ubah nilai di lingkungan HTTPFS.

Restarts Hadoop Httpfs service.

httpfs-site

Ubah nilai dalam file httpfs-site.xml Hadoop.

Restarts Hadoop Httpfs service.

hadoop-kms-acls

Ubah nilai dalam file kms-acls.xml Hadoop.

Not available.

hadoop-kms-env

Ubah nilai dalam lingkungan Hadoop KMS.

Restarts Hadoop-KMS service.

hadoop-kms-java-home

Ubah rumah java KMS Hadoop

Not available.

hadoop-kms-log4j

Ubah nilai dalam file kms-log4j.properties Hadoop.

Not available.

hadoop-kms-site

Ubah nilai dalam file kms-site.xml Hadoop.

Restarts Hadoop-KMS.

hudi-env

Ubah nilai di lingkungan Hudi.

Not available.

hudi-defaults

Ubah nilai dalam file hudi-defaults.conf Hudi.

Not available.

iceberg-defaults

Ubah nilai dalam file iceberg-defaults.conf Iceberg.

Not available.

delta-defaults

Ubah nilai dalam file delta-defaults.conf Delta.

Not available.

jupyter-notebook-conf

Ubah nilai dalam file jupyter_notebook_config.py Jupyter Notebook.

Not available.

jupyter-s3-conf

Konfigurasikan persistensi Jupyter Notebook S3.

Not available.

jupyter-sparkmagic-conf

Ubah nilai dalam file config.json Sparkmagic.

Not available.

livy-conf

Ubah nilai dalam file livy.conf Livy.

Restarts Livy Server.

livy-env

Ubah nilai di lingkungan Livy.

Restarts Livy Server.

livy-log4j2

Ubah pengaturan Livy log4j2.properties.

Restarts Livy Server.

mapred-env

Ubah nilai di lingkungan MapReduce aplikasi.

Restarts Hadoop MapReduce-HistoryServer.

mapred-site

Ubah nilai dalam file mapred-site.xml MapReduce aplikasi.

Restarts Hadoop MapReduce-HistoryServer.

spark

EMR-curated Pengaturan Amazon untuk Apache Spark.

This property modifies spark-defaults. See actions there.

spark-defaults

Ubah nilai dalam file spark-defaults.conf Spark.

Restarts Spark history server and Spark thrift server.

spark-env

Ubah nilai di lingkungan Spark.

Restarts Spark history server and Spark thrift server.

spark-hive-site

Ubah nilai dalam file hive-site.xml Spark

Not available.

spark-log4j2

Ubah nilai dalam file log4j2.properties Spark.

Restarts Spark history server and Spark thrift server.

spark-metrics

Ubah nilai dalam file metrics.properties Spark.

Restarts Spark history server and Spark thrift server.

yarn-env

Ubah nilai di lingkungan YARN.

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.

yarn-site

Ubah nilai dalam file yarn-site.xml YARN.

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer.

zookeeper-config

Ubah nilai dalam ZooKeeper file zoo.cfg.

Restarts Zookeeper server.

zookeeper-logback

Ubah nilai dalam ZooKeeper file logback.xml.

Restarts Zookeeper server.

cloudwatch-logs

Konfigurasikan integrasi CloudWatch Log untuk node cluster EMR.

Not available.

emr-metrics

Ubah pengaturan metrik emr untuk node ini.

Restarts the CloudWatchAgent service.

EMR Spark 8.0.0 perubahan log

Ubah log untuk EMR Spark 8.0.0
DatePeristiwaDeskripsi
2026-05-21Publikasi DocsAmazon EMR Spark 8.0.0 (emr-spark-8.0.0) catatan rilis pertama kali diterbitkan