Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
AWS runtime untuk Apache Spark (emr-spark-8.0.0)
emr-spark-8.0.0 mendukung siklus hidup
Tabel berikut menjelaskan tanggal siklus hidup yang didukung untuk Amazon EMR Spark 8.0.0.
| Fase Support | Date |
|---|---|
| Tanggal rilis awal | 21 Mei 2026 |
| Dukungan standar sampai | 20 Mei 2027 |
| Akhir hidup | 20 Mei 2027 |
versi aplikasi emr-spark-8.0.0
Rilis ini mencakup aplikasi berikut: AmazonCloudWatchAgent, Delta
Tabel di bawah ini mencantumkan versi aplikasi yang tersedia dalam rilis Amazon EMR ini dan versi aplikasi dalam tiga rilis EMR Amazon sebelumnya (bila berlaku).
Untuk riwayat lengkap versi aplikasi untuk setiap rilis Amazon EMR, lihat topik berikut:
| emr-spark-8.0.0 | |
|---|---|
| AWS SDK for Java | 2.41.32 |
| Python | 3.11, 3.12, 3.13 |
| Skala | 2.13.16 |
| AmazonCloudWatchAgent | 1.300032.2-amzn-0 |
| Delta | 4.0.0-amzn-1-percikan |
| Hudi | 1.1.0-amzn-0 |
| Iceberg | 1.10.1-amzn-0 |
| JupyterEnterpriseGateway | 2.6.0 |
| Livy | 0.8.0-inkubasi |
| Spark | 4.0.2-amzn-0 |
Catatan rilis emr-spark-8.0.0
Catatan rilis berikut mencakup informasi untuk Amazon EMR rilis 8.0.0 (emr-spark-8.0.0), menampilkan Apache Spark 4.0.2.
Apa yang baru
Apache Spark 4.0.2 GA - Rilis Spark 4.x pertama yang siap produksi di Amazon EMR, berdasarkan cabang hulu cabang-4.0 dengan tambalan Amazon untuk kinerja, keamanan, dan integrasi.
Tersedia di EC2, EKS, dan Tanpa Server - Rilis ini tersedia di semua mode penyebaran EMR Amazon.
ANSI SQL Mode - Penanganan tipe yang lebih ketat diaktifkan secara default, meningkatkan kebenaran SQL dan kompatibilitas dengan perilaku SQL standar.
SQL PIPE Syntax - Operator |> baru untuk merantai operasi SQL dalam sintaks bergaya pipeline yang lebih mudah dibaca.
Jenis Data VARIANT — Dukungan asli untuk data JSON semi-terstruktur menggunakan tipe VARIANT, memungkinkan pola skema saat dibaca tanpa definisi skema eksplisit.
SQL Scripting — Pernyataan aliran kontrol (IF/ELSE, WHILE, FOR) dan variabel sesi untuk logika SQL prosedural dalam Spark SQL.
User-Defined Fungsi SQL — Tentukan UDF langsung di SQL tanpa memerlukan kode. Scala/Python
Peningkatan Streaming - Arbitrary Stateful Processing API v2 dengan WithState operator transformasi dan checkpointing log perubahan RocksDB yang disempurnakan.
Apache Iceberg v3 Support — Dukungan tipe data VARIANT dalam tabel Iceberg, integrasi Tabel S3. AWS
Native Fine-grained Access Control dan Full Table Access (FTA) — Didukung untuk tabel Iceberg, Delta Lake, dan Hive.
JDK 17 Default - Amazon Corretto 17 adalah JVM default; JDK 21 juga tersedia.
Scala 2.13 - Spark 4.x menjatuhkan dukungan Scala 2.12; semua komponen dibangun melawan Scala 2.13.
Perubahan dan penyempurnaan sejak emr-spark-8.0-preview
Livy dan JupyterEnterpriseGateway tersedia sebagai aplikasi beban kerja interaktif
Dukungan Server Riwayat Spark yang Persisten
Masalah umum dan batasan
Titik akhir aman Spark Connect dengan dukungan Native FGAC tidak tersedia dalam rilis ini.
AL2023 mengirimkan Python 3.9 sebagai sistem Python, tetapi tidak didukung untuk beban kerja. PySpark
Migrasi dari EMR 7.x (Spark 3.5.x)
Mode ANSI SQL adalah default - Pemaksaan tipe yang lebih ketat; cast implisit yang sebelumnya berhasil sekarang dapat menimbulkan kesalahan.
Scala 2.13 - Semua build Spark 4.x menggunakan Scala 2.13. Kompilasi ulang JAR kustom apa pun yang dibuat terhadap Scala 2.12.
JDK 17 default - Spark 4.0.2 mendukung JDK 17 (default) dan JDK 21 saja.
Python 3.11 default — Python 3.9 tidak lagi default untuk. PySpark Verifikasi kompatibilitas dependensi Python Anda.
AWS SDK - AWS SDK v1 untuk Java telah dihapus. Perbarui aplikasi Anda untuk menggunakan AWS SDK v2 untuk meningkatkan kinerja dan manajemen sumber daya.
Akses S3 — EMRFS tidak lagi tersedia. Gunakan konektor S3A untuk menulis data persisten ke Amazon S3 untuk kinerja dan kompatibilitas yang lebih baik. Lihat Optimalkan runtime Amazon EMR untuk Apache Spark dengan EMR S3A. emr-s3-select telah dihapus
. Pengembangan Interaktif — JupyterHub, Zeppelin, dan Hue tidak lagi disertakan. Untuk pengembangan Spark interaktif, gunakan EMR Studio, Livy, dan. JupyterEnterpriseGateway
Kereta rilis terpisah - Label rilis adalah emr-spark-8.0.0, bukan emr-8.0.0. Rilis ini berfokus pada Spark. Untuk Flink, HBase, Phoenix, Tez, Trino, Presto, gunakan EMR 7.x dan tunggu rilis multi-engine emr-8.0.0 future. Babi dan Oozie tidak termasuk.
Titik akhir VPC untuk komunikasi kluster EMR — Dimulai dengan Amazon EMR Spark 8.0.0, Amazon EMR di EC2 menyediakan titik akhir VPC di VPC Anda untuk komunikasi antara layanan EMR Amazon dan klaster Anda saat meluncurkan klaster di subnet pribadi. Peran layanan EMR Amazon Anda harus menyertakan
ec2:CreateVpcEndpointdanec2:ModifyVpcEndpointizin, atau Anda harus membuat titik akhir VPC secara manual sebelum meluncurkan klaster. Nama layanan titik akhir VPC adalah.aws.api.region.emr-service-cell01Perubahan ini memperbarui persyaratan jaringan untuk kluster subnet pribadi:
Grup keamanan akses layanan (
ElasticMapReduce-ServiceAccess), yang dilampirkan ke titik akhir VPC, memerlukan HTTPS masuk (port 443) dari blok CIDR VPC. 8443/9443 Aturan port yang digunakan di Amazon EMR merilis 7.x dan sebelumnya tidak lagi diperlukan.Grup keamanan contoh utama memerlukan HTTPS keluar (port 443) ke grup keamanan akses layanan.
Aturan port masuk 8443 dan port keluar 9443 yang digunakan di Amazon EMR merilis 7.x dan sebelumnya tidak lagi diperlukan pada grup keamanan instance primer, inti, dan tugas.
Jika Anda menggunakan kebijakan titik akhir VPC khusus untuk Amazon S3, Anda harus mengizinkan akses ke bucket data instans EMR Amazon (dan).
aws157-instance-data-0-prod-regionaws157-instance-data-1-prod-region
Untuk informasi selengkapnya, lihat kluster EMR di subnet pribadi, grup keamanan EMR-managed Amazon, dan kebijakan Minimum Amazon S3 untuk subnet pribadi di Panduan Manajemen EMR Amazon.
emr-spark-8.0.0 versi Java standar
| Aplikasi | Versi Java/Amazon Corretto (default tebal) |
|---|---|
| Spark | 17, 21 |
| Livy | 17, 11, 8 |
| Hadoop | 17, 11, 8 |
versi komponen emr-spark-8.0.0
Komponen yang diinstal oleh Amazon EMR dengan rilis ini tercantum di bawah ini. Beberapa komponen diinstal sebagai bagian dari paket aplikasi big data. Sedangkan komponen lainnya bersifak unik untuk Amazon EMR dan diinstal untuk proses sistem dan fitur. Ini biasanya dimulai dengan emr atauaws. Big-data paket aplikasi dalam rilis EMR Amazon terbaru biasanya merupakan versi terbaru yang ditemukan di komunitas. Kami menyediakan rilis komunitas di Amazon EMR secepat mungkin.
Beberapa komponen yang ada di Amazon EMR berbeda dari versi komunitas. Komponen ini mempunyai label versi dalam bentuk . CommunityVersion-amzn-EmrVersion dimulai dari 0. Misalnya, jika komponen komunitas open source bernama EmrVersionmyapp-component dengan versi 2.2 telah dimodifikasi tiga kali untuk dimasukkan dalam rilis EMR Amazon yang berbeda, versi rilisnya terdaftar sebagai. 2.2-amzn-2
| Komponen | Versi | Deskripsi |
|---|---|---|
| adot-java-agent | 1.31.0 | Agen Java yang mengumpulkan metrik dari daemon aplikasi. |
| delta | 4.0.0-amzn-1-percikan | Danau Delta adalah format tabel terbuka untuk kumpulan data analitik yang sangat besar |
| emr-amazon-cloudwatch-agent | 1.300032.2-amzn-0 | Aplikasi yang mengumpulkan metrik tingkat sistem internal dan metrik aplikasi khusus dari instans Amazon EC2. |
| emr-ddb | 6.0.0 | Konektor Amazon DynamoDB untuk aplikasi ekosistem Hadoop. |
| emr-goodies | 3.22.0-percikan | Perpustakaan kenyamanan ekstra untuk ekosistem Hadoop. |
| emr-notebook-env | 1.18.0 | Conda env untuk emr notebook yang mencakup gateway jupyter korporasi |
| emr-s3-dist-cp | 2.44.0 | Aplikasi salinan terdistribusi yang dioptimalkan untuk Amazon S3. |
| hadoop-client | 3.4.2-amzn-1 | Klien baris perintah Hadoop seperti 'hdfs', 'Hadoop', atau 'yarn'. |
| hadoop-hdfs-datanode | 3.4.2-amzn-1 | Layanan tingkat simpul HDFS untuk menyimpan blok. |
| hadoop-hdfs-library | 3.4.2-amzn-1 | Klien dan perpustakaan baris perintah HDFS |
| hadoop-hdfs-namenode | 3.4.2-amzn-1 | Layanan HDFS untuk melacak nama file dan lokasi blok. |
| hadoop-hdfs-zkfc | 3.4.2-amzn-1 | Layanan ZKFC untuk melacak namenodes untuk mode HA. |
| hadoop-hdfs-journalnode | 3.4.2-amzn-1 | Layanan HDFS untuk mengelola jurnal filesystem Hadoop pada klaster HA. |
| hadoop-httpfs-server | 3.4.2-amzn-1 | Titik akhir HTTP untuk operasi HDFS. |
| hadoop-kms-server | 3.4.2-amzn-1 | Server manajemen kunci kriptografi berdasarkan API Hadoop. KeyProvider |
| hadoop-mapred | 3.4.2-amzn-1 | MapReduce pustaka mesin eksekusi untuk menjalankan MapReduce aplikasi. |
| hadoop-yarn-nodemanager | 3.4.2-amzn-1 | Layanan YARN untuk mengelola kontainer pada simpul individu. |
| hadoop-yarn-resourcemanager | 3.4.2-amzn-1 | Layanan YARN untuk mengalokasikan dan mengelola sumber daya klaster dan aplikasi terdistribusi. |
| hadoop-yarn-timeline-server | 3.4.2-amzn-1 | Layanan untuk mengambil informasi terkini dan historis untuk aplikasi YARN. |
| hudi | 1.1.0-amzn-0 | Kerangka pemrosesan tambahan untuk memberi daya pada pipa data pada latensi rendah dan efisiensi tinggi. |
| hudi-spark | 1.1.0-amzn-0 | Perpustakaan paket untuk menjalankan Spark dengan Hudi. |
| iceberg | 1.10.1-amzn-0 | Apache Iceberg adalah format tabel terbuka untuk kumpulan data analitik besar |
| livy-server | 0.8.0-inkubasi | Antarmuka REST untuk berinteraksi dengan Apache Spark |
| nginx | 1.12.1 | nginx [engine x] adalah server HTTP dan server proksi balik |
| mariadb-server | 5.5.68+ | Server basis data MariaDB. |
| nvidia-cuda | 12.5.0 | Driver Nvidia dan kit alat Cuda |
| r | 4.3.2 | Proyek R untuk Komputasi Statistik |
| spark-client | 4.0.2-amzn-0 | Klien baris perintah Spark. |
| spark-history-server | 4.0.2-amzn-0 | Web UI untuk melihat log acara untuk seluruh masa pakai aplikasi Spark. |
| spark-on-yarn | 4.0.2-amzn-0 | In-memory mesin eksekusi untuk YARN. |
| spark-yarn-slave | 4.0.2-amzn-0 | Perpustakaan Apache Spark yang dibutuhkan oleh slave YARN. |
| spark-rapids | 26.02.2-amzn-0 | Plugin Nvidia Spark RAPIDS yang mempercepat Apache Spark dengan GPU. |
| zookeeper-server | 3.9.3-amzn-6 | Layanan terpusat untuk menjaga informasi konfigurasi, penamaan, yang menyediakan sinkronisasi terdistribusi, dan menyediakan layanan grup. |
| zookeeper-client | 3.9.3-amzn-6 | ZooKeeper klien baris perintah. |
klasifikasi konfigurasi emr-spark-8.0.0
Klasifikasi konfigurasi memungkinkan Anda menyesuaikan aplikasi. Ini sering kali bersesuaian dengan file XML konfigurasi untuk aplikasi, seperti hive-site.xml. Untuk informasi selengkapnya, lihat Konfigurasikan aplikasi.
Tindakan konfigurasi ulang terjadi ketika Anda menentukan konfigurasi untuk grup instans di klaster yang sedang berjalan. Amazon EMR hanya memulai tindakan konfigurasi ulang untuk klasifikasi yang Anda modifikasi. Untuk informasi selengkapnya, lihat Lakukan konfigurasi ulang pada grup instans di klaster yang sedang berjalan.
| Klasifikasi | Deskripsi | Tindakan Konfigurasi Ulang |
|---|---|---|
capacity-scheduler | Ubah nilai dalam file capacity-scheduler.xml Hadoop. | Restarts the ResourceManager service. |
container-executor | Ubah nilai dalam file container-executor.cfg Hadoop YARN ini. | Not available. |
container-log4j | Ubah nilai dalam file container-log4j.properties Hadoop YARN. | Not available. |
core-site | Ubah nilai dalam file core-site.xml Hadoop. | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer. |
docker-conf | Ubah pengaturan terkait docker. | Not available. |
hadoop-env | Ubah nilai dalam lingkungan Hadoop untuk semua komponen Hadoop. | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer. |
hadoop-log4j | Ubah nilai dalam file log4j.properties Hadoop ini. | Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer. |
hadoop-ssl-server | Ubah konfigurasi server ssl hadoop | Not available. |
hadoop-ssl-client | Ubah konfigurasi klien ssl hadoop | Not available. |
hdfs-encryption-zones | Konfigurasikan zona enkripsi HDFS. | This classification should not be reconfigured. |
hdfs-env | Ubah nilai dalam lingkungan HDFS. | Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC. |
hdfs-site | Ubah nilai dalam hdfs-site.xml HDFS. | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs. |
httpfs-env | Ubah nilai di lingkungan HTTPFS. | Restarts Hadoop Httpfs service. |
httpfs-site | Ubah nilai dalam file httpfs-site.xml Hadoop. | Restarts Hadoop Httpfs service. |
hadoop-kms-acls | Ubah nilai dalam file kms-acls.xml Hadoop. | Not available. |
hadoop-kms-env | Ubah nilai dalam lingkungan Hadoop KMS. | Restarts Hadoop-KMS service. |
hadoop-kms-java-home | Ubah rumah java KMS Hadoop | Not available. |
hadoop-kms-log4j | Ubah nilai dalam file kms-log4j.properties Hadoop. | Not available. |
hadoop-kms-site | Ubah nilai dalam file kms-site.xml Hadoop. | Restarts Hadoop-KMS. |
hudi-env | Ubah nilai di lingkungan Hudi. | Not available. |
hudi-defaults | Ubah nilai dalam file hudi-defaults.conf Hudi. | Not available. |
iceberg-defaults | Ubah nilai dalam file iceberg-defaults.conf Iceberg. | Not available. |
delta-defaults | Ubah nilai dalam file delta-defaults.conf Delta. | Not available. |
jupyter-notebook-conf | Ubah nilai dalam file jupyter_notebook_config.py Jupyter Notebook. | Not available. |
jupyter-s3-conf | Konfigurasikan persistensi Jupyter Notebook S3. | Not available. |
jupyter-sparkmagic-conf | Ubah nilai dalam file config.json Sparkmagic. | Not available. |
livy-conf | Ubah nilai dalam file livy.conf Livy. | Restarts Livy Server. |
livy-env | Ubah nilai di lingkungan Livy. | Restarts Livy Server. |
livy-log4j2 | Ubah pengaturan Livy log4j2.properties. | Restarts Livy Server. |
mapred-env | Ubah nilai di lingkungan MapReduce aplikasi. | Restarts Hadoop MapReduce-HistoryServer. |
mapred-site | Ubah nilai dalam file mapred-site.xml MapReduce aplikasi. | Restarts Hadoop MapReduce-HistoryServer. |
spark | EMR-curated Pengaturan Amazon untuk Apache Spark. | This property modifies spark-defaults. See actions there. |
spark-defaults | Ubah nilai dalam file spark-defaults.conf Spark. | Restarts Spark history server and Spark thrift server. |
spark-env | Ubah nilai di lingkungan Spark. | Restarts Spark history server and Spark thrift server. |
spark-hive-site | Ubah nilai dalam file hive-site.xml Spark | Not available. |
spark-log4j2 | Ubah nilai dalam file log4j2.properties Spark. | Restarts Spark history server and Spark thrift server. |
spark-metrics | Ubah nilai dalam file metrics.properties Spark. | Restarts Spark history server and Spark thrift server. |
yarn-env | Ubah nilai di lingkungan YARN. | Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer. |
yarn-site | Ubah nilai dalam file yarn-site.xml YARN. | Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer. |
zookeeper-config | Ubah nilai dalam ZooKeeper file zoo.cfg. | Restarts Zookeeper server. |
zookeeper-logback | Ubah nilai dalam ZooKeeper file logback.xml. | Restarts Zookeeper server. |
cloudwatch-logs | Konfigurasikan integrasi CloudWatch Log untuk node cluster EMR. | Not available. |
emr-metrics | Ubah pengaturan metrik emr untuk node ini. | Restarts the CloudWatchAgent service. |
EMR Spark 8.0.0 perubahan log
| Date | Peristiwa | Deskripsi |
|---|---|---|
| 2026-05-21 | Publikasi Docs | Amazon EMR Spark 8.0.0 (emr-spark-8.0.0) catatan rilis pertama kali diterbitkan |