PySpark mesin versi 3 Apache Spark versi 3.5

Versi rilis

Amazon Athena untuk Apache Spark menawarkan versi rilis berikut:

PySpark mesin versi 3

PySpark versi 3 termasuk Apache Spark versi 3.2.1. Dengan versi ini, Anda dapat menjalankan kode Spark di notebook dalam konsol Athena.

Apache Spark versi 3.5

Apache Spark versi 3.5 didasarkan pada Amazon EMR 7.12 dan paket Apache Spark versi 3.5.6. Dengan versi ini, Anda dapat menjalankan kode Spark dari notebook Amazon SageMaker AI Unified Studio atau klien Spark yang kompatibel pilihan Anda. Versi ini menambahkan fitur utama untuk memberikan pengalaman yang lebih baik untuk beban kerja interaktif:

Secure Spark Connect — Menambahkan Spark Connect sebagai Endpoint yang diautentikasi dan resmi. AWS
Atribusi biaya tingkat sesi — Pengguna dapat melacak biaya per sesi interaktif di AWS Cost Explorer atau laporan Biaya dan Penggunaan. Untuk informasi selengkapnya, lihat Atribusi biaya tingkat sesi.
Kemampuan debugging tingkat lanjut - Menambahkan UI Spark langsung dan dukungan Spark History Server untuk men-debug beban kerja baik dari maupun dari notebook APIs . Untuk informasi selengkapnya, lihat Mengakses UI Spark.
dukungan akses tanpa filter - Akses tabel katalog AWS Glue Data yang dilindungi tempat Anda memiliki izin tabel lengkap. Untuk informasi selengkapnya, lihat Menggunakan Lake Formation dengan kelompok kerja Athena Spark.

Spark properti default

Tabel berikut mencantumkan properti Spark dan nilai defaultnya yang diterapkan untuk Sesi SparkConnect Athena.

Key	Nilai default	Deskripsi
`spark.app.id`	`<Athena SessionId>`	Ini tidak dapat dimodifikasi.
`spark.app.name`	`default`
`spark.driver.cores`	`4`	Jumlah core yang digunakan driver. Ini tidak dapat dimodifikasi selama peluncuran awal.
`spark.driver.memory`	`10g`	Jumlah memori yang digunakan setiap driver. Ini tidak dapat dimodifikasi selama peluncuran awal.
`spark.driver.memoryOverhead`	`6g`	Jumlah overhead memori yang ditetapkan untuk beban kerja Python dan proses lain yang berjalan pada driver. Ini tidak dapat dimodifikasi selama peluncuran awal.
`spark.cortex.driver.disk`	`64g`	Disk driver Spark. Ini tidak dapat dimodifikasi selama peluncuran awal.
`spark.executor.cores`	`4`	Jumlah core yang digunakan setiap eksekutor. Ini tidak dapat dimodifikasi selama peluncuran awal.
`spark.executor.memory`	`10g`	Jumlah memori yang digunakan setiap driver.
`spark.executor.memoryOverhead`	`6g`	Jumlah overhead memori yang ditetapkan untuk beban kerja Python dan proses lain yang berjalan pada eksekutor. Ini tidak dapat dimodifikasi selama peluncuran awal.
`spark.cortex.executor.disk`	`64g`	Disk eksekutor Spark. Ini tidak dapat dimodifikasi selama peluncuran awal.
`spark.cortex.executor.architecture`	`AARCH_64`	Arsitektur pelaksana.
`spark.driver.extraJavaOptions`	-Djava.net.preferIPv6Addresses=false -XX:+IgnoreUnrecognizedVMOptions --add-opens=java.base/java.lang=ALL-UNNAMED --add-opens=java.base/java.lang.invoke=ALL-UNNAMED --add-opens=java.base/java.lang.reflect=ALL-UNNAMED --add-opens=java.base/java.io=ALL-UNNAMED --add-opens=java.base/java.net=ALL-UNNAMED --add-opens=java.base/java.nio=ALL-UNNAMED --add-opens=java.base/java.util=ALL-UNNAMED --add-opens=java.base/java.util.concurrent=ALL-UNNAMED --add-opens=java.base/java.util.concurrent.atomic=ALL-UNNAMED --add-opens=java.base/jdk.internal.ref=ALL-UNNAMED --add-opens=java.base/sun.nio.ch=ALL-UNNAMED --add-opens=java.base/sun.nio.cs=ALL-UNNAMED --add-opens=java.base/sun.security.action=ALL-UNNAMED --add-opens=java.base/sun.util.calendar=ALL-UNNAMED --add-opens=java.security.jgss/sun.security.krb5=ALL-UNNAMED -Djdk.reflect.useDirectMethodHandle=false	Opsi Java ekstra untuk driver Spark. Ini tidak dapat dimodifikasi selama peluncuran awal.
`spark.executor.extraJavaOptions`	-Djava.net.preferIPv6Addresses=false -XX:+IgnoreUnrecognizedVMOptions --add-opens=java.base/java.lang=ALL-UNNAMED --add-opens=java.base/java.lang.invoke=ALL-UNNAMED --add-opens=java.base/java.lang.reflect=ALL-UNNAMED --add-opens=java.base/java.io=ALL-UNNAMED --add-opens=java.base/java.net=ALL-UNNAMED --add-opens=java.base/java.nio=ALL-UNNAMED --add-opens=java.base/java.util=ALL-UNNAMED --add-opens=java.base/java.util.concurrent=ALL-UNNAMED --add-opens=java.base/java.util.concurrent.atomic=ALL-UNNAMED --add-opens=java.base/jdk.internal.ref=ALL-UNNAMED --add-opens=java.base/sun.nio.ch=ALL-UNNAMED --add-opens=java.base/sun.nio.cs=ALL-UNNAMED --add-opens=java.base/sun.security.action=ALL-UNNAMED --add-opens=java.base/sun.util.calendar=ALL-UNNAMED --add-opens=java.security.jgss/sun.security.krb5=ALL-UNNAMED -Djdk.reflect.useDirectMethodHandle=false	Opsi Java ekstra untuk eksekutor Spark. Ini tidak dapat dimodifikasi selama peluncuran awal.
`spark.executor.instances`	`1`	Jumlah kontainer pelaksana Spark untuk dialokasikan.
`spark.dynamicAllocation.enabled`	`TRUE`	Opsi yang mengaktifkan alokasi sumber daya dinamis. Opsi ini menaikkan atau menurunkan jumlah pelaksana yang terdaftar dengan aplikasi, berdasarkan beban kerja.
`spark.dynamicAllocation.minExecutors`	`0`	Batas bawah untuk jumlah pelaksana jika Anda mengaktifkan alokasi dinamis.
`spark.dynamicAllocation.maxExecutors`	`59`	Batas atas untuk jumlah pelaksana jika Anda mengaktifkan alokasi dinamis.
`spark.dynamicAllocation.initialExecutors`	`1`	Jumlah awal pelaksana untuk dijalankan jika Anda mengaktifkan alokasi dinamis.
`spark.dynamicAllocation.executorIdleTimeout`	`60s`	Lamanya waktu seorang eksekutor dapat tetap menganggur sebelum Spark menghapusnya. Ini hanya berlaku jika Anda mengaktifkan alokasi dinamis.
`spark.dynamicAllocation.shuffleTracking.enabled`	`TRUE`	DRA diaktifkan membutuhkan pelacakan acak untuk diaktifkan.
`spark.dynamicAllocation.sustainedSchedulerBacklogTimeout`	`1s`	Timeout menentukan berapa lama penjadwal Spark harus mengamati backlog berkelanjutan dari tugas yang tertunda sebelum memicu permintaan ke manajer cluster untuk meluncurkan eksekutor baru.
`spark.sql.catalogImplementation`	`hive`
`spark.hadoop.hive.metastore.client.factory.class`	`com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory`	Kelas implementasi AWS Glue metastore.
`spark.hadoop.hive.metastore.glue.catalogid`	`<accountId>`	AWS Glue katalog accountID.
`spark.sql.hive.metastore.sharedPrefixes`	`software.amazon.awssdk.services.dynamodb`	Properti menentukan daftar awalan paket yang dipisahkan koma untuk kelas yang harus dimuat oleh Aplikasi ClassLoader daripada yang terisolasi ClassLoader dibuat untuk kode Klien Hive Metastore.
`spark.hadoop.fs.s3.impl`	`org.apache.hadoop.fs.s3a.S3AFileSystem`	Mendefinisikan implementasi untuk klien S3 untuk menggunakan S3A.
`spark.hadoop.fs.s3a.impl`	`org.apache.hadoop.fs.s3a.S3AFileSystem`	Mendefinisikan implementasi untuk klien S3A (S3A).
`spark.hadoop.fs.s3n.impl`	`org.apache.hadoop.fs.s3a.S3AFileSystem`	Mendefinisikan implementasi untuk klien Native S3 (S3N) untuk menggunakan S3A.
`spark.hadoop.fs.AbstractFileSystem.s3.impl`	`org.apache.hadoop.fs.s3a.S3A`
`spark.hadoop.fs.s3a.aws.credentials.provider`	`software.amazon.awssdk.auth.credentials.DefaultCredentialsProvider`
`spark.hadoop.fs.s3.customAWSCredentialsProvider`	`com.amazonaws.auth.DefaultAWSCredentialsProviderChain`
`spark.hadoop.mapreduce.output.fs.optimized.committer.enabled`	`TRUE`	Properti ini memungkinkan protokol komit yang dioptimalkan untuk pekerjaan Spark saat menulis data ke Amazon S3. Ketika disetel ke true, ini membantu Spark menghindari operasi penggantian nama file yang mahal, menghasilkan penulisan atom yang lebih cepat dan lebih andal dibandingkan dengan committer Hadoop default.
`spark.hadoop.fs.s3a.endpoint.region`	`<REGION>`	Konfigurasi ini secara eksplisit menetapkan AWS wilayah untuk bucket Amazon S3 yang diakses melalui klien S3A.
`spark.hadoop.fs.s3.getObject.initialSocketTimeoutMilliseconds`	`2000`	Ini menentukan batas waktu koneksi soket dalam milidetik.
`spark.hadoop.fs.s3a.committer.magic.enabled`	`TRUE`	Ini memungkinkan S3A “Magic” Committer, protokol komit berkinerja tinggi tetapi spesifik yang bergantung pada dukungan manajer klaster yang mendasarinya untuk jalur khusus.
`spark.hadoop.fs.s3a.committer.magic.track.commits.in.memory.enabled`	`TRUE`	Relevan hanya ketika Magic Committer diaktifkan, ini menentukan apakah daftar file yang dilakukan oleh tugas harus dilacak dalam memori alih-alih ditulis ke file disk sementara.
`spark.hadoop.fs.s3a.committer.name`	`magicv2`	Pengaturan ini secara eksplisit memilih algoritma S3A Output Committer tertentu yang akan digunakan (misalnya, direktori, dipartisi, atau sihir). Dengan menentukan nama, Anda memilih strategi yang mengelola data sementara, menangani kegagalan tugas, dan melakukan komit atom akhir ke jalur Amazon S3 target.
`spark.hadoop.fs.s3.s3AccessGrants.enabled`	`FALSE`	Properti memungkinkan dukungan untuk Hibah Akses Amazon S3 saat mengakses data Amazon S3 melalui klien sistem file S3A/EMRFS.
`spark.hadoop.fs.s3.s3AccessGrants.fallbackToIAM`	`FALSE`	Saat Amazon S3 Access Grants diaktifkan, properti ini mengontrol apakah klien Amazon S3 harus kembali ke kredenal IAM tradisional jika pencarian Access Grants gagal atau tidak memberikan izin yang memadai.
`spark.pyspark.driver.python`	`/usr/bin/python3.11`	Jalur Python untuk driver.
`spark.pyspark.python`	`/usr/bin/python3.11`	Jalur Python untuk eksekutor.
`spark.python.use.daemon`	`TRUE`	Konfigurasi ini mengontrol apakah Spark menggunakan proses daemon pekerja Python pada setiap pelaksana. Saat diaktifkan (true, default), pelaksana membuat pekerja Python tetap hidup di antara tugas untuk menghindari overhead peluncuran berulang kali dan menginisialisasi penerjemah Python baru untuk setiap tugas, secara signifikan meningkatkan kinerja aplikasi. PySpark
`spark.sql.execution.arrow.pyspark.enabled`	`TRUE`	Memungkinkan penggunaan Apache Arrow untuk mengoptimalkan transfer data antara proses JVM dan Python di. PySpark
`spark.sql.execution.arrow.pyspark.fallback.enabled`	`TRUE`	Properti konfigurasi yang mengontrol perilaku Spark ketika terjadi kesalahan selama transfer data antara JVM dan Python menggunakan optimasi Apache Arrow.
`spark.sql.parquet.fs.optimized.committer.optimization-enabled`	`TRUE`	Properti konfigurasi yang mengontrol apakah Spark menggunakan file committer yang dioptimalkan saat menulis file Parquet ke sistem file tertentu, khususnya sistem penyimpanan cloud seperti Amazon S3.
`spark.sql.parquet.output.committer.class`	`com.amazon.emr.committer.EmrOptimizedSparkSqlParquetOutputCommitter`	Properti konfigurasi Spark yang menentukan nama kelas sepenuhnya memenuhi syarat dari Hadoop yang akan digunakan saat OutputCommitter menulis file Parket.
`spark.resourceManager.cleanupExpiredHost`	`TRUE`	Properti ini mengontrol apakah Driver secara aktif membersihkan sumber daya aplikasi Spark yang terkait dengan pelaksana yang berjalan pada node yang telah dihapus atau kedaluwarsa.
`spark.blacklist.decommissioning.enabled`	`TRUE`	Properti memungkinkan logika Spark untuk secara otomatis memasukkan daftar hitam pelaksana yang saat ini sedang mengalami dekomisioning (shutdown anggun) oleh manajer cluster. Ini mencegah penjadwal mengirim tugas baru ke pelaksana yang akan keluar, meningkatkan stabilitas pekerjaan selama pengurangan sumber daya.
`spark.blacklist.decommissioning.timeout`	`1h`	Waktu maksimum Spark akan menunggu tugas berhasil dimigrasi dari eksekutor penonaktifan sebelum memasukkan host ke dalam daftar hitam.
`spark.stage.attempt.ignoreOnDecommissionFetchFailure`	`TRUE`	Memberitahu Spark untuk bersikap lunak dan tidak gagal dalam upaya seluruh tahap jika kegagalan pengambilan terjadi saat membaca data shuffle dari eksekutor penonaktifan. Kegagalan pengambilan dianggap dapat dipulihkan, dan Spark akan mengambil kembali data dari lokasi yang berbeda (berpotensi memerlukan perhitungan ulang), memprioritaskan penyelesaian pekerjaan daripada penanganan kesalahan yang ketat selama shutdown yang anggun.
`spark.decommissioning.timeout.threshold`	`20`	Properti ini biasanya digunakan secara internal atau dalam pengaturan pengelola klaster tertentu untuk menentukan durasi total maksimum yang diharapkan oleh Spark untuk proses dekomisioning host. Jika waktu penonaktifan aktual melebihi ambang batas ini, Spark dapat mengambil tindakan agresif, seperti memasukkan host ke dalam daftar hitam atau meminta penghentian paksa, untuk membebaskan sumber daya.
`spark.files.fetchFailure.unRegisterOutputOnHost`	`TRUE`	Ketika tugas gagal mengambil data shuffle atau RDD dari host tertentu, menyetel ini ke true menginstruksikan Spark untuk membatalkan pendaftaran semua blok output yang terkait dengan aplikasi yang gagal pada host tersebut. Hal ini mencegah tugas future dari mencoba mengambil data dari host yang tidak dapat diandalkan, memaksa Spark untuk menghitung ulang blok yang diperlukan di tempat lain dan meningkatkan ketahanan pekerjaan terhadap masalah jaringan intermiten.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Gunakan Apache Spark

Pertimbangan dan batasan