Amazon Redshift tidak akan lagi mendukung pembuatan UDF Python baru mulai Patch 198. UDF Python yang ada akan terus berfungsi hingga 30 Juni 2026. Untuk informasi lebih lanjut, lihat posting blog
Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menanyakan data lake Anda
Anda dapat menggunakan Amazon Redshift untuk menanyakan data di Amazon S3 tanpa harus memuat data ke dalam tabel Amazon Redshift. Amazon Redshift menyediakan kemampuan SQL yang dirancang untuk pemrosesan analitik online cepat (OLAP) dari kumpulan data yang sangat besar yang disimpan di cluster Amazon Redshift dan danau data Amazon S3. Anda dapat menanyakan data dalam banyak format, termasuk Iceberg, Parquet, ORC, RCFile,,,, OpenCSV TextFile SequenceFile, RegexSerde dan AVRO. Untuk menentukan struktur file di Amazon S3, Anda membuat skema dan tabel eksternal. Kemudian, Anda menggunakan katalog data eksternal seperti AWS Glue atau metastore Apache Hive Anda sendiri. Perubahan pada salah satu jenis katalog data segera tersedia untuk salah satu kluster Amazon Redshift Anda.
Setelah data Anda terdaftar dengan Katalog AWS Glue Data dan diaktifkan AWS Lake Formation, Anda dapat mulai menanyakan data lake Anda.
Anda dapat mempartisi tabel eksternal pada satu atau lebih kolom untuk mengoptimalkan kinerja kueri melalui penghapusan partisi. Anda dapat menanyakan dan menggabungkan tabel eksternal dengan tabel Amazon Redshift. Anda dapat mengakses tabel eksternal dari beberapa kluster Amazon Redshift dan menanyakan data Amazon S3 dari cluster mana pun di Wilayah yang sama. AWS Saat Anda memperbarui file data Amazon S3, data akan segera tersedia untuk kueri dari salah satu cluster Amazon Redshift Anda.
Menggunakan mesin kueri data lake terintegrasi untuk RG dan Redshift Serverless
Cluster Amazon Redshift RG dan Amazon Redshift Serverless menyertakan mesin kueri data lake terintegrasi yang berjalan pada sumber daya komputasi cluster sendiri, memberikan pengalaman terpadu untuk kasus penggunaan data lake dan gudang data.
Mesin kueri data lake terintegrasi menghilangkan persyaratan untuk menggunakan Redshift Spectrum dan menghilangkan muatan Redshift Spectrum terkait. Tidak diperlukan konfigurasi tambahan untuk mengaktifkan mesin kueri data lake terintegrasi karena diaktifkan secara default.
catatan
Dalam beberapa kasus, Anda mungkin mengamati kinerja yang lebih lambat pada RG dibandingkan dengan cluster RA3 yang menjalankan Redshift Spectrum, yang menskalakan secara independen menggunakan sumber daya komputasi khusus. Jika Anda mengamati kinerja kueri yang lebih lambat, pertimbangkan untuk menambahkan lebih banyak node atau meningkatkan ke ukuran instans RG yang lebih besar.
Menggunakan Redshift Spectrum untuk DC2 dan RA3
Pada cluster yang disediakan DC2 dan RA3, Redshift Spectrum berada di server Amazon Redshift khusus yang independen dari cluster Anda. Redshift Spectrum mendorong banyak tugas komputasi intensif, seperti penyaringan predikat dan agregasi, ke lapisan Redshift Spectrum. Redshift Spectrum juga menskalakan secara cerdas untuk memanfaatkan pemrosesan paralel secara masif.
Untuk informasi selengkapnya tentang Redshift Spectrum, termasuk cara bekerja dengan Redshift Spectrum dan data lake, lihat Memulai Amazon Redshift Spectrum di Amazon Redshift Database Developer Guide.