Menanyakan data lake Anda

Anda dapat menggunakan Amazon Redshift untuk menanyakan data di Amazon S3 tanpa harus memuat data ke dalam tabel Amazon Redshift. Amazon Redshift menyediakan kemampuan SQL yang dirancang untuk pemrosesan analitik online cepat (OLAP) dari kumpulan data yang sangat besar yang disimpan di cluster Amazon Redshift dan danau data Amazon S3. Anda dapat menanyakan data dalam banyak format, termasuk Iceberg, Parquet, ORC, RCFile,,,, OpenCSV TextFile SequenceFile, RegexSerde dan AVRO. Untuk menentukan struktur file di Amazon S3, Anda membuat skema dan tabel eksternal. Kemudian, Anda menggunakan katalog data eksternal seperti AWS Glue atau metastore Apache Hive Anda sendiri. Perubahan pada salah satu jenis katalog data segera tersedia untuk salah satu kluster Amazon Redshift Anda.

Setelah data Anda terdaftar dengan Katalog AWS Glue Data dan diaktifkan AWS Lake Formation, Anda dapat mulai menanyakan data lake Anda.

Anda dapat mempartisi tabel eksternal pada satu atau lebih kolom untuk mengoptimalkan kinerja kueri melalui penghapusan partisi. Anda dapat menanyakan dan menggabungkan tabel eksternal dengan tabel Amazon Redshift. Anda dapat mengakses tabel eksternal dari beberapa kluster Amazon Redshift dan menanyakan data Amazon S3 dari cluster mana pun di Wilayah yang sama. AWS Saat Anda memperbarui file data Amazon S3, data akan segera tersedia untuk kueri dari salah satu cluster Amazon Redshift Anda.

Menggunakan mesin kueri data lake terintegrasi untuk RG dan Redshift Serverless

Cluster Amazon Redshift RG dan Amazon Redshift Serverless menyertakan mesin kueri data lake terintegrasi yang berjalan pada sumber daya komputasi cluster sendiri, memberikan pengalaman terpadu untuk kasus penggunaan data lake dan gudang data.

Mesin kueri data lake terintegrasi menghilangkan persyaratan untuk menggunakan Redshift Spectrum dan menghilangkan muatan Redshift Spectrum terkait. Tidak diperlukan konfigurasi tambahan untuk mengaktifkan mesin kueri data lake terintegrasi karena diaktifkan secara default.

catatan

Dalam beberapa kasus, Anda mungkin mengamati kinerja yang lebih lambat pada RG dibandingkan dengan cluster RA3 yang menjalankan Redshift Spectrum, yang menskalakan secara independen menggunakan sumber daya komputasi khusus. Jika Anda mengamati kinerja kueri yang lebih lambat, pertimbangkan untuk menambahkan lebih banyak node atau meningkatkan ke ukuran instans RG yang lebih besar.

Menggunakan Redshift Spectrum untuk DC2 dan RA3

Pada cluster yang disediakan DC2 dan RA3, Redshift Spectrum berada di server Amazon Redshift khusus yang independen dari cluster Anda. Redshift Spectrum mendorong banyak tugas komputasi intensif, seperti penyaringan predikat dan agregasi, ke lapisan Redshift Spectrum. Redshift Spectrum juga menskalakan secara cerdas untuk memanfaatkan pemrosesan paralel secara masif.

Untuk informasi selengkapnya tentang Redshift Spectrum, termasuk cara bekerja dengan Redshift Spectrum dan data lake, lihat Memulai Amazon Redshift Spectrum di Amazon Redshift Database Developer Guide.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Kueri data tidak ada di database Amazon Redshift Anda

Meminta sumber data jarak jauh