Pertimbangan saat menggunakan tabel Apache Iceberg

Menggunakan tabel Apache Iceberg dengan Amazon Redshift

catatan

Untuk mencapai kinerja terbaik saat menggunakan tabel Apache Iceberg dengan Amazon Redshift, Anda harus menghasilkan statistik kolom untuk tabel yang digunakan. AWS Glue Untuk informasi selengkapnya, lihat Menghasilkan statistik kolom untuk tabel Iceberg di Panduan AWS Glue Pengembang.

Topik ini menjelaskan cara menggunakan tabel dalam format Apache Iceberg dengan Amazon Redshift. Apache Iceberg adalah format tabel open-source berkinerja tinggi untuk data lake. Untuk informasi lebih lanjut, lihat Apache Iceberg di dokumentasi Apache Iceberg.

Anda dapat menanyakan tabel Apache Iceberg yang dikatalogkan dengan Amazon Redshift. AWS Glue Data Catalog Jenis instans RG dan Redshift Serverless menggunakan komputasinya sendiri untuk memproses kueri data lake, sedangkan tipe instans RA3 menggunakan Redshift Spectrum. Untuk informasi selengkapnya, lihat Menanyakan Data Lake Anda.

Amazon Redshift memberikan konsistensi transaksional untuk menanyakan tabel Apache Iceberg. Anda dapat memanipulasi data dalam tabel menggunakan layanan yang sesuai dengan ACID (atomisitas, konsistensi, isolasi, daya tahan) seperti Amazon Athena dan Amazon EMR saat menjalankan kueri menggunakan Amazon Redshift. Amazon Redshift dapat menggunakan statistik tabel yang disimpan dalam metadata Apache Iceberg untuk mengoptimalkan paket kueri dan mengurangi pemindaian file selama pemrosesan kueri. Dengan Amazon Redshift SQL, Anda dapat menggabungkan tabel Redshift dengan tabel data lake.

Untuk mulai menggunakan tabel Iceberg dengan Amazon Redshift:

Buat tabel Apache Iceberg pada AWS Glue Data Catalog database menggunakan layanan yang kompatibel seperti Amazon Athena atau Amazon EMR. Untuk membuat tabel Gunung Es menggunakan Athena, lihat Menggunakan tabel Apache Iceberg di Panduan Pengguna Amazon Athena.
Buat klaster Amazon Redshift atau grup kerja Redshift Serverless dengan peran IAM terkait yang memungkinkan akses ke data lake Anda. Untuk informasi tentang cara membuat klaster atau grup kerja, lihat Memulai gudang data yang disediakan Amazon Redshift dan Memulai gudang data Tanpa Server Redshift di Panduan Memulai Pergeseran Merah Amazon.
Connect ke cluster atau workgroup Anda menggunakan query editor v2 atau klien SQL pihak ketiga. Untuk informasi tentang cara menyambung menggunakan editor kueri v2, lihat Menyambungkan ke gudang data Amazon Redshift menggunakan alat klien SQL di Panduan Manajemen Amazon Redshift.
Buat skema eksternal di database Amazon Redshift Anda untuk database Katalog Data tertentu yang menyertakan tabel Iceberg Anda. Untuk informasi tentang membuat skema eksternal, lihatSkema eksternal di Amazon Redshift Spectrum.
Jalankan kueri SQL untuk mengakses tabel Iceberg dalam skema eksternal yang Anda buat.

Pertimbangan saat menggunakan tabel Apache Iceberg dengan Amazon Redshift

Pertimbangkan hal berikut saat menggunakan Amazon Redshift dengan tabel Iceberg:

Dukungan versi Iceberg - Amazon Redshift mendukung kueri yang berjalan terhadap versi tabel Iceberg berikut:
- Versi 1 mendefinisikan bagaimana tabel analitik besar dikelola menggunakan file data yang tidak dapat diubah.
- Versi 2 menambahkan kemampuan untuk mendukung pembaruan dan penghapusan tingkat baris sambil menjaga file data yang ada tidak berubah, dan menangani perubahan data tabel menggunakan file hapus.
Untuk perbedaan antara tabel versi 1 dan versi 2, lihat Format perubahan versi dalam dokumentasi Apache Iceberg.
Menambahkan partisi - Anda tidak perlu menambahkan partisi secara manual untuk tabel Apache Iceberg Anda. Partisi baru dalam tabel Apache Iceberg secara otomatis terdeteksi oleh Amazon Redshift dan tidak diperlukan operasi manual untuk memperbarui partisi dalam definisi tabel. Setiap perubahan dalam spesifikasi partisi juga secara otomatis diterapkan ke kueri Anda tanpa campur tangan pengguna.
Menyerap data Gunung Es ke Amazon Redshift - Anda dapat menggunakan perintah INSERT INTO atau CREATE TABLE AS untuk mengimpor data dari tabel Iceberg ke tabel Amazon Redshift lokal. Saat ini Anda tidak dapat menggunakan perintah COPY untuk menyerap konten tabel Apache Iceberg ke dalam tabel Amazon Redshift lokal.
Tampilan terwujud - Anda dapat membuat tampilan terwujud pada tabel Apache Iceberg seperti tabel eksternal lainnya di Amazon Redshift. Pertimbangan yang sama untuk format tabel data lake lainnya berlaku untuk tabel Apache Iceberg. Penulisan ulang kueri otomatis dan tampilan terwujud otomatis pada tabel data lake saat ini tidak didukung.
AWS Lake Formation kontrol akses berbutir halus - Amazon Redshift mendukung kontrol akses AWS Lake Formation berbutir halus pada tabel Apache Iceberg.
User-defined parameter penanganan data — Amazon Redshift mendukung parameter penanganan data yang ditentukan pengguna pada tabel Apache Iceberg. Anda menggunakan parameter penanganan data yang ditentukan pengguna pada file yang ada untuk menyesuaikan data yang sedang ditanyakan di tabel eksternal untuk menghindari kesalahan pemindaian. Parameter ini memberikan kemampuan untuk menangani ketidakcocokan antara skema tabel dan data aktual pada file. Anda dapat menggunakan parameter penanganan data yang ditentukan pengguna pada tabel Apache Iceberg juga.
Pertanyaan perjalanan waktu — Pertanyaan perjalanan waktu saat ini tidak didukung dengan tabel Apache Iceberg.
Harga — Saat Anda mengakses tabel Iceberg dari klaster RG atau grup kerja Redshift Tanpa Server, kueri data lake berjalan pada sumber daya komputasi cluster atau grup kerja sendiri, sehingga tidak ada biaya terpisah untuk kueri data lake. Saat Anda mengakses tabel Iceberg dari cluster DC2 atau RA3, Anda dikenakan harga Redshift Spectrum. Untuk informasi tentang harga, lihat harga Amazon Redshift.
Metadata caching — Metadata caching mengasumsikan file metadata tidak dapat diubah berdasarkan spesifikasi Iceberg. Kekekalan file metadata adalah persyaratan untuk integritas data di Amazon Redshift.
Identitas federasi — Identitas federasi tidak didukung saat menulis ke tabel Apache Iceberg. Ini termasuk menggunakan kata kunci SESSION untuk parameter IAM_ROLE saat membuat skema eksternal. Untuk informasi selengkapnya tentang parameter IAM_ROLE, lihat MEMBUAT SKEMA EKSTERNAL.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Tabel eksternal

Jenis data yang didukung