Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris. # Pertimbangan untuk ekspor snapshot cluster DB ## Batasan Batasan berikut berlaku untuk ekspor data snapshot DB ke Amazon S3: + Anda tidak dapat menjalankan beberapa tugas ekspor untuk snapshot klaster DB yang sama secara bersamaan. Batasan ini berlaku untuk ekspor penuh dan sebagian. + Anda dapat memiliki hingga lima tugas ekspor snapshot DB bersamaan yang sedang berlangsung per. Akun AWS + Ekspor ke S3 tidak mendukung awalan S3 yang berisi titik dua (:). + Karakter berikut di jalur file S3 akan diubah menjadi garis bawah (\_) selama ekspor berlangsung: ``` \ ` " (space) ``` + Jika basis data, skema, atau tabel memiliki karakter dalam namanya selain yang berikut ini, maka ekspor parsial tidak didukung. Namun, Anda dapat mengekspor seluruh snapshot DB. + Huruf latin (A-Z) + Digit (0–9) + Simbol dolar ($) + Garis bawah (\_) + Spasi ( ) dan karakter-karakter tertentu tidak didukung dalam nama kolom tabel basis data. Tabel yang nama kolomnya berisi karakter berikut akan dilewati selama ekspor berlangsung: ``` , ; { } ( ) \n \t = (space) ``` + Tabel yang namanya berisi garis miring (/) akan dilewati selama ekspor berlangsung. + Tabel Aurora PostgreSQL yang bersifat sementara dan tidak tercatat akan dilewati selama ekspor berlangsung. + Jika data berisi objek besar, seperti BLOB atau CLOB, yang berukuran mendekati atau lebih dari 500 MB, maka ekspornya akan gagal. + Jika suatu tabel berisi baris besar yang berukuran mendekati atau lebih dari 2 GB, maka tabel tersebut akan dilewati selama ekspor berlangsung. + Untuk ekspor sebagian, `ExportOnly` daftar memiliki ukuran maksimum 200 KB. + Sebaiknya Anda menggunakan nama unik untuk setiap tugas ekspor. Jika tidak menggunakan nama tugas yang unik, Anda mungkin menerima pesan kesalahan berikut: ExportTaskAlreadyExistsFault: Terjadi kesalahan (ExportTaskAlreadyExists) saat memanggil StartExportTask operasi: Tugas ekspor dengan ID {{xxxxx}} sudah ada. + Anda dapat menghapus snapshot saat sedang mengekspor datanya ke S3, tetapi Anda masih dikenai biaya penyimpanan untuk snapshot tersebut hingga tugas ekspor selesai. + Anda tidak dapat memulihkan data snapshot yang diekspor dari S3 ke klaster DB baru. ## Konvensi penamaan file Data yang diekspor untuk tabel tertentu disimpan dalam format `{{base_prefix}}/{{files}}`, dengan prefiks dasar sebagai berikut: ``` {{export_identifier}}/{{database_name}}/{{schema_name}}.{{table_name}}/ ``` Contohnya: ``` export-1234567890123-459/rdststdb/rdststdb.DataInsert_7ADB5D19965123A2/ ``` Ada dua konvensi cara penamaan file. + Konvensi saat ini: ``` {{batch_index}}/part-{{partition_index}}-{{random_uuid}}.{{format-based_extension}} ``` Indeks batch adalah nomor urut yang mewakili batch data yang dibaca dari tabel. Jika kami tidak dapat mempartisi tabel Anda menjadi bagian-bagian kecil untuk diekspor secara paralel, akan ada beberapa indeks batch. Hal yang sama akan terjadi jika tabel Anda dipartisi menjadi beberapa tabel. Beberapa indeks batch akan tersedia, dengan satu untuk setiap partisi tabel dari tabel utama Anda. Jika kami dapat mempartisi tabel Anda menjadi bagian-bagian kecil yang akan dibaca secara paralel, hanya akan ada folder `1` indeks batch. Di dalam folder indeks batch, akan ada satu atau beberapa file Parquet yang berisi data tabel Anda. Prefiks file Parket adalah `part-{{partition_index}}`. Jika tabel Anda dipartisi, akan ada beberapa file yang diawali dengan indeks partisi `00000`. Mungkin ada kesenjangan dalam urutan indeks partisi. Hal ini terjadi karena setiap partisi diperoleh dari kueri dengan rentang di tabel Anda. Jika tidak ada data dalam rentang partisi tersebut, maka nomor urut itu akan dilewati. Misalnya, anggap kolom `id` adalah kunci primer tabel, dan nilai minimum dan maksimumnya adalah `100` dan `1000`. Saat kami mencoba mengekspor tabel ini dengan sembilan partisi, kami membacanya dengan kueri paralel seperti berikut: ``` SELECT * FROM table WHERE id <= 100 AND id < 200 SELECT * FROM table WHERE id <= 200 AND id < 300 ``` Partisi ini akan menghasilkan sembilan file, dari `part-00000-{{random_uuid}}.gz.parquet` hingga `part-00008-{{random_uuid}}.gz.parquet`. Namun, jika tidak ada baris dengan ID antara `200` dan `350`, maka salah satu partisi yang telah selesai akan kosong, dan tidak ada file yang dibuat untuk partisi itu. Dalam contoh sebelumnya, `part-00001-{{random_uuid}}.gz.parquet` tidak dibuat. + Konvensi yang lebih lama: ``` part-{{partition_index}}-{{random_uuid}}.{{format-based_extension}} ``` Konvensi ini sama seperti konvensi saat ini, tetapi tanpa prefiks `{{batch_index}}`, contohnya: ``` part-00000-c5a881bb-58ff-4ee6-1111-b41ecff340a3-c000.gz.parquet part-00001-d7a881cc-88cc-5ab7-2222-c41ecab340a4-c000.gz.parquet part-00002-f5a991ab-59aa-7fa6-3333-d41eccd340a7-c000.gz.parquet ``` Konvensi penamaan file dapat berubah sewaktu-waktu. Oleh karena itu, saat membaca tabel target, sebaiknya baca segala sesuatu di dalam prefiks dasar untuk tabel tersebut. ## Konversi data saat mengekspor ke bucket Amazon S3 Saat Anda mengekspor snapshot DB ke bucket Amazon S3 Amazon Aurora akan mengonversi data ke, mengekspor data dalam, dan menyimpan data dalam format Parquet. Untuk informasi selengkapnya tentang Parquet, lihat situs web [Apache Parquet](https://parquet.apache.org/docs/). Parquet menyimpan semua data sebagai salah satu jenis primitif berikut: + BOOLEAN + INT32 + INT64 + INT96 + FLOAT + DOUBLE + BYTE\_ARRAY – Array byte dengan panjang variabel, juga dikenal sebagai biner + FIXED\_LEN\_BYTE\_ARRAY – Array byte dengan panjang tetap yang digunakan saat nilai memiliki ukuran konstan Jenis data Parquet berjumlah sedikit untuk mengurangi kerumitan membaca dan menulis format. Parquet menyediakan jenis logis untuk memperluas jenis primitif. *Jenis logis* diimplementasikan sebagai anotasi dengan data di kolom metadata `LogicalType`. Anotasi jenis logis menjelaskan cara menginterpretasikan jenis primitif. Ketika tipe `STRING` logis membubuhi keterangan `BYTE_ARRAY` tipe, ini menunjukkan bahwa array byte harus ditafsirkan sebagai string karakter yang UTF-8 dikodekan. Setelah tugas ekspor selesai, Amazon Aurora akan memberi tahu Anda jika terjadi konversi string. Data dasar yang diekspor selalu sama seperti data dari sumbernya. Namun, karena perbedaan pengkodean UTF-8, beberapa karakter mungkin tampak berbeda dari sumbernya saat dibaca di alat seperti Athena. Untuk informasi selengkapnya, lihat [Parquet logical type definitions](https://github.com/apache/parquet-format/blob/master/LogicalTypes.md) dalam dokumentasi Parquet. **Topics** + [Pemetaan jenis data MySQL ke Parquet](#aurora-export-snapshot.data-types.MySQL) + [Pemetaan jenis data PostgreSQL ke Parquet](#aurora-export-snapshot.data-types.PostgreSQL) ### Pemetaan jenis data MySQL ke Parquet Tabel berikut menunjukkan pemetaan dari jenis data MySQL ke jenis data Parquet saat data dikonversi dan diekspor ke Amazon S3.

Jenis data sumber	Jenis primitif Parquet	Anotasi jenis logis	Catatan konversi
Jenis data numerik
BIGINT	INT64
BIGINT UNSIGNED	FIXED\_LEN\_BYTE\_ARRAY(9)	DECIMAL(20,0)	Parquet hanya mendukung jenis yang ditandatangani, sehingga pemetaannya memerlukan tambahan byte (8 plus 1) untuk menyimpan jenis BIGINT\_UNSIGNED.
BIT	BYTE\_ARRAY
DECIMAL	INT32	DECIMAL(p,s)	Jika nilai sumber kurang dari 231, maka nilai tersebut akan disimpan sebagai INT32.
	INT64	DECIMAL(p,s)	Jika nilai sumber adalah 231 atau lebih besar, tetapi kurang dari 263, maka nilai tersebut akan disimpan sebagai INT64.
	FIXED\_LEN\_BYTE\_ARRAY(N)	DECIMAL(p,s)	Jika nilai sumber adalah 263 atau lebih besar, maka nilai tersebut akan disimpan sebagai FIXED\_LEN\_BYTE\_ARRAY(N).
	BYTE\_ARRAY	STRING	Parquet tidak mendukung presisi Desimal yang lebih besar dari 38. Nilai Desimal akan dikonversi menjadi string dalam jenis BYTE\_ARRAY dan dienkode sebagai UTF8.
DOUBLE	DOUBLE
FLOAT	DOUBLE
INT	INT32
INT UNSIGNED	INT64
MEDIUMINT	INT32
MEDIUMINT UNSIGNED	INT64
NUMERIC	INT32	DECIMAL(p,s)	Jika nilai sumber kurang dari 231, maka nilai tersebut akan disimpan sebagai INT32.
	INT64	DECIMAL(p,s)	Jika nilai sumber adalah 231 atau lebih besar, tetapi kurang dari 263, maka nilai tersebut akan disimpan sebagai INT64.
	FIXED\_LEN\_ARRAY(N)	DECIMAL(p,s)	Jika nilai sumber adalah 263 atau lebih besar, maka nilai tersebut akan disimpan sebagai FIXED\_LEN\_BYTE\_ARRAY(N).
	BYTE\_ARRAY	STRING	Parquet tidak mendukung presisi Numerik yang lebih besar dari 38. Nilai Numerik ini akan dikonversi menjadi string dalam jenis BYTE\_ARRAY dan dienkode sebagai UTF8.
SMALLINT	INT32
SMALLINT UNSIGNED	INT32
TINYINT	INT32
TINYINT UNSIGNED	INT32	INT (16, benar)
Jenis data string
BINARY	BYTE\_ARRAY
BLOB	BYTE\_ARRAY
CHAR	BYTE\_ARRAY
ENUM	BYTE\_ARRAY	STRING
LINESTRING	BYTE\_ARRAY
LONGBLOB	BYTE\_ARRAY
LONGTEXT	BYTE\_ARRAY	STRING
MEDIUMBLOB	BYTE\_ARRAY
MEDIUMTEXT	BYTE\_ARRAY	STRING
MULTILINESTRING	BYTE\_ARRAY
SET	BYTE\_ARRAY	STRING
TEXT	BYTE\_ARRAY	STRING
TINYBLOB	BYTE\_ARRAY
TINYTEXT	BYTE\_ARRAY	STRING
VARBINARY	BYTE\_ARRAY
VARCHAR	BYTE\_ARRAY	STRING
Jenis data tanggal dan waktu
DATE	BYTE\_ARRAY	STRING	Tanggal akan dikonversi menjadi string dalam jenis BYTE\_ARRAY dan dienkode sebagai UTF8.
DATETIME	INT64	TIMESTAMP\_MICROS
TIME	BYTE\_ARRAY	STRING	Jenis TIME akan dikonversi menjadi string dalam jenis BYTE\_ARRAY dan dienkode sebagai UTF8.
TIMESTAMP	INT64	TIMESTAMP\_MICROS
YEAR	INT32
Jenis data geometris
GEOMETRY	BYTE\_ARRAY
GEOMETRYCOLLECTION	BYTE\_ARRAY
MULTIPOINT	BYTE\_ARRAY
MULTIPOLYGON	BYTE\_ARRAY
POINT	BYTE\_ARRAY
POLYGON	BYTE\_ARRAY
Jenis data JSON
JSON	BYTE\_ARRAY	STRING

### Pemetaan jenis data PostgreSQL ke Parquet Tabel berikut menunjukkan pemetaan dari dan jenis data PostgreSQL ke jenis data Parquet saat data dikonversi dan diekspor ke Amazon S3.

Jenis data PostgreSQL	Jenis primitif Parquet	Anotasi jenis logis	Catatan pemetaan
Jenis data numerik
BIGINT	INT64
BIGSERIAL	INT64
DECIMAL	BYTE\_ARRAY	STRING	Jenis DECIMAL akan dikonversi ke string dalam jenis BYTE\_ARRAY dan dienkode sebagai UTF8.Konversi ini dimaksudkan untuk menghindari kerumitan akibat presisi data dan nilai data yang bukan berupa angka (NaN).
DOUBLE PRECISION	DOUBLE
INTEGER	INT32
MONEY	BYTE\_ARRAY	STRING
REAL	FLOAT
SERIAL	INT32
SMALLINT	INT32	INT (16, benar)
SMALLSERIAL	INT32	INT (16, benar)
Jenis data string dan terkait
ARRAY	BYTE\_ARRAY	STRING	Array akan dikonversi menjadi string dan dienkode sebagai BINARY (UTF8). Konversi ini dimaksudkan untuk menghindari kerumitan akibat presisi data, nilai data yang bukan berupa angka (NaN), dan nilai data waktu.
BIT	BYTE\_ARRAY	STRING
BIT VARYING	BYTE\_ARRAY	STRING
BYTEA	BINARY
CHAR	BYTE\_ARRAY	STRING
CHAR(N)	BYTE\_ARRAY	STRING
ENUM	BYTE\_ARRAY	STRING
NAME	BYTE\_ARRAY	STRING
TEXT	BYTE\_ARRAY	STRING
TEXT SEARCH	BYTE\_ARRAY	STRING
VARCHAR(N)	BYTE\_ARRAY	STRING
XML	BYTE\_ARRAY	STRING
Jenis data tanggal dan waktu
DATE	BYTE\_ARRAY	STRING
INTERVAL	BYTE\_ARRAY	STRING
TIME	BYTE\_ARRAY	STRING
TIME WITH TIME ZONE	BYTE\_ARRAY	STRING
TIMESTAMP	BYTE\_ARRAY	STRING
TIMESTAMP WITH TIME ZONE	BYTE\_ARRAY	STRING
Jenis data geometris
BOX	BYTE\_ARRAY	STRING
CIRCLE	BYTE\_ARRAY	STRING
LINE	BYTE\_ARRAY	STRING
LINESEGMENT	BYTE\_ARRAY	STRING
PATH	BYTE\_ARRAY	STRING
POINT	BYTE\_ARRAY	STRING
POLYGON	BYTE\_ARRAY	STRING
Jenis data JSON
JSON	BYTE\_ARRAY	STRING
JSONB	BYTE\_ARRAY	STRING
Jenis data lainnya
BOOLEAN	BOOLEAN
CIDR	BYTE\_ARRAY	STRING	Jenis data jaringan
COMPOSITE	BYTE\_ARRAY	STRING
DOMAIN	BYTE\_ARRAY	STRING
INET	BYTE\_ARRAY	STRING	Jenis data jaringan
MACADDR	BYTE\_ARRAY	STRING
OBJECT IDENTIFIER	N/A
PG\_LSN	BYTE\_ARRAY	STRING
RANGE	BYTE\_ARRAY	STRING
UUID	BYTE\_ARRAY	STRING