# Conversão de dados ao exportar para um bucket do Amazon S3 para RDS Quando você exporta um snapshot de banco de dados para um bucket do Amazon S3, o Amazon RDS converte os dados para o formato Parquet e exporta e armazena os dados nesse formato. Para ter mais informações sobre o Parquet, consulte o site [Apache Parquet](https://parquet.apache.org/docs/). O Parquet armazena todos os dados como um dos seguintes tipos primitivos: + BOOLEAN + INT32 + INT64 + INT96 + FLOAT + DOUBLE + BYTE\_ARRAY: uma matriz de bytes de comprimento variável, também conhecida como binário + FIXED\_LEN\_BYTE\_ARRAY: uma matriz de bytes de comprimento fixo usada quando os valores têm um tamanho constante Os tipos de dados Parquet são poucos para reduzir a complexidade de leitura e gravação do formato. O Parquet fornece tipos lógicos para estender os tipos primitivos. Um *tipo lógico* é implementado como uma anotação com os dados em um campo de metadados `LogicalType`. A anotação de tipo lógico explica como interpretar o tipo primitivo. Quando o tipo lógico `STRING` anota um tipo `BYTE_ARRAY`, ele indica que a matriz de bytes deve ser interpretada como uma string de caracteres codificada em UTF-8. Depois que uma tarefa de exportação é concluída, o Amazon RDS notifica você no caso de ocorrência de uma conversão de string. Os dados subjacentes exportados são sempre os mesmos que os dados da origem. No entanto, devido à diferença de codificação em UTF-8, alguns caracteres podem aparecer diferentes da fonte quando lidos em ferramentas como a Athena. Para ter mais informações, consulte [Definições de tipos lógicos do Parquet](https://github.com/apache/parquet-format/blob/master/LogicalTypes.md) na documentação do Parquet. **Topics** + [Mapeamento de tipos de dados MySQL e MariaDB para o Parquet](#USER_ExportSnapshot.data-types.MySQL) + [Mapeamento de tipo de dados PostgreSQL para Parquet](#USER_ExportSnapshot.data-types.PostgreSQL) ## Mapeamento de tipos de dados MySQL e MariaDB para o Parquet A tabela a seguir mostra o mapeamento dos tipos de dados MySQL e MariaDB para tipos de dados Parquet quando os dados são convertidos e exportados para o Amazon S3.

Tipo de dados de origem	Tipo primitivo do Parquet	Anotação de tipo lógico	Notas de conversão
Tipos de dados numéricos
BIGINT	INT64
BIGINT UNSIGNED	FIXED\_LEN\_BYTE\_ARRAY(9)	DECIMAL(20,0)	O Parquet é compatível apenas com tipos assinados, portanto, o mapeamento requer um byte adicional (8 mais 1) para armazenar o tipo BIGINT\_UNSIGNED.
BIT	BYTE\_ARRAY
DECIMAL	INT32	DECIMAL (p,s)	Se o valor de origem for menor que 231, ele será armazenado como INT32.
	INT64	DECIMAL (p,s)	Se o valor de origem for 231 ou maior, mas inferior a 263, ele será armazenado como INT64.
	FIXED\_LEN\_BYTE\_ARRAY(N)	DECIMAL (p,s)	Se o valor de origem for 263 ou superior, ele será armazenado como FIXED\_LEN\_BYTE\_ARRAY(N).
	BYTE\_ARRAY	STRING	O Parquet não é compatível com precisão decimal maior que 38. O valor decimal é convertido em uma string em um tipo BYTE\_ARRAY e codificado como UTF8.
DOUBLE	DOUBLE
FLOAT	DOUBLE
INT	INT32
INT UNSIGNED	INT64
MEDIUMINT	INT32
MEDIUMINT UNSIGNED	INT64
NUMERIC	INT32	DECIMAL (p,s)	Se o valor de origem for menor que 231, ele será armazenado como INT32.
	INT64	DECIMAL (p,s)	Se o valor de origem for 231 ou maior, mas inferior a 263, ele será armazenado como INT64.
	FIXED\_LEN\_ARRAY(N)	DECIMAL (p,s)	Se o valor de origem for 263 ou superior, ele será armazenado como FIXED\_LEN\_BYTE\_ARRAY(N).
	BYTE\_ARRAY	STRING	O Parquet não é compatível com precisão numérica maior que 38. Esse valor numérico é convertido em uma string em um tipo BYTE\_ARRAY e codificado como UTF8.
SMALLINT	INT32
SMALLINT UNSIGNED	INT32
TINYINT	INT32
TINYINT UNSIGNED	INT32	INT(16, true)
Tipos de dados de string
BINARY	BYTE\_ARRAY
BLOB	BYTE\_ARRAY
CHAR	BYTE\_ARRAY
ENUM	BYTE\_ARRAY	STRING
LINESTRING	BYTE\_ARRAY
LONGBLOB	BYTE\_ARRAY
LONGTEXT	BYTE\_ARRAY	STRING
MEDIUMBLOB	BYTE\_ARRAY
MEDIUMTEXT	BYTE\_ARRAY	STRING
MULTILINESTRING	BYTE\_ARRAY
SET	BYTE\_ARRAY	STRING
TEXT	BYTE\_ARRAY	STRING
TINYBLOB	BYTE\_ARRAY
TINYTEXT	BYTE\_ARRAY	STRING
VARBINARY	BYTE\_ARRAY
VARCHAR	BYTE\_ARRAY	STRING
Tipos de dados de data e hora
DATE	BYTE\_ARRAY	STRING	Uma data é convertida em uma string em um tipo BYTE\_ARRAY e codificada como UTF8.
DATETIME	INT64	TIMESTAMP\_MICROS
TIME	BYTE\_ARRAY	STRING	Um tipo TIME é convertido em uma string em um BYTE\_ARRAY e codificado como UTF8.
TIMESTAMP	INT64	TIMESTAMP\_MICROS
YEAR	INT32
Tipos de dados geométricos
GEOMETRY	BYTE\_ARRAY
GEOMETRYCOLLECTION	BYTE\_ARRAY
MULTIPOINT	BYTE\_ARRAY
MULTIPOLYGON	BYTE\_ARRAY
POINT	BYTE\_ARRAY
POLYGON	BYTE\_ARRAY
Tipo de dados do JSON
JSON	BYTE\_ARRAY	STRING

## Mapeamento de tipo de dados PostgreSQL para Parquet A tabela a seguir mostra o mapeamento de tipos de dados PostgreSQL para tipos de dados Parquet quando os dados são convertidos e exportados para o Amazon S3.

Tipo de dados do PostgreSQL	Tipo primitivo do Parquet	Anotação de tipo lógico	Notas de mapeamento
Tipos de dados numéricos
BIGINT	INT64
BIGSERIAL	INT64
DECIMAL	BYTE\_ARRAY	STRING	Um tipo DECIMAL é convertido em uma string em um tipo BYTE\_ARRAY e codificado como UTF8.Essa conversão é para evitar complicações devido à precisão dos dados e valores de dados que não são um número (NaN).
DOUBLE PRECISION	DOUBLE
INTEGER	INT32
MONEY	BYTE\_ARRAY	STRING
REAL	FLOAT
SERIAL	INT32
SMALLINT	INT32	INT(16, true)
SMALLSERIAL	INT32	INT(16, true)
String e tipos de dados relacionados
ARRAY	BYTE\_ARRAY	STRING	Uma matriz é convertida em uma string e codificada como BINARY (UTF8). Essa conversão é para evitar complicações devido à precisão dos dados, os valores dos dados que não são um número (NaN) e os valores de dados de tempo.
BIT	BYTE\_ARRAY	STRING
BIT VARYING	BYTE\_ARRAY	STRING
BYTEA	BINARY
CHAR	BYTE\_ARRAY	STRING
CHAR(N)	BYTE\_ARRAY	STRING
ENUM	BYTE\_ARRAY	STRING
NAME	BYTE\_ARRAY	STRING
TEXT	BYTE\_ARRAY	STRING
TEXT SEARCH	BYTE\_ARRAY	STRING
VARCHAR(N)	BYTE\_ARRAY	STRING
XML	BYTE\_ARRAY	STRING
Tipos de dados de data e hora
DATE	BYTE\_ARRAY	STRING
INTERVAL	BYTE\_ARRAY	STRING
TIME	BYTE\_ARRAY	STRING
TIME WITH TIME ZONE	BYTE\_ARRAY	STRING
TIMESTAMP	BYTE\_ARRAY	STRING
TIMESTAMP WITH TIME ZONE	BYTE\_ARRAY	STRING
Tipos de dados geométricos
BOX	BYTE\_ARRAY	STRING
CIRCLE	BYTE\_ARRAY	STRING
LINE	BYTE\_ARRAY	STRING
LINESEGMENT	BYTE\_ARRAY	STRING
PATH	BYTE\_ARRAY	STRING
POINT	BYTE\_ARRAY	STRING
POLYGON	BYTE\_ARRAY	STRING
Tipos de dados JSON
JSON	BYTE\_ARRAY	STRING
JSONB	BYTE\_ARRAY	STRING
Outros tipos de dados
BOOLEAN	BOOLEAN
CIDR	BYTE\_ARRAY	STRING	Tipo de dados de rede
COMPOSITE	BYTE\_ARRAY	STRING
DOMAIN	BYTE\_ARRAY	STRING
INET	BYTE\_ARRAY	STRING	Tipo de dados de rede
MACADDR	BYTE\_ARRAY	STRING
OBJECT IDENTIFIER	N/D
PG\_LSN	BYTE\_ARRAY	STRING
RANGE	BYTE\_ARRAY	STRING
UUID	BYTE\_ARRAY	STRING