Acessar tabelas por meio da integração com o AWS Glue Data Catalog Acessar tabelas diretamente

Acessar dados da tabela

Há várias maneiras de acessar tabelas nos buckets de tabela do Amazon S3. É possível integrar tabelas a serviços de analytics da AWS usando o AWS Glue Data Catalog ou acessar tabelas diretamente usando o endpoint Iceberg REST da funcionalidade Tabelas do Amazon S3 ou o Catálogo de Tabelas do Amazon S3 para Apache Iceberg. O método de acesso que você usa dependerá da configuração do catálogo, do modelo de governança e das necessidades de controle de acesso. Apresentamos a seguir uma visão geral desses métodos de acesso.

AWS Glue Data Catalog Integração do: Esse é o método de acesso recomendado para trabalhar com tabelas em buckets de tabela do S3. Essa integração oferece uma visão unificada do seu patrimônio de dados em vários serviços de analytics da AWS por meio do AWS Glue Data Catalog. Após a integração, é possível consultar tabelas em determinados serviços, como o Athena e o Amazon Redshift. O acesso a tabelas é gerenciado por meio de permissões do IAM. Para acessar tabelas usando essa integração, a identidade do IAM que você usa precisa ter acesso aos recursos e ações da funcionalidade Tabelas do S3, a objetos do AWS Glue Data Catalog e ao mecanismo de consulta que você está usando. Para obter mais informações, consulte Gerenciamento de acesso para a funcionalidade Tabelas do S3.
Acesso direto: Use esse método se precisar trabalhar com implementações de catálogos do AWS Partner Network (APN) e implementações de catálogos personalizados ou se precisar realizar apenas operações básicas de leitura/gravação em tabelas dentro de um único bucket de tabela. O acesso a tabelas é gerenciado por meio de permissões do IAM. Para acessar tabelas, a identidade do IAM que você usa precisa ter acesso aos seus recursos de tabela e às ações da funcionalidade Tabelas do S3. Para obter mais informações, consulte Gerenciamento de acesso para a funcionalidade Tabelas do S3.

Acessar tabelas por meio da integração com o AWS Glue Data Catalog

É possível integrar buckets de tabela do S3 ao AWS Glue Data Catalog para acessar tabelas de serviços de analytics da AWS, como o Amazon Athena, o Amazon Redshift e o Quick. A integração preenche o AWS Glue Data Catalog com os recursos de tabela e federa o acesso a esses recursos. Consulte mais informações sobre integração em Integrar a funcionalidade Tabelas do Amazon S3 a serviços de analytics da AWS.

Os seguintes serviços de analytics da AWS podem acessar tabelas por meio dessa integração:

Acessar tabelas usando o endpoint Iceberg REST do AWS Glue

Depois que os buckets de tabela do S3 estiverem integrados ao AWS Glue Data Catalog, você também poderá usar o endpoint Iceberg REST do AWS Gluepara se conectar a tabelas do S3 por meio de mecanismos de consulta de terceiros compatíveis com o Iceberg. Para obter mais informações, consulte Acessar tabelas do Amazon S3 usando o endpoint Iceberg REST do AWS Glue.

Recomendamos usar o endpoint Iceberg REST do AWS Glue quando você quiser acessar tabelas do Spark, do PyIceberg ou de outros clientes compatíveis com o Iceberg.

Os seguintes clientes podem acessar tabelas diretamente por meio do endpoint Iceberg REST do AWS Glue:

Qualquer cliente do Iceberg, incluindo o Spark, o PyIceberg e outros.

Acessar tabelas diretamente

É possível acessar tabelas diretamente de mecanismos de consulta de código aberto por meio de métodos que conectam as operações de gerenciamento de Tabelas do S3 às suas aplicações de analytics do Apache Iceberg. Há dois métodos de acesso direto: o endpoint Iceberg REST do serviço Tabelas do Amazon S3 ou o Catálogo de Tabelas do Amazon S3 para Apache Iceberg. O endpoint REST é recomendado.

Recomendamos o acesso direto se você acessa tabelas em implementações de catálogos autogerenciados ou se precisa realizar apenas operações básicas de leitura/gravação em tabelas em um único bucket de tabela. Com relação a outros cenários de acesso, recomendamos a integração com o AWS Glue Data Catalog.

O acesso direto às tabelas é gerenciado por meio de políticas baseadas em identidade do IAM ou políticas baseadas em recursos anexadas a tabelas e buckets de tabela.

Acessar tabelas por meio do endpoint Iceberg REST do serviço Tabelas do Amazon S3

Você pode usar o endpoint Iceberg REST do serviço Tabelas do Amazon S3 para acessar as tabelas diretamente de qualquer cliente compatível com o Iceberg REST por meio de endpoints HTTP. Consulte mais informações em Acessar tabelas usando o endpoint Iceberg REST do serviço Tabelas do Amazon S3.

Os seguintes mecanismos de consulta e serviços de analytics da AWS podem acessar tabelas diretamente usando o endpoint Iceberg REST do serviço Tabelas do Amazon S3:

Mecanismos de consulta compatíveis

Qualquer cliente do Iceberg, incluindo o Spark, o PyIceberg e outros.
Amazon EMR
AWS Glue ETL

Acessar tabelas diretamente por meio do Catálogo de Tabelas do Amazon S3 para Apache Iceberg

Você também pode acessar tabelas diretamente de mecanismos de consulta como o Apache Spark usando o catálogo de clientes de Tabelas do S3. Consulte mais informações em Acessar tabelas do Amazon S3 com o Catálogo de Tabelas do Amazon S3 para Apache Iceberg. No entanto, o S3 recomenda usar o endpoint Iceberg REST de Tabelas do Amazon S3 para acesso direto, pois ele é compatível com mais aplicações e não exige código específico de mecanismo ou linguagem.

Os seguintes mecanismos de consulta podem acessar tabelas diretamente usando o catálogo de cliente:

Apache Spark

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Excluir uma tag de uma tabela

Visão geral da integração da funcionalidade Tabelas do S3