

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Abfragen von Apache-Hudi-Datensätzen
<a name="querying-hudi"></a>

[https://hudi.incubator.apache.org/](https://hudi.incubator.apache.org/) ist ein Open-Source-Datenmanagement-Framework, das die inkrementelle Datenverarbeitung vereinfacht. Einfüge-, Aktualisierungs-, Upsert- und Löschaktionen auf Datensatzebene werden viel granularer verarbeitet, wodurch der Overhead reduziert wird. `Upsert` bezieht sich auf die Möglichkeit, Datensätze in einen vorhandenen Datensatz einzufügen, wenn sie noch nicht vorhanden sind, oder sie zu aktualisieren, wenn dies der Fall ist.

Hudi verarbeitet Dateneinfügungs- und Aktualisierungsereignisse, ohne viele kleine Dateien zu erstellen, die Leistungsprobleme bei der Analyse verursachen können. Apache Hudi verfolgt automatisch Änderungen und führt Dateien zusammen, damit sie die optimale Größe behalten. Dadurch entfällt die Notwendigkeit, benutzerdefinierte Lösungen zu erstellen, die viele kleine Dateien überwachen und in weniger große Dateien umschreiben.

Hudi-Datensätze eignen sich für die folgenden Anwendungsfälle:
+ Einhaltung von Datenschutzbestimmungen wie der [Datenschutz-Grundverordnung](https://en.wikipedia.org/wiki/General_Data_Protection_Regulation) (GDPR) und dem [California Consumer Privacy Act](https://en.wikipedia.org/wiki/California_Consumer_Privacy_Act) (CCPA), die das Recht der Menschen auf Entfernung personenbezogener Daten oder Änderung der Verwendung ihrer Daten durchsetzen.
+ Arbeiten mit Streaming-Daten von Sensoren und anderen IoT-Geräten (Internet of Things), die bestimmte Dateneinfüge- und Aktualisierungsereignisse erfordern.
+ Implementieren eines [Change-Data-Capture (CDC)-Systems](https://en.wikipedia.org/wiki/Change_data_capture).

Ein Hudi-Datensatz kann einen der folgenden Typen haben:
+ **Copy on Write (CoW, Beim Schreiben kopieren)** – Daten werden in einem spaltenbasierten Format (Parquet) gespeichert, und jedes Update erstellt während eines Schreibvorgangs eine neue Version von Dateien.
+ **Merge on Read (MoR, Beim Lesen zusammenführen)** – Daten werden mit einer Kombination aus spalten- (Parquet) und zeilenbasierten (Avro) Formaten gespeichert. Updates werden in zeilenbasierten `delta`-Dateien protokolliert und nach Bedarf komprimiert, um neue Versionen der Spaltendateien zu erstellen.

Bei CoW-Datasets wird jedes Mal, wenn ein Datensatz aktualisiert wird, die Datei, die den Datensatz enthält, mit den aktualisierten Werten neu geschrieben. Bei einem MoR-Datensatz schreibt Hudi jedes Mal, wenn es eine Aktualisierung gibt, nur die Zeile für den geänderten Datensatz. MoR eignet sich besser für schreib- oder änderungsintensive Workloads mit weniger Lesevorgängen. CoW eignet sich besser für leseintensive Workloads für Daten, die sich seltener ändern.

Hudi bietet drei Abfragetypen für den Zugriff auf die Daten:
+ **Snapshots** – Abfragen, die den neuesten Snapshot der Tabelle ab einer bestimmten Commit- oder Komprimierungsaktion anzeigen. Bei MoR-Tabellen stellen Snapshot-Abfragen den neuesten Status der Tabelle dar, indem die Basis- und Deltadateien des letzten Datei-Slices zum Zeitpunkt der Abfrage zusammengeführt werden. 
+ **Inkrementelle Abfragen** – Abfragen sehen nur neue Daten, die seit einem bestimmten Commit/Komprimierung in die Tabelle geschrieben wurden. Dies bietet effektiv Änderungsströme, um inkrementelle Data-Pipelines zu ermöglichen.
+ **Lesen von optimierten Abfragen** – Bei MoR-Tabellen sehen Abfragen die neuesten komprimierten Daten. Bei CoW-Tabellen sehen Abfragen die neuesten festgeschriebenen Daten.

Die folgende Tabelle zeigt die möglichen Hudi-Abfragetypen für jeden Tabellentyp.


| Tabellentyp | Mögliche Hudi-Abfragetypen | 
| --- | --- | 
| Kopieren Sie beim Schreiben | Snapshot, inkrementell | 
| Beim Lesen zusammenführen | Snapshot, inkrementell, leseoptimiert | 

Weitere Informationen zu den Kompromissen zwischen Tabellen- und Abfragetypen finden Sie unter [Tabellen- und Abfragetypen](https://hudi.apache.org/docs/table_types/) in der Apache-Hudi-Dokumentation.

## Hudi Terminologieänderung: Ansichten sind jetzt Abfragen
<a name="querying-hudi-hudi-dataset-table-types-terminology"></a>

Ab Version 0.5.1 von Apache Hudi werden die Funktionen, die früher als Ansichten bezeichnet wurden, jetzt als Abfragen bezeichnet. In der folgenden Tabelle werden die Änderungen zwischen dem alten und dem neuen Term zusammengefasst.


| Alter Begriff | Neuer Begriff | 
| --- | --- | 
|  CoW: Lese-optimierte Ansicht MoR: Echtzeitansicht  |  Snapshotabfragen  | 
| Inkrementelle Ansicht | Inkrementelle Abfrage | 
| MoR-Lese-optimierte Ansicht | Leseoptimierte Abfrage | 

**Topics**
+ [Hudi Terminologieänderung: Ansichten sind jetzt Abfragen](#querying-hudi-hudi-dataset-table-types-terminology)
+ [Überlegungen und Einschränkungen](querying-hudi-in-athena-considerations-and-limitations.md)
+ [Copy on Write (CoW), Tabellenbeispiele erstellen](querying-hudi-copy-on-write-create-table-examples.md)
+ [„Beim Lesen zusammenführen (MoR)“ Tabellenbeispiele erstellen](querying-hudi-merge-on-read-create-table-examples.md)
+ [Hudi-Metadaten für eine verbesserte Leistung verwenden](querying-hudi-metadata-table.md)
+ [Weitere Ressourcen](querying-hudi-additional-resources.md)

# Überlegungen und Einschränkungen
<a name="querying-hudi-in-athena-considerations-and-limitations"></a>

Berücksichtigen Sie bei der Verwendung des Apache-Hudi-Tabellen die folgenden Punkte.
+ **Lese- und Schreiboperationen** — Athena kann komprimierte Hudi-Datensätze lesen, aber keine Hudi-Daten schreiben.
+ **Hudi-Versionen** — Athena unterstützt die Hudi-Versionen 0.14.0 (Standard) und 0.15.0. Athena kann die Lesekompatibilität mit Tabellen, die mit späteren Versionen von Hudi erstellt wurden, nicht garantieren. Weitere Informationen zu Hudi-Features und Versionsverwaltung finden Sie in der [Hudi-Dokumentation](https://hudi.apache.org/) auf der Apache-Website. Beachten Sie, dass Version 0.15.0 des Hudi-Connectors auf Athena keine Bootstrap-Tabellen unterstützt. Um 0.15.0 des Hudi-Connectors zu verwenden, legen Sie die folgende Tabelleneigenschaft fest:

  ```
  ALTER TABLE table_name SET TBLPROPERTIES ('athena_enable_native_hudi_connector_implementation' = 'true')
  ```
+ **Kontenübergreifende Abfragen** — Version 0.15.0 des Hudi-Connectors unterstützt keine kontenübergreifenden Abfragen.
+ **Abfragetypen** — Derzeit unterstützt Athena Snapshot-Abfragen und leseoptimierte Abfragen, jedoch keine inkrementellen Abfragen. In MoR-Tabellen werden alle Daten, die leseoptimierten Abfragen ausgesetzt sind, komprimiert. Dies bietet eine gute Leistung, enthält jedoch nicht die neuesten Delta-Commits. Snapshot-Abfragen enthalten die aktuellsten Daten, verursachen jedoch einen gewissen Rechenaufwand, wodurch diese Abfragen weniger leistungsfähig sind. Weitere Informationen zu den Kompromissen zwischen Tabellen- und Abfragetypen finden Sie unter [Tabellen- und Abfragetypen](https://hudi.apache.org/docs/table_types/) in der Apache-Hudi-Dokumentation.
+ **Inkrementelle Abfragen** – Athena unterstützt keine inkrementellen Abfragen.
+ **CTAS** – Athena unterstützt nicht [CTAS](ctas.md) oder [INSERT INTO](insert-into.md) auf Hudi-Daten. Wenn Sie Athena-Unterstützung beim Schreiben von Hudi-Datensätzen wünschen, senden Sie Feedback an athena-feedback@amazon.com.

  Weitere Informationen zum Schreiben von Hudi-Daten finden Sie in den folgenden Ressourcen:
  + [Arbeiten mit einem Hudi-Datensatz](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hudi-work-with-dataset.html) im [Amazon-EMR-Versionshandbuch](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/).
  + [Schreiben von Daten](https://hudi.apache.org/docs/0.8.0/writing_data.html) in der Apache-Hudi-Dokumentation.
+ **MSCK REPAIR TABLE** – Die Verwendung von MSCK REPAIR TABLE auf Hudi-Tabellen in Athena wird nicht unterstützt. Wenn Sie eine Hudi-Tabelle laden müssen, in AWS Glue der nicht erstellt wurde, verwenden Sie. [ALTER TABLE ADD PARTITION](alter-table-add-partition.md)
+ **Überspringen von Amazon-Glacier-Objekten wird nicht unterstützt** – Wenn sich Objekte in der Apache–Hudi-Tabelle in einer Amazon-Glacier-Speicherklasse befinden, hat das Setzen der `read_restored_glacier_objects`-Tabelleneigenschaft auf `false` keine Auswirkung.

  Angenommen, Sie führen den folgenden Befehl aus:

  ```
  ALTER TABLE table_name SET TBLPROPERTIES ('read_restored_glacier_objects' = 'false')
  ```

  Bei Iceberg- und Delta-Lake-Tabellen erzeugt der Befehl den Fehler Unsupported table property key: read\$1restored\$1glacier\$1objects. Bei Hudi-Tabellen erzeugt der `ALTER TABLE`-Befehl keinen Fehler, aber Amazon-Glacier-Objekte werden immer noch nicht übersprungen. Beim Ausführen von `SELECT`-Abfragen nach dem `ALTER TABLE`-Befehl werden weiterhin alle Objekte zurückgegeben.
+ **Zeitstempelabfragen** – Derzeit schlagen Abfragen, die versuchen, Zeitstempelspalten in Hudi-Echtzeittabellen zu lesen, entweder fehl oder liefern leere Ergebnisse. Diese Einschränkung gilt nur für Abfragen, die eine Zeitstempelspalte lesen. Abfragen, die nur Spalten ohne Zeitstempel aus derselben Tabelle enthalten, sind erfolgreich. 

  Fehlgeschlagene Abfragen geben eine Meldung ähnlich der folgenden zurück: 

  GENERIC\$1INTERNAL\$1ERROR: Klasse org.apache.hadoop.io. ArrayWritablekann nicht in die Klasse org.apache.hadoop.hive.serde2.io umgewandelt werden. TimestampWritableV2 (org.apache.hadoop.io). ArrayWritable und org.apache.hadoop.hive.serde2.io. TimestampWritableV2 befinden sich im unbenannten Modul des Loaders io.trino.server. PluginClassLoader @75c67992)
+ **Lake Formation Formation-Berechtigungen auf Hudi Connector 0.15.0** — Diese Einschränkung gilt nur, wenn Sie sich für die Verwendung des nativen Hudi-Connectors (Version 0.15.0) entscheiden, indem Sie die Tabelleneigenschaft auf setzen. `athena_enable_native_hudi_connector_implementation` `true` Standardmäßig verwendet Athena die Hudi-Connector-Version 0.14.0, für die diese zusätzliche Berechtigung nicht erforderlich ist. Um eine durch Lake Formation geschützte Tabelle abzufragen, müssen Sie Lake Formation Formation-Berechtigungen sowohl für den Datenspeicherort der Tabelle als auch für das `.hoodie` Metadatenverzeichnis gewähren. Wenn sich Ihre Hudi-Tabelle beispielsweise in befindet`s3://bucket/hudi-table/`, müssen Sie sich registrieren `s3://bucket/hudi-table/` und sowohl in Lake Formation als auch `s3://bucket/hudi-table/.hoodie/` in Lake Formation Berechtigungen erteilen. Das `.hoodie` Verzeichnis enthält Metadatendateien (z. B.`hoodie.properties`), die Athena während der Abfrageplanung lesen muss. Ohne Berechtigungen für das `.hoodie` Verzeichnis schlagen Abfragen fehl und es wird die Fehlermeldung „Zugriff verweigert“ angezeigt.

# Copy on Write (CoW), Tabellenbeispiele erstellen
<a name="querying-hudi-copy-on-write-create-table-examples"></a>

Wenn Sie bereits Hudi-Tabellen erstellt haben AWS Glue, können Sie diese direkt in Athena abfragen. Wenn Sie in Athena partitionierte Hudi-Tabellen erstellen, müssen Sie `ALTER TABLE ADD PARTITION` ausführen, um die Hudi-Daten zu laden, bevor Sie sie abfragen können.

## Nicht partitionierte CoW-Tabelle
<a name="querying-hudi-nonpartitioned-cow-table"></a>

Im folgenden Beispiel wird eine unpartitionierte CoW-Tabelle in Athena erstellt.

```
CREATE EXTERNAL TABLE `non_partition_cow`(
  `_hoodie_commit_time` string,
  `_hoodie_commit_seqno` string,
  `_hoodie_record_key` string,
  `_hoodie_partition_path` string,
  `_hoodie_file_name` string,
  `event_id` string,
  `event_time` string,
  `event_name` string,
  `event_guests` int,
  `event_type` string)
ROW FORMAT SERDE
  'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'
STORED AS INPUTFORMAT
  'org.apache.hudi.hadoop.HoodieParquetInputFormat'
OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
  's3://amzn-s3-demo-bucket/folder/non_partition_cow/'
```

## Partitionierte CoW-Tabelle
<a name="querying-hudi-partitioned-cow-table"></a>

Im folgenden Beispiel wird eine partitionierte CoW-Tabelle in Athena erstellt.

```
CREATE EXTERNAL TABLE `partition_cow`(
  `_hoodie_commit_time` string, 
  `_hoodie_commit_seqno` string, 
  `_hoodie_record_key` string, 
  `_hoodie_partition_path` string, 
  `_hoodie_file_name` string, 
  `event_id` string, 
  `event_time` string, 
  `event_name` string, 
  `event_guests` int)
PARTITIONED BY ( 
  `event_type` string)
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hudi.hadoop.HoodieParquetInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat' 
LOCATION
  's3://amzn-s3-demo-bucket/folder/partition_cow/'
```

Im folgenden `ALTER TABLE ADD PARTITION`-Beispiel werden der `partition_cow`-Beispieltabelle zwei Partitionen hinzugefügt.

```
ALTER TABLE partition_cow ADD
  PARTITION (event_type = 'one') LOCATION 's3://amzn-s3-demo-bucket/folder/partition_cow/one/' 
  PARTITION (event_type = 'two') LOCATION 's3://amzn-s3-demo-bucket/folder/partition_cow/two/'
```

# „Beim Lesen zusammenführen (MoR)“ Tabellenbeispiele erstellen
<a name="querying-hudi-merge-on-read-create-table-examples"></a>

Hudi erstellt zwei Tabellen im Metastore für MoR: eine Tabelle für Snapshot-Abfragen und eine Tabelle für leseoptimierte Abfragen. Beide Tabellen können abgefragt werden. In Hudi-Versionen vor 0.5.1 hatte die Tabelle für leseoptimierte Abfragen den Namen, den Sie beim Erstellen der Tabelle angegeben haben. Ab Hudi-Version 0.5.1 wird dem Tabellennamen standardmäßig ein `_ro` angehängt. Der Name der Tabelle für Snapshot-Abfragen ist der Name, den Sie mit angehängtem `_rt` angegeben haben.

## Nicht partitionierte Merge-on-Read (MoR)-Tabelle
<a name="querying-hudi-nonpartitioned-merge-on-read-table"></a>

Im folgenden Beispiel wird eine nicht partitionierte MoR-Tabelle in Athena für leseoptimierte Abfragen erstellt. Beachten Sie, dass leseoptimierte Abfragen das Eingabeformat `HoodieParquetInputFormat` verwenden.

```
CREATE EXTERNAL TABLE `nonpartition_mor`(
  `_hoodie_commit_time` string, 
  `_hoodie_commit_seqno` string, 
  `_hoodie_record_key` string, 
  `_hoodie_partition_path` string, 
  `_hoodie_file_name` string, 
  `event_id` string, 
  `event_time` string, 
  `event_name` string, 
  `event_guests` int, 
  `event_type` string)
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hudi.hadoop.HoodieParquetInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat' 
LOCATION
  's3://amzn-s3-demo-bucket/folder/nonpartition_mor/'
```

Im folgenden Beispiel wird eine nicht partitionierte MoR-Tabelle in Athena für Snapshot-Abfragen erstellt. Verwenden Sie für Snapshot-Abfragen das Eingabeformat `HoodieParquetRealtimeInputFormat`.

```
CREATE EXTERNAL TABLE `nonpartition_mor_rt`(
  `_hoodie_commit_time` string, 
  `_hoodie_commit_seqno` string, 
  `_hoodie_record_key` string, 
  `_hoodie_partition_path` string, 
  `_hoodie_file_name` string, 
  `event_id` string, 
  `event_time` string, 
  `event_name` string, 
  `event_guests` int, 
  `event_type` string)
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hudi.hadoop.realtime.HoodieParquetRealtimeInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat' 
LOCATION
  's3://amzn-s3-demo-bucket/folder/nonpartition_mor/'
```

## Partitionierte Merge-on-Read-(MoR)-Tabelle
<a name="querying-hudi-partitioned-merge-on-read-table"></a>

Im folgenden Beispiel wird eine partitionierte MoR-Tabelle in Athena für leseoptimierte Abfragen erstellt.

```
CREATE EXTERNAL TABLE `partition_mor`(
  `_hoodie_commit_time` string, 
  `_hoodie_commit_seqno` string, 
  `_hoodie_record_key` string, 
  `_hoodie_partition_path` string, 
  `_hoodie_file_name` string, 
  `event_id` string, 
  `event_time` string, 
  `event_name` string, 
  `event_guests` int)
PARTITIONED BY ( 
  `event_type` string)
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hudi.hadoop.HoodieParquetInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
  's3://amzn-s3-demo-bucket/folder/partition_mor/'
```

Im folgenden `ALTER TABLE ADD PARTITION`-Beispiel werden der `partition_mor`-Beispieltabelle zwei Partitionen hinzugefügt.

```
ALTER TABLE partition_mor ADD
  PARTITION (event_type = 'one') LOCATION 's3://amzn-s3-demo-bucket/folder/partition_mor/one/'
  PARTITION (event_type = 'two') LOCATION 's3://amzn-s3-demo-bucket/folder/partition_mor/two/'
```

Im folgenden Beispiel wird eine partitionierte MoR-Tabelle in Athena für Snapshot-Abfragen erstellt.

```
CREATE EXTERNAL TABLE `partition_mor_rt`(
  `_hoodie_commit_time` string, 
  `_hoodie_commit_seqno` string, 
  `_hoodie_record_key` string, 
  `_hoodie_partition_path` string, 
  `_hoodie_file_name` string, 
  `event_id` string, 
  `event_time` string, 
  `event_name` string, 
  `event_guests` int)
PARTITIONED BY ( 
  `event_type` string)
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'
STORED AS INPUTFORMAT 
  'org.apache.hudi.hadoop.realtime.HoodieParquetRealtimeInputFormat'
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
  's3://amzn-s3-demo-bucket/folder/partition_mor/'
```

Ebenso werden im folgenden `ALTER TABLE ADD PARTITION`-Beispiel der `partition_mor_rt`-Beispieltabelle zwei Partitionen hinzugefügt.

```
ALTER TABLE partition_mor_rt ADD
  PARTITION (event_type = 'one') LOCATION 's3://amzn-s3-demo-bucket/folder/partition_mor/one/'
  PARTITION (event_type = 'two') LOCATION 's3://amzn-s3-demo-bucket/folder/partition_mor/two/'
```

# Hudi-Metadaten für eine verbesserte Leistung verwenden
<a name="querying-hudi-metadata-table"></a>

Apache Hudi verfügt über eine [Metadatentabelle](https://hudi.apache.org/docs/next/metadata/), die Indizierungs-Feature für eine verbesserte Leistung enthält, wie z. B. das Auflisten von Dateien, das Überspringen von Daten mithilfe von Spaltenstatistiken und einen auf Bloomfiltern basierenden Index.

Von diesen Features unterstützt Athena derzeit nur den Dateiauflistungsindex. Der Dateiauflistungsindex eliminiert Dateisystemaufrufe wie „Dateien auflisten“, indem er die Informationen aus einem Index abruft, der die Zuordnung von Partitionen zu Dateien verwaltet. Dadurch entfällt die Notwendigkeit, jede einzelne Partition unter dem Tabellenpfad rekursiv aufzulisten, um einen Überblick über das Dateisystem zu erhalten. Wenn Sie mit großen Datensätzen arbeiten, reduziert diese Indizierung die Latenz, die sonst beim Abrufen der Dateiliste bei Schreib- und Abfragen auftreten würde, drastisch. Außerdem werden Engpässe wie die Drosselung von Anforderungslimits Amazon-S3-`LIST`-Aufrufen vermieden.

**Anmerkung**  
Athena unterstützt derzeit weder das Überspringen von Daten noch die Bloom-Filter-Indizierung.

## Die Hudi-Metadatentabelle aktivieren
<a name="querying-hudi-metadata-table-enabling-the-hudi-metadata-table"></a>

Die auf Metadatentabellen basierende Dateiauflistung ist standardmäßig deaktiviert. Um die Hudi-Metadatentabelle und die zugehörige Dateiauflistungsfunktion zu aktivieren, setzen Sie die `hudi.metadata-listing-enabled`-Tabelleneigenschaft auf `TRUE`.

**Beispiel**  
Im folgenden `ALTER TABLE SET TBLPROPERTIES`-Beispiel wird die Metadatentabelle in der `partition_cow`-Beispieltabelle aktiviert.

```
ALTER TABLE partition_cow SET TBLPROPERTIES('hudi.metadata-listing-enabled'='TRUE')
```

## Von Bootstrap generierte Metadaten verwenden
<a name="querying-hudi-hudi-dataset-table-types-bootstrap"></a>

Ab Apache Hudi Version 0.6.0 bietet das Bootstrap-Feature eine bessere Leistung mit vorhandenen Parquet-Datensätzen. Anstatt den Datensatz neu zu schreiben, kann ein Bootstrap-Vorgang nur Metadaten generieren und den Datensatz an Ort und Stelle belassen. 

Sie können Athena verwenden, um Tabellen aus einem Bootstrap-Vorgang abzufragen, genau wie andere Tabellen, die auf Daten in Amazon S3 basieren. Geben Sie in Ihrer `CREATE TABLE`-Anweisung den Hudi-Tabellenpfad in Ihrer `LOCATION`-Klausel an. 

Weitere Informationen zum Erstellen von Hudi-Tabellen mithilfe der Bootstrap-Operation in Amazon EMR finden Sie im Artikel [Neue Funktionen von Apache Hudi in Amazon EMR im Big Data-Blog](https://aws.amazon.com/blogs/big-data/new-features-from-apache-hudi-available-in-amazon-emr/). AWS 

# Weitere Ressourcen
<a name="querying-hudi-additional-resources"></a>

Weitere Ressourcen zur Verwendung von Apache Hudi mit Athena finden Sie in den folgenden Ressourcen.

## Video
<a name="querying-hudi-videos"></a>

Das folgende Video zeigt, wie Sie mit Amazon Athena ein leseoptimierter Apache-Hudi-Datensatz in Ihrem Amazon-S3-basierten Data Lake abfragen können.

[![AWS Videos](http://img.youtube.com/vi/https://www.youtube.com/embed/TVcreqxBaGA/0.jpg)](http://www.youtube.com/watch?v=https://www.youtube.com/embed/TVcreqxBaGA)


## Blog-Posts
<a name="querying-hudi-big-data-blogs"></a>

In den folgenden AWS Big-Data-Blogbeiträgen wird beschrieben, wie Sie Apache Hudi mit Athena verwenden können.
+ [Verwenden Sie AWS Data Exchange, um Apache Hudi-Datensätze nahtlos auszutauschen](https://aws.amazon.com/blogs/big-data/use-aws-data-exchange-to-seamlessly-share-apache-hudi-datasets/) 
+ [Erstellen Sie einen Apache HUDI-basierten near-real-time Transaktionsdatensee mit Amazon Kinesis AWS DMS, AWS Glue Streaming-ETL und Datenvisualisierung mit Quick](https://aws.amazon.com/blogs/big-data/create-an-apache-hudi-based-near-real-time-transactional-data-lake-using-aws-dms-amazon-kinesis-aws-glue-streaming-etl-and-data-visualization-using-amazon-quicksight/) 
+ Informationen zur Verwendung von AWS Glue benutzerdefinierten Konnektoren und AWS Glue 2.0-Jobs zum Erstellen einer Apache Hudi-Tabelle, die Sie mit Athena abfragen können, finden Sie unter [Schreiben in Apache Hudi-Tabellen mithilfe eines AWS Glue](https://aws.amazon.com/blogs/big-data/writing-to-apache-hudi-tables-using-aws-glue-connector/) benutzerdefinierten Konnektors.
+ Einen Artikel über die Verwendung von Apache Hudi und Amazon Athena zum Erstellen eines Datenverarbeitungs-Frameworks für einen Data Lake finden Sie unter [Vereinfachen der betrieblichen Datenverarbeitung in Data Lakes mithilfe von AWS Glue Apache](https://aws.amazon.com/blogs/big-data/simplify-operational-data-processing-in-data-lakes-using-aws-glue-and-apache-hudi/) Hudi. AWS Glue