Abfragen Ihres Data Lake

Sie können Amazon Redshift verwenden, um Daten in Amazon S3 abzufragen, ohne die Daten in Amazon Redshift Redshift-Tabellen laden zu müssen. Amazon Redshift bietet SQL-Funktionen für die schnelle Online-Analyseverarbeitung (OLAP) von sehr großen Datensätzen, die sowohl in Amazon-Redshift-Clustern als auch Amazon-S3-Data-Lakes gespeichert sind. Sie können Daten in vielen Formaten abfragen, darunter Iceberg, Parquet, ORC, RCFile,,,, TextFile SequenceFile RegexSerde, OpenCSV und AVRO. Um die Struktur der Dateien in Amazon S3 zu definieren, erstellen Sie externe Schemata und Tabellen. Anschließend verwenden Sie einen externen Datenkatalog wie AWS Glue oder Ihren eigenen Apache Hive-Metastore. Änderungen an einem der Datenkatalogtypen sind sofort für jeden Ihrer Amazon-Redshift-Cluster verfügbar.

Nachdem Ihre Daten in einem AWS Glue Datenkatalog registriert und aktiviert wurden AWS Lake Formation, können Sie mit der Abfrage Ihres Data Lakes beginnen.

Sie können die externen Tabellen in einer oder mehreren Spalten partitionieren, um die Abfrageleistung durch Partitionseliminierung zu optimieren. Sie können die externen Tabellen mit Amazon-Redshift-Tabellen abfragen und verknüpfen. Sie können auf externe Tabellen aus mehreren Amazon Redshift Redshift-Clustern zugreifen und die Amazon S3 S3-Daten von jedem Cluster in derselben AWS Region abfragen. Wenn Sie Amazon-S3-Datendateien aktualisieren, stehen diese Daten sofort zur Abfrage von allen Ihren Amazon-Redshift-Clustern aus zur Verfügung.

Verwendung der integrierten Data Lake-Abfrage-Engine für RG und Redshift Serverless

Amazon Redshift RG-Cluster und Amazon Redshift Serverless enthalten eine integrierte Data-Lake-Abfrage-Engine, die auf den eigenen Rechenressourcen des Clusters ausgeführt wird und ein einheitliches Erlebnis sowohl für Data Lake- als auch für Data Warehouse-Anwendungsfälle bietet.

Die integrierte Data Lake-Abfrage-Engine macht die Verwendung von Redshift Spectrum überflüssig und macht die damit verbundenen Redshift Spectrum-Gebühren überflüssig. Es ist keine zusätzliche Konfiguration erforderlich, um die integrierte Data Lake-Abfrage-Engine zu aktivieren, da sie standardmäßig aktiviert ist.

Anmerkung

In einigen Fällen stellen Sie möglicherweise eine langsamere Leistung auf RG im Vergleich zu RA3-Clustern fest, auf denen Redshift Spectrum ausgeführt wird, das mithilfe dedizierter Rechenressourcen unabhängig skaliert wird. Wenn Sie eine langsamere Abfrageleistung feststellen, sollten Sie erwägen, mehr Knoten hinzuzufügen oder ein Upgrade auf größere RG-Instance-Größen durchzuführen.

Verwenden von Redshift Spectrum für DC2 und RA3

Auf von DC2 und RA3 bereitgestellten Clustern befindet sich Redshift Spectrum auf dedizierten Amazon Redshift Redshift-Servern, die unabhängig von Ihrem Cluster sind. Redshift Spectrum verschiebt viele datenverarbeitungsintensive Aufgaben, wie etwa die Prädikatfilterung und -aggregierung, auf die Redshift-Spectrum-Ebene. Redshift Spectrum lässt sich auch intelligent skalieren, um die Vorteile der massiv parallelen Verarbeitung zu nutzen.

Weitere Informationen zu Redshift Spectrum, einschließlich zur Arbeit mit Redshift Spectrum und Data Lakes, finden Sie unter Erste Schritte mit Amazon Redshift Spectrum im Datenbankentwicklerhandbuch zu Amazon Redshift.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Abfragen von Daten, die sich nicht in Ihrer Amazon-Redshift-Datenbank befinden

Abfragen von Remote-Datenquellen