Amazon Redshift unterstützt ab Patch 198 nicht mehr die Erstellung neuer Python-UDFs. Bestehende Python-UDFs werden bis zum 30. Juni 2026 weiterhin funktionieren. Weitere Informationen finden Sie im Blog-Posting
Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Abfragen Ihres Data Lake
Sie können Amazon Redshift verwenden, um Daten in Amazon S3 abzufragen, ohne die Daten in Amazon Redshift Redshift-Tabellen laden zu müssen. Amazon Redshift bietet SQL-Funktionen für die schnelle Online-Analyseverarbeitung (OLAP) von sehr großen Datensätzen, die sowohl in Amazon-Redshift-Clustern als auch Amazon-S3-Data-Lakes gespeichert sind. Sie können Daten in vielen Formaten abfragen, darunter Iceberg, Parquet, ORC, RCFile,,,, TextFile SequenceFile RegexSerde, OpenCSV und AVRO. Um die Struktur der Dateien in Amazon S3 zu definieren, erstellen Sie externe Schemata und Tabellen. Anschließend verwenden Sie einen externen Datenkatalog wie AWS Glue oder Ihren eigenen Apache Hive-Metastore. Änderungen an einem der Datenkatalogtypen sind sofort für jeden Ihrer Amazon-Redshift-Cluster verfügbar.
Nachdem Ihre Daten in einem AWS Glue Datenkatalog registriert und aktiviert wurden AWS Lake Formation, können Sie mit der Abfrage Ihres Data Lakes beginnen.
Sie können die externen Tabellen in einer oder mehreren Spalten partitionieren, um die Abfrageleistung durch Partitionseliminierung zu optimieren. Sie können die externen Tabellen mit Amazon-Redshift-Tabellen abfragen und verknüpfen. Sie können auf externe Tabellen aus mehreren Amazon Redshift Redshift-Clustern zugreifen und die Amazon S3 S3-Daten von jedem Cluster in derselben AWS Region abfragen. Wenn Sie Amazon-S3-Datendateien aktualisieren, stehen diese Daten sofort zur Abfrage von allen Ihren Amazon-Redshift-Clustern aus zur Verfügung.
Verwendung der integrierten Data Lake-Abfrage-Engine für RG und Redshift Serverless
Amazon Redshift RG-Cluster und Amazon Redshift Serverless enthalten eine integrierte Data-Lake-Abfrage-Engine, die auf den eigenen Rechenressourcen des Clusters ausgeführt wird und ein einheitliches Erlebnis sowohl für Data Lake- als auch für Data Warehouse-Anwendungsfälle bietet.
Die integrierte Data Lake-Abfrage-Engine macht die Verwendung von Redshift Spectrum überflüssig und macht die damit verbundenen Redshift Spectrum-Gebühren überflüssig. Es ist keine zusätzliche Konfiguration erforderlich, um die integrierte Data Lake-Abfrage-Engine zu aktivieren, da sie standardmäßig aktiviert ist.
Anmerkung
In einigen Fällen stellen Sie möglicherweise eine langsamere Leistung auf RG im Vergleich zu RA3-Clustern fest, auf denen Redshift Spectrum ausgeführt wird, das mithilfe dedizierter Rechenressourcen unabhängig skaliert wird. Wenn Sie eine langsamere Abfrageleistung feststellen, sollten Sie erwägen, mehr Knoten hinzuzufügen oder ein Upgrade auf größere RG-Instance-Größen durchzuführen.
Verwenden von Redshift Spectrum für DC2 und RA3
Auf von DC2 und RA3 bereitgestellten Clustern befindet sich Redshift Spectrum auf dedizierten Amazon Redshift Redshift-Servern, die unabhängig von Ihrem Cluster sind. Redshift Spectrum verschiebt viele datenverarbeitungsintensive Aufgaben, wie etwa die Prädikatfilterung und -aggregierung, auf die Redshift-Spectrum-Ebene. Redshift Spectrum lässt sich auch intelligent skalieren, um die Vorteile der massiv parallelen Verarbeitung zu nutzen.
Weitere Informationen zu Redshift Spectrum, einschließlich zur Arbeit mit Redshift Spectrum und Data Lakes, finden Sie unter Erste Schritte mit Amazon Redshift Spectrum im Datenbankentwicklerhandbuch zu Amazon Redshift.