查詢您的資料湖

您可以使用 Amazon Redshift 查詢 Amazon S3 中的資料，而不必將資料載入 Amazon Redshift 資料表。Amazon Redshift 提供 SQL 功能，專為儲存在 Amazon Redshift 叢集和 Amazon S3 資料湖中的非常大型資料集的快速線上分析處理 (OLAP) 而設計。您可以查詢多種格式的資料，包括 Iceberg、Parquet、ORC、RCFile、TextFile、SequenceFile、RegexSerde、OpenCSV 和 AVRO。若要在 Amazon S3 中定義檔案的結構，請建立外部結構描述和資料表。然後，您可以使用外部資料目錄，例如 AWS Glue 或您自己的 Apache Hive 中繼存放區。您的任何 Amazon Redshift 叢集都可以立即變更外部資料目錄。

向 AWS Glue Data Catalog 註冊資料並使用啟用資料之後 AWS Lake Formation，您就可以開始查詢資料湖。

您可以在一或多個欄上對外部資料表進行分割，以最佳化資料分割的查詢效能。您可以使用 Amazon Redshift 資料表查詢和連接外部資料表。您可以從多個 Amazon Redshift 叢集存取外部資料表，並從相同區域中的任何叢集查詢 Amazon S3 資料 AWS 。當您更新 Amazon S3 資料檔案時，資料可立即從任何 Amazon Redshift 叢集進行查詢。

使用 RG 和 Redshift Serverless 的整合資料湖查詢引擎

Amazon Redshift RG 叢集和 Amazon Redshift Serverless 包含整合式資料湖查詢引擎，可在叢集自己的運算資源上執行，為資料湖和資料倉儲使用案例提供統一的體驗。

整合的資料湖查詢引擎無需使用 Redshift Spectrum，也無需支付相關聯的 Redshift Spectrum 費用。啟用整合式資料湖查詢引擎時，不需要額外的組態，因為其預設為啟用。

注意

在某些情況下，相較於執行 Redshift Spectrum 的 RA3 叢集，您可能會發現 RG 的效能較慢，後者會使用專用運算資源獨立擴展。如果您發現查詢效能較慢，請考慮新增更多節點或升級至較大的 RG 執行個體大小。

使用 Redshift Spectrum for DC2 和 RA3

在 DC2 和 RA3 佈建叢集上，Redshift Spectrum 位於與您的叢集無關的專用 Amazon Redshift 伺服器上。Redshift Spectrum 會推送許多 (例如述詞篩選和彙整等) 運算密集的工作到 Redshift Spectrum 層。Redshift Spectrum 還可以智智慧擴充以利用大規模並行處理。

如需 Redshift Spectrum 的相關資訊，包括如何使用 Redshift Spectrum 和資料湖，請參閱《Amazon Redshift 資料庫開發人員指南》中的 Amazon Redshift Spectrum 入門。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

查詢 Amazon Redshift 中沒有的資料

查詢遠端資料來源