Amazon Redshift 將不再支援從修補程式 198 開始建立新的 Python UDFs。現有 Python UDF 將繼續正常運作至 2026 年 6 月 30 日。如需詳細資訊,請參閱部落格文章
本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
查詢您的資料湖
您可以使用 Amazon Redshift 查詢 Amazon S3 中的資料,而不必將資料載入 Amazon Redshift 資料表。Amazon Redshift 提供 SQL 功能,專為儲存在 Amazon Redshift 叢集和 Amazon S3 資料湖中的非常大型資料集的快速線上分析處理 (OLAP) 而設計。您可以查詢多種格式的資料,包括 Iceberg、Parquet、ORC、RCFile、TextFile、SequenceFile、RegexSerde、OpenCSV 和 AVRO。若要在 Amazon S3 中定義檔案的結構,請建立外部結構描述和資料表。然後,您可以使用外部資料目錄,例如 AWS Glue 或您自己的 Apache Hive 中繼存放區。您的任何 Amazon Redshift 叢集都可以立即變更外部資料目錄。
向 AWS Glue Data Catalog 註冊資料並使用 啟用資料之後 AWS Lake Formation,您就可以開始查詢資料湖。
您可以在一或多個欄上對外部資料表進行分割,以最佳化資料分割的查詢效能。您可以使用 Amazon Redshift 資料表查詢和連接外部資料表。您可以從多個 Amazon Redshift 叢集存取外部資料表,並從相同區域中的任何叢集查詢 Amazon S3 資料 AWS 。當您更新 Amazon S3 資料檔案時,資料可立即從任何 Amazon Redshift 叢集進行查詢。
使用 RG 和 Redshift Serverless 的整合資料湖查詢引擎
Amazon Redshift RG 叢集和 Amazon Redshift Serverless 包含整合式資料湖查詢引擎,可在叢集自己的運算資源上執行,為資料湖和資料倉儲使用案例提供統一的體驗。
整合的資料湖查詢引擎無需使用 Redshift Spectrum,也無需支付相關聯的 Redshift Spectrum 費用。啟用整合式資料湖查詢引擎時,不需要額外的組態,因為其預設為啟用。
注意
在某些情況下,相較於執行 Redshift Spectrum 的 RA3 叢集,您可能會發現 RG 的效能較慢,後者會使用專用運算資源獨立擴展。如果您發現查詢效能較慢,請考慮新增更多節點或升級至較大的 RG 執行個體大小。
使用 Redshift Spectrum for DC2 和 RA3
在 DC2 和 RA3 佈建叢集上,Redshift Spectrum 位於與您的叢集無關的專用 Amazon Redshift 伺服器上。Redshift Spectrum 會推送許多 (例如述詞篩選和彙整等) 運算密集的工作到 Redshift Spectrum 層。Redshift Spectrum 還可以智智慧擴充以利用大規模並行處理。
如需 Redshift Spectrum 的相關資訊,包括如何使用 Redshift Spectrum 和資料湖,請參閱《Amazon Redshift 資料庫開發人員指南》中的 Amazon Redshift Spectrum 入門。