本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
目錄聯合到遠端 Iceberg 目錄
中的目錄聯合 AWS Glue 提供對 Iceberg 資料表的直接和安全存取,這些資料表存放在 Amazon S3 中,並使用 AWS 分析引擎在遠端目錄中編製目錄。當您存取遠端資料表時,目錄聯合會跨資料目錄和遠端目錄同步中繼資料。它受到各種分析引擎的支援,包括 Amazon Redshift、Amazon EMR、Amazon Athena AWS Glue、Apache Spark 等第三方引擎。
目錄聯合會使用 與遠端目錄系統 AWS Glue Data Catalog 通訊,以探索資料表,並使用 Lake Formation 授權存取 Amazon S3 中的資料表資料。當您查詢聯合資料表時,Data Catalog 會在查詢時間探索遠端目錄中的最新資料表資訊,取得資料表的 Amazon S3 位置、目前的結構描述和分割區資訊。然後,您的分析引擎 (Amazon Athena、Amazon Redshift、Amazon EMR) 會使用此資訊直接從 Amazon S3 存取 Iceberg 資料檔案。Lake Formation 透過將範圍憑證轉換為存放在 Amazon S3 中的資料表資料來管理對 table (資料表) 的存取,允許引擎將精細的許可套用至聯合資料表 (資料表)。
Catalog Federation 的功能
使用 Lake Formation 管理
Data Catalog 中的聯合 Iceberg 目錄是 Lake Formation 註冊的資源,可讓您使用 Lake Formation 授予,將精細的資料列、資料欄、儲存格層級許可授予聯合 Iceberg 目錄中的 Iceberg 資料表。聯合 Iceberg 目錄和相關聯的物件可以安全地跨 AWS 帳戶共用。聯合 Iceberg 目錄也適用於 Lake Formation 標籤型存取控制,可讓您使用標籤來擴展控管。
網路組態
目錄聯合支援使用標準 HTTPS 連線直接連線至遠端目錄來源。當您想要透過組織防火牆進行安全通訊時,它還支援透過 Amazon VPC 的連線,以及使用代理支援維持網路隔離和連線。
限制
-
Iceberg 資料表中繼資料大小限制 – AWS Glue Data Catalog 支援中繼資料大小上限為 20 MB 的 Iceberg 資料表。 AWS Glue Data Catalog 拒絕對中繼資料超過此限制之資料表的請求。若要探索 中 AWS Glue Data Catalog 中繼資料大小大於 20 MB 的資料表,請啟用資料表的壓縮和快照保留。如需詳細資訊,請參閱《 AWS Glue 開發人員指南》中的最佳化 Iceberg 資料表。