

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 什麼是 AWS Lake Formation？
<a name="what-is-lake-formation"></a>

歡迎使用 AWS Lake Formation 開發人員指南。

AWS Lake Formation 可協助您集中管理、保護和全域共用資料，以進行分析和機器學習。使用 Lake Formation，您可以管理 Amazon Simple Storage Service (Amazon S3) 及其中繼資料上資料湖資料的精細存取控制 AWS Glue Data Catalog。

Lake Formation 提供自己的許可模型，可增強 IAM 許可模型。Lake Formation 許可模型可透過簡單的授予或撤銷機制，對存放在資料湖中的資料以及外部資料來源進行精細存取，例如 Amazon Redshift 資料倉儲、 Amazon DynamoDB 資料庫和第三方資料來源，就像關聯式資料庫管理系統 (RDBMS)。Lake Formation 許可是透過 AWS 分析和機器學習服務中的資料欄、資料列和儲存格層級的精細控制項強制執行，包括 Amazon Athena Amazon Quick、Amazon Redshift Spectrum、Amazon EMR 和 AWS Glue。

使用適用於 AWS Glue Data Catalog (Data Catalog) 的 Lake Formation 混合存取模式，您可以使用 Amazon S3 和 動作的 Lake Formation 許可和 IAM 許可政策來保護和 AWS Glue 存取目錄資料。透過混合存取模式，資料管理員可以選擇性地並遞增地加入 Lake Formation 許可，一次專注於一個資料湖使用案例。

Lake Formation 也可讓您在內部與外部跨多個 AWS 帳戶、 AWS 組織共用資料，或直接與另一個帳戶中的 IAM 主體共用資料，以提供對 Data Catalog 中繼資料和基礎資料的精細存取。

**Topics**
+ [Lake Formation 功能](#lake-formation-features)
+ [AWS Lake Formation：運作方式](how-it-works.md)
+ [Lake Formation 元件](how-it-works-components.md)
+ [Lake Formation 術語](how-it-works-terminology.md)
+ [AWS 服務與 Lake Formation 整合](service-integrations.md)
+ [其他 Lake Formation 資源](additional-resources.md)
+ [Lake Formation 入門](#what-is-lake-formation-start)

## Lake Formation 功能
<a name="lake-formation-features"></a>

Lake Formation 可協助您細分資料孤島，並將不同類型的結構化和非結構化資料合併為集中式儲存庫。首先，識別 Amazon S3 或關聯式和 NoSQL 資料庫中的現有資料存放區，並將資料移至您的資料湖。然後編目、編目和準備資料以供分析。接著，透過使用者的分析服務選擇，為您的使用者提供對資料的安全自助式存取。

您可以使用 Lake Formation 主控台在 Data Catalog 中建立多層聯合目錄，並在 Amazon S3 資料湖和 Amazon Redshift 資料倉儲中統一資料。您也可以整合營運資料庫中的資料 Amazon DynamoDB，例如 Google BigQuery、MySQL 等第三方資料來源。Data Catalog 提供集中式中繼資料儲存庫，可讓您更輕鬆地管理和探索不同系統中的資料。

如需詳細資訊，請參閱[將您的資料帶入 AWS Glue Data Catalog](bring-your-data-overview.md)。

**Topics**
+ [資料擷取和管理](#features-general)
+ [安全管理](#Security-management)
+ [將您的資料帶入 Data Catalog](#data-sharing)

### 資料擷取和管理
<a name="features-general"></a>

**從已位於 的資料庫匯入資料 AWS**  
指定現有資料庫的位置並提供存取憑證後，Lake Formation 會讀取資料及其中繼資料 （結構描述），以了解資料來源的內容。然後，它會將資料匯入新的資料湖，並將中繼資料記錄在中央目錄中。使用 Lake Formation，您可以從在 Amazon RDS 中執行或在 Amazon EC2 中託管的 MySQL、PostgreSQL、SQL Server、MariaDB 和 Oracle 資料庫匯入資料。支援大量和增量資料載入。

**從其他外部來源匯入資料**  
您可以使用 Lake Formation 與 Java Database Connectivity (JDBC) 連線，從內部部署資料庫移動資料。識別您的目標來源，並在 主控台中提供存取憑證，Lake Formation 會讀取您的資料並將其載入資料湖。若要從上述資料庫以外的資料庫匯入資料，您可以使用 建立自訂 ETL 任務 AWS Glue。

**編目和標記您的資料**  
您可以使用 AWS Glue 爬蟲程式讀取 Amazon S3 中的資料，擷取資料庫和資料表結構描述，並將該資料存放在可搜尋的資料目錄中。然後，使用 Lake Formation [Lake Formation 標籤型存取控制](tag-based-access-control.md)(TBAC) 來管理資料庫、資料表和資料欄的許可。如需將資料表新增至 Data Catalog 的詳細資訊，請參閱 [在 中建立物件 AWS Glue Data Catalog](populating-catalog.md)。

### 安全管理
<a name="Security-management"></a>

**定義和管理存取控制**  
Lake Formation 提供單一位置來管理資料湖中資料的存取控制。您可以定義安全政策，限制存取資料庫、資料表、資料欄、資料列和儲存格層級的資料。透過外部身分提供者聯合時，這些政策適用於 IAM 使用者和角色，以及使用者和群組。您可以使用精細控制來存取 Amazon Redshift Spectrum、Athena、 AWS Glue ETL 和 Amazon EMR for Apache Spark 中 Lake Formation 保護的資料。每當您建立 IAM 身分時，請務必遵循 IAM 最佳實務。如需詳細資訊，請參閱《IAM 使用者指南》中的[安全最佳實務](https://docs.aws.amazon.com/IAM/latest/UserGuide/best-practices.html)。

**混合存取模式**  
 Lake Formation 混合存取模式可讓您靈活地選擇性地啟用 Data Catalog 中資料庫和資料表的 Lake Formation 許可。使用混合存取模式時，您現在有一個增量路徑，可讓您為一組特定使用者設定 Lake Formation 許可，而不會中斷其他現有使用者或工作負載的許可政策。如需詳細資訊，請參閱[混合存取模式](hybrid-access-mode.md)。

**實作稽核記錄**  
Lake Formation 透過 CloudTrail 提供全面的稽核日誌，以監控存取並顯示是否符合集中定義的政策。您可以跨分析和機器學習服務稽核資料存取歷史記錄，這些服務會透過 Lake Formation 讀取資料湖中的資料。這可讓您查看哪些使用者或角色嘗試存取哪些資料、使用哪些服務以及何時存取。您可以使用 CloudTrail APIs 和主控台存取任何其他 CloudTrail 日誌的相同方式來存取稽核日誌。如需 CloudTrail 日誌的詳細資訊，請參閱 [使用 記錄 AWS Lake Formation API 呼叫 AWS CloudTrail](logging-using-cloudtrail.md)。

**資料列和儲存格層級安全性**  
Lake Formation 提供資料篩選條件，可讓您限制對資料欄和資料列組合的存取。使用資料列和儲存格層級安全性來保護敏感資料，例如個人身分識別資訊 (PII)。如需資料列層級安全性的詳細資訊，請參閱 [Lake Formation 中的資料篩選和儲存格層級安全性](data-filtering.md)。

**標籤型存取控制**  
使用 Lake Formation [ 屬性型存取控制](https://docs.aws.amazon.com/lake-formation/latest/dg/tag-based-access-control.html)，透過建立稱為 LF 標籤的自訂標籤來管理數百甚至數千個資料許可。您現在可以定義 LF 標籤並將其連接到資料庫、資料表或資料欄。然後，跨分析、機器學習 (ML) 和擷取、轉換和載入 (ETL) 服務共用受控存取以供取用。LF-Tags 使用幾個邏輯標籤取代數千個資源的政策定義，以確保可以輕鬆擴展資料控管。Lake Formation 對此中繼資料提供以文字為基礎的搜尋，因此您的使用者可以快速找到分析所需的資料。

**屬性型存取控制**  
使用[屬性型存取控制](https://docs.aws.amazon.com/lake-formation/latest/dg/attribute-based-access-control.html)來授予 Data Catalog 物件的存取權。屬性型存取控制 (ABAC) 是一種授權策略，可根據屬性定義許可。 會 AWS 呼叫這些屬性標籤。您可以使用 ABAC 將存取權授予相同帳戶或 Data Catalog 資源上另一個帳戶中的主體。任何具有相符 IAM 標籤或工作階段標籤索引鍵和值的 IAM 主體都可以存取資源。您必須擁有資源的可授予許可，才能進行這些授予。

**跨帳戶存取**  
Lake Formation 許可管理功能透過集中式方法簡化跨多個 AWS 帳戶保護和管理分散式資料湖，為 Data Catalog 和 Amazon S3 位置提供精細的存取控制。如需詳細資訊，請參閱[Lake Formation 中的跨帳戶資料共用](cross-account-permissions.md)。

### 將您的資料帶入 Data Catalog
<a name="data-sharing"></a>

聯合功能可讓您建立聯合目錄，並針對存放在 Amazon Redshift 等不同資料來源中的資料集設定許可，而無需將資料或中繼資料遷移至 Amazon S3 或 AWS Glue Data Catalog。您可以使用下列方法來為 Lake Formation 中的外部資料集帶來資料和管理許可：

如需詳細資訊，請參閱[將資料帶入 AWS Glue Data Catalog](https://docs.aws.amazon.com/lake-formation/latest/dg/bring-your-data-overview.html)。
+ **將 Amazon Redshift 資料倉儲中的資料帶入 AWS Glue Data Catalog**：向 Data Catalog 註冊現有的 [Amazon Redshift](https://docs.aws.amazon.com/redshift/index.html) 命名空間或叢集，並在 Data Catalog 中建立多層聯合目錄。

  您可以使用任何與 Apache Iceberg REST 目錄 OpenAPI 規格相容的查詢引擎來存取資料，例如 Amazon EMR Serverless 和 Amazon Athena。

  如需詳細資訊，請參閱[將 Amazon Redshift 資料帶入 AWS Glue Data Catalog](managing-namespaces-datacatalog.md)。
+ **從外部資料來源聯合到 Data Catalog** – 使用連線將 Data Catalog 連接到外部資料來源 AWS Glue ，並使用 Lake Formation 建立聯合目錄以集中管理資料集的存取許可。不需要將中繼資料遷移至 Data Catalog。

  如需詳細資訊，請參閱[在 中聯合到外部資料來源 AWS Glue Data Catalog](federated-catalog-data-connection.md)。
+ **將 Amazon S3 資料表儲存貯體與 Data Catalog 整合** – 您可以將 Amazon S3 資料表發佈並編目為 Data Catalog 物件，並從 Lake Formation 主控台或使用 AWS Glue APIs將目錄註冊為 Lake Formation 資料位置。

  如需詳細資訊，請參閱[Amazon S3 Tables 與 AWS Glue Data Catalog 和 整合 AWS Lake Formation](create-s3-tables-catalog.md)。
+ **建立目錄以管理 Data Catalog 中的 Amazon Redshift 資料表** – 您目前可能沒有可用的 Amazon Redshift 生產者叢集或 Amazon Redshift 資料共用，但想要使用 Data Catalog 建立和管理 Amazon Redshift 資料表。您可以使用 `glue:CreateCatalog` API 或 AWS Lake Formation 主控台建立 AWS Glue 受管目錄，並將目錄類型設定為 `Managed`和 `Catalog source` **Redshift**，以開始使用。

  如需詳細資訊，請參閱[在 中建立 Amazon Redshift 受管目錄 AWS Glue Data Catalog](create-rms-catalog.md)。
+ **將 Lake Formation 與 Amazon Redshift 資料共用整合 **– 使用 Lake Formation 集中管理 [Amazon Redshift](https://docs.aws.amazon.com/redshift/index.html) 資料共用的資料庫、資料表、資料欄和資料列層級存取許可，並限制使用者存取資料共用中的物件。
+ **將 Data Catalog 連接到外部中繼存放**區 – AWS Glue Data Catalog 連接到外部中繼存放區，以使用 Lake Formation 管理 Amazon S3 中資料集的存取許可。不需要將中繼資料遷移至 Data Catalog。

   如需詳細資訊，請參閱[管理使用外部中繼存放區的資料集許可](data-sharing-hms.md)。
+ **整合 Lake Formation 與 AWS 資料交換** – Lake Formation 支援透過 授權存取您的資料 AWS Data Exchange。如果您有興趣授權 Lake Formation 資料，請參閱*AWS Data Exchange 《 使用者指南*》中的[什麼是 AWS Data Exchange](https://docs.aws.amazon.com/data-exchange/latest/userguide/what-is.html) 。

# AWS Lake Formation：運作方式
<a name="how-it-works"></a>

 AWS Lake Formation 提供關聯式資料庫管理系統 (RDBMS) 許可模型，以授予或撤銷對 Data Catalog 資源的存取權，例如 Amazon S3 中具有基礎資料的資料庫、資料表和資料欄。易於管理的 Lake Formation 許可會取代複雜的 Amazon S3 儲存貯體政策和對應的 IAM 政策。

在 Lake Formation 中，您可以在兩個層級實作許可：
+ 對資料庫和資料表等 Data Catalog 資源強制執行中繼資料層級許可
+ 代表整合引擎管理存放在 Amazon S3 中基礎資料的儲存存取許可 

## Lake Formation 許可管理工作流程
<a name="lf-workflow"></a>

Lake Formation 與分析引擎整合，以查詢向 Lake Formation 註冊的 Amazon S3 資料存放區和中繼資料物件。下圖說明許可管理如何在 Lake Formation 中運作。

![\[Diagram showing Lake Formation permissions enforcement layers and data access flow.\]](http://docs.aws.amazon.com/zh_tw/lake-formation/latest/dg/images/lf-workflow.png)


**Lake Formation 許可管理高階步驟**

在 Lake Formation 可以為資料湖中的資料提供存取控制之前，具有管理許可[*的資料湖管理員*](initial-lf-config.md#create-data-lake-admin)或使用者會設定個別 Data Catalog 資料表使用者政策，以允許或拒絕使用 Lake Formation 許可存取 Data Catalog 資料表。

然後，資料湖管理員或管理員委派的使用者會將 Lake Formation 許可授予 Data Catalog 資料庫和資料表上的使用者，並向 Lake Formation 註冊資料表的 Amazon S3 位置。

1. **取得中繼資料** – 委託人 （使用者） 將查詢或 ETL 指令碼提交至[整合的分析引擎](working-with-services.md)，例如 Amazon Athena AWS Glue、Amazon EMR 或 Amazon Redshift Spectrum。整合式分析引擎會識別正在請求的資料表，並將中繼資料請求傳送至 Data Catalog。

1. **檢查許可** – Data Catalog 會使用 Lake Formation 檢查使用者的許可，如果使用者獲得存取資料表的授權， 會將允許使用者查看的中繼資料傳回給引擎。

1. **取得憑證** – Data Catalog 可讓引擎知道資料表是否由 Lake Formation 管理。如果基礎資料已向 Lake Formation 註冊，分析引擎會請求 Lake Formation 透過授予暫時存取權來提供資料存取。

1. **取得資料** – 如果使用者獲得存取資料表的授權，Lake Formation 會提供整合式分析引擎的暫時存取權。使用暫時存取，分析引擎會從 Amazon S3 擷取資料，並執行必要的篩選，例如資料欄、資料列或儲存格篩選。當引擎完成執行任務時，會將結果傳回給使用者。此程序稱為[登入資料販賣](using-cred-vending.md)。

   如果資料表不是由 Lake Formation 管理，則分析引擎的第二個呼叫會直接對 Amazon S3 進行。評估相關的 Amazon S3 儲存貯體政策和 IAM 使用者政策以進行資料存取。

   每當您使用 IAM 政策時，請務必遵循 IAM 最佳實務。如需詳細資訊，請參閱《IAM 使用者指南》**中的 [IAM 中的安全性最佳實務](https://docs.aws.amazon.com/IAM/latest/UserGuide/best-practices.html)。

**Topics**
+ [Lake Formation 許可管理工作流程](#lf-workflow)
+ [中繼資料許可](metadata-permissions.md)
+ [儲存存取管理](storage-permissions.md)
+ [Lake Formation 中的跨帳戶資料共用](cross-data-sharing-lf.md)

# 中繼資料許可
<a name="metadata-permissions"></a>

 Lake Formation 提供 Data Catalog 的授權和存取控制。當 IAM 角色從任何系統進行 Data Catalog API 呼叫時，Data Catalog 會驗證使用者的資料許可，並僅傳回使用者有權存取的中繼資料。例如，如果 IAM 角色只能存取資料庫中的一個資料表，且擔任該角色的服務或使用者執行`GetTables`操作，則無論資料庫中的資料表數目為何，回應只會包含一個資料表。

 **預設設定 - `IAMAllowedPrincipal`群組許可**

 AWS Lake Formation根據預設， 會將所有資料庫和資料表的許可設定為名為 的虛擬群組`IAMAllowedPrincipal`。此群組是唯一的，並且僅在 Lake Formation 中可見。`IAMAllowedPrincipal` 群組包含所有可透過 IAM 主體政策和資源政策存取 Data Catalog AWS Glue 資源的 IAM 主體。如果此許可存在於資料庫或資料表上，則會授予所有主體存取資料庫或資料表的權限。

如果您想要在資料庫或資料表上提供更精細的許可，請移除`IAMAllowedPrincipal`許可，Lake Formation 會強制執行與該資料庫或資料表相關聯的所有其他政策。例如，如果有政策允許使用者 A 存取具有`DESCRIBE`許可的資料庫 A，且 `IAMAllowedPrincipal` 具有所有許可，則使用者 A 將繼續執行所有其他動作，直到撤銷`IAMAllowedPrincipal`許可為止。

此外，根據預設， `IAMAllowedPrincipal`群組在建立所有新資料庫和資料表時都有其許可。控制此行為的組態有兩種。第一個位於帳戶和區域層級，為新建立的資料庫啟用此功能，第二個位於資料庫層級。若要修改預設設定，請參閱 [變更預設許可模型或使用混合存取模式](initial-lf-config.md#setup-change-cat-settings)。

## 授予許可
<a name="grant-permissions"></a>

資料湖管理員可以將 Data Catalog 許可授予主體，以便主體可以建立和管理資料庫和資料表，並可以存取基礎資料。

 **資料庫和資料表層級許可**

當您在 Lake Formation 中授予許可時，授予者必須指定授予許可的委託人、授予許可的資源，以及承授者應有權執行的動作。對於 Lake Formation 中的大多數資源，授予許可的委託人清單和資源都很類似，但承授者可以執行的動作會根據資源類型而有所不同。例如，資料表可讀取資料表的`SELECT`許可，但資料庫不允許`SELECT`許可。資料庫上允許 `CREATE_TABLE`許可，但資料表上不允許 許可。

您可以使用兩種方法來授予 AWS Lake Formation 許可：
+ [具名資源方法](granting-cat-perms-named-resource.md) – 可讓您在授予使用者許可時選擇資料庫和資料表名稱。
+ [LF 標籤型存取控制 (LF-TBAC)](granting-catalog-perms-TBAC.md) – 使用者建立 LF 標籤、將其與 Data Catalog 資源建立關聯、對 LF 標籤授予`Describe`許可、將許可關聯至個別使用者，以及使用 LF 標籤將 LF 許可政策寫入至不同使用者。這類以 LF-Tag-based政策適用於與這些 LF 標籤值相關聯的所有資料目錄資源。
**注意**  
LF 標籤對 Lake Formation 是唯一的。它們僅在 Lake Formation 中可見，不應與 AWS 資源標籤混淆。

  LF-TBAC 是一項功能，可讓使用者將資源分組為使用者定義的 LF 標籤類別，並在這些資源群組上套用許可。因此，這是跨大量 Data Catalog 資源擴展許可的最佳方式。

  如需詳細資訊，請參閱[Lake Formation 標籤型存取控制](tag-based-access-control.md)。

 當您將許可授予委託人時，Lake Formation 會將許可評估為該使用者所有政策的聯集。例如，如果您的委託人資料表上有兩個政策，其中一個政策透過具名資源方法授予資料欄 col1、col2 和 col3 的許可，而另一個政策授予相同資料表和委託人 col5 的許可，以及透過 LF 標籤的 col6，則有效的許可將是許可的聯集，即 col1、col2、col3、col5 和 col6。這也包含資料篩選條件和資料列。

**資料位置許可**  
資料位置許可可讓非管理使用者在特定 Amazon S3 位置建立資料庫和資料表。如果使用者嘗試在他們沒有建立許可的位置建立資料庫或資料表，則建立任務會失敗。這是為了防止使用者在資料湖內的任意位置建立資料表，並提供使用者可讀取和寫入資料的位置控制。在建立資料表的資料庫中的 Amazon S3 位置中建立資料表時，會有隱含許可。如需詳細資訊，請參閱[授予資料位置許可](granting-location-permissions.md)。

**建立資料表和資料庫許可**  
根據預設，非管理使用者沒有在資料庫中建立資料庫或資料表的許可。資料庫建立是在帳戶層級使用 Lake Formation 設定進行控制，因此只有授權的主體才能建立資料庫。如需詳細資訊，請參閱[建立資料庫](creating-database.md)。若要建立資料表，主體需要建立資料表之資料庫的`CREATE_TABLE`許可。如需詳細資訊，請參閱[建立資料表建置 AWS Glue Data Catalog 檢視](creating-tables.md)。

**隱含和明確許可**  
Lake Formation 會根據角色和角色執行的動作提供隱含許可。例如，資料湖管理員會自動取得資料目錄中所有資源的`DESCRIBE`許可、所有位置的資料位置許可、在所有位置建立資料庫和資料表的許可，`Grant`以及任何資源的`Revoke`許可。資料庫建立者會自動取得其所建立資料庫的所有資料庫許可，而資料表建立者則取得其所建立資料表的所有許可。如需詳細資訊，請參閱[隱含 Lake Formation 許可](implicit-permissions.md)。

**准許許可**  
資料湖管理員能夠透過提供可授予的許可，將許可的管理委派給非管理使用者。當委託人獲得資源的可授予許可和一組許可時，該委託人將能夠授予該資源上的其他委託人許可。

# 儲存存取管理
<a name="storage-permissions"></a>

 Lake Formation 使用[登入資料販賣](using-cred-vending.md)功能來暫時存取 Amazon S3 資料。登入資料販賣或字符販賣是一種常見的模式，可提供臨時登入資料給使用者、服務或一些其他實體，以授予短期存取資源。

Lake Formation 會利用此模式，提供 Athena 等 AWS 分析服務的短期存取權，以代表呼叫委託人存取資料。授予許可時，使用者不需要更新其 Amazon S3 儲存貯體政策或 IAM 政策，也不需要直接存取 Amazon S3。

下圖顯示 Lake Formation 如何暫時存取已註冊的位置：

![\[Diagram showing Lake Formation's process for providing temporary access to registered locations.\]](http://docs.aws.amazon.com/zh_tw/lake-formation/latest/dg/images/storage-permissions-workflow.png)


1. 委託人 （使用者） 透過 Athena、Amazon EMR、Redshift Spectrum 或 等受信任的整合服務輸入資料表的查詢或資料請求 AWS Glue。

1. 整合的服務會檢查 Lake Formation 的授權，以取得資料表和請求的資料欄，並進行授權判斷。如果使用者未獲授權，Lake Formation 會拒絕存取資料，且查詢會失敗。

1. 資料表和使用者的授權成功且開啟儲存授權後，整合服務會從 Lake Formation 擷取臨時憑證以存取資料。

1. 整合的服務會使用 Lake Formation 的臨時登入資料，從 Amazon S3 請求物件。

1. Amazon S3 提供整合服務的 Amazon S3 物件。Amazon S3 物件包含資料表中的所有資料。

1. 整合的服務會執行 Lake Formation 政策的必要強制執行，例如資料欄層級、資料列層級和/或儲存格層級篩選。整合的服務會處理查詢，並將結果傳回給使用者。

**啟用 Data Catalog 資料表的儲存層級許可強制執行**  
根據預設，不會為 Data Catalog 中的資料表啟用儲存層級強制執行。若要啟用儲存層級強制執行，您必須向 Lake Formation 註冊來源資料的 Amazon S3 位置，並提供 IAM 角色。將針對具有相同資料表位置路徑或 Amazon S3 位置字首的所有資料表啟用儲存層級許可。

當整合的服務代表使用者請求存取資料位置時，Lake Formation 服務會擔任此角色，並將登入資料傳回至具有資源縮小範圍許可的請求服務，以便進行資料存取。已註冊的 IAM 角色必須具備 Amazon S3 位置的所有必要存取權，包括 AWS KMS 金鑰。

如需詳細資訊，請參閱[註冊 Amazon S3 位置](register-location.md)。

**支援 AWS 的服務**  
AWS 分析服務，例如 Athena、Redshift Spectrum、Amazon EMR AWS Glue Amazon Quick，並使用 AWS Lake Formation 憑證販賣 API 操作與 Lake Formation Amazon SageMaker AI 整合。若要查看與 Lake Formation 整合 AWS 的服務完整清單，以及其支援的精細程度和資料表格式，請參閱 [使用其他 AWS 服務](working-with-services.md)。

# Lake Formation 中的跨帳戶資料共用
<a name="cross-data-sharing-lf"></a>

 使用 Lake Formation，您可以使用具名資源方法或 LF 標籤，以簡單的設定在 AWS 帳戶內和跨帳戶共用 Data Catalog 資源 （資料庫和資料表）。您可以將整個資料庫或從資料庫中選取資料表，分享給帳戶中的任何 IAM 主體 (IAM 角色和使用者）、帳戶層級的其他 AWS 帳戶，或直接分享給另一個帳戶中的 IAM 主體。

您也可以與資料篩選條件共用 Data Catalog 資料表，以限制對資料列層級和儲存格層級詳細資訊的存取。Lake Formation 使用 AWS Resource Access Manager (AWS RAM) 來協助在帳戶之間授予許可。在兩個帳戶之間共用資源時， AWS RAM 會將邀請傳送給收件人帳戶。當使用者接受 AWS RAM 共享邀請時， AWS RAM 會提供 Lake Formation 必要的許可，讓 Data Catalog 資源可用，以及啟用的儲存層級強制執行。如需詳細資訊，請參閱[Lake Formation 中的跨帳戶資料共用](cross-account-permissions.md)。

當收件人帳戶的資料湖管理員接受 AWS RAM 共用時，收件人帳戶中會提供共用資源。如果管理員擁有共用資源的許可，則資料湖管理員會將共用資源`GRANTABLE`的 Lake Formation 許可進一步授予收件人帳戶中的其他 IAM 主體。

不過，在沒有資源連結的情況下，主體無法使用 Athena 或 Redshift Spectrum 查詢共用資源。資源連結是 Data Catalog 中的實體，類似於 Linux-Symlink 概念。

收件人帳戶的資料湖管理員會在共用資源上建立資源連結。管理員授予 資源連結的`Describe`許可，以及原始共用資源所需的許可給其他使用者。然後，收件人帳戶中的使用者可以使用資源連結，使用 Athena 和 Redshift Spectrum 查詢共用資源。如需資源連結的詳細資訊，請參閱 [建立資源連結](creating-resource-links.md)。

# Lake Formation 元件
<a name="how-it-works-components"></a>

AWS Lake Formation 依賴多個元件的互動來建立和管理資料湖。

## Lake Formation 主控台
<a name="components-console"></a>

您可以使用 Lake Formation 主控台來定義和管理資料湖，並授予和撤銷 Lake Formation 許可。您可以在 主控台上使用藍圖來探索、清理、轉換和擷取資料。您也可以為個別 Lake Formation 使用者啟用或停用對 主控台的存取。

## Lake Formation API 和命令列界面
<a name="components-cli"></a>

Lake Formation 透過多種語言特定的 SDKs和 AWS Command Line Interface () 提供 API 操作AWS CLI。Lake Formation API 可與 AWS Glue API 搭配使用。Lake Formation API 主要著重於管理 Lake Formation 許可，而 AWS Glue API 則提供資料目錄 API 和受管基礎設施，用於定義、排程和執行資料上的 ETL 操作。

如需 AWS Glue API 的相關資訊，請參閱 [AWS Glue 開發人員指南](https://docs.aws.amazon.com/glue/latest/dg/)。如需使用 的詳細資訊 AWS CLI，請參閱 [AWS CLI 命令參考](https://docs.aws.amazon.com/cli/latest/reference/)。

## AWS 其他服務
<a name="components-other-services"></a>

Lake Formation 使用以下服務：
+ [https://docs.aws.amazon.com/glue/latest/dg/](https://docs.aws.amazon.com/glue/latest/dg/) 協調任務和爬蟲程式，以使用轉換AWS Glue轉換資料。
+ [IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/) 將許可政策授予 Lake Formation 主體。Lake Formation 許可模型增強了 IAM 許可模型，以保護您的資料湖。

# Lake Formation 術語
<a name="how-it-works-terminology"></a>

以下是您將在本指南中遇到的一些重要術語。

## 資料湖
<a name="terminology-data-lake"></a>

*資料湖*是存放在 Amazon S3 中的持久性資料，並由 Lake Formation 使用 Data Catalog 管理。資料湖通常會存放下列項目：
+ 結構化和非結構化資料
+ 原始資料和轉換後的資料

若要讓 Amazon S3 路徑位於資料湖內，則必須向 Lake Formation *註冊*。

## 資料存取
<a name="terminology-data-access"></a>

Lake Formation 透過增強 AWS Identity and Access Management (IAM) 政策的新授予/撤銷許可模型，提供安全且精細的資料存取。

分析師和資料科學家可以使用 AWS Amazon Athena 等分析和機器學習服務的完整產品組合來存取資料。設定的 Lake Formation 安全政策有助於確保使用者只能存取他們獲授權存取的資料。

## 混合存取模式
<a name="terminology-hybridaccessmode"></a>

混合存取模式可讓您同時使用 Lake Formation 許可和 IAM 和 Amazon S3 許可來保護和存取目錄資料。混合存取模式可讓資料管理員選擇性地和遞增地加入 Lake Formation 許可，一次專注於一個資料湖使用案例。

## 藍圖
<a name="terminology-blueprint"></a>

*藍圖*是一種資料管理範本，可讓您輕鬆地將資料擷取至資料湖。Lake Formation 提供數個藍圖，每個藍圖適用於預先定義的來源類型，例如關聯式資料庫或 AWS CloudTrail 日誌。從藍圖中，您可以建立工作流程。工作流程由 AWS Glue 爬蟲程式、任務和觸發程序組成，這些觸發程序是用來協調資料的載入和更新。藍圖採用資料來源、資料目標和排程做為輸入，以設定工作流程。

## 工作流程
<a name="terminology-data-importer"></a>

*工作流程*是一組相關AWS Glue任務、爬蟲程式和觸發程序的容器。您可以在 Lake Formation 中建立工作流程，並在AWS Glue服務中執行。Lake Formation 可以將工作流程的狀態追蹤為單一實體。

當您定義工作流程時，您可以選取其基礎的藍圖。然後，您可以隨需或排程執行工作流程。

您在 Lake Formation 中建立的工作流程會在AWS Glue主控台中以定向無環圖 (DAG) 顯示。使用 DAG，您可以追蹤工作流程的進度並執行故障診斷。

## Data Catalog
<a name="terminology-data-catalog"></a>

*Data Catalog* 是您的持久性中繼資料存放區。這是一種受管服務，可讓您以與在 Apache Hive 中繼存放區相同的方式，在 AWS 雲端中存放、標註和共用中繼資料。它提供統一的儲存庫，其中不同的系統可以存放和尋找中繼資料以追蹤資料孤島中的資料，然後使用該中繼資料來查詢和轉換資料。Lake Formation 使用 AWS Glue Data Catalog 來儲存有關資料湖、資料來源、轉換和目標的中繼資料。

有關資料來源和目標的中繼資料採用資料庫和資料表的形式。資料表存放結構描述資訊、位置資訊等。資料庫是資料表的集合。Lake Formation 提供許可階層，以控制對 Data Catalog 中資料庫和資料表的存取。

每個 AWS 帳戶每個 AWS 區域都有一個資料目錄。

## 基礎資料
<a name="terminology-underlying-data"></a>

*基礎資料*是指資料目錄資料表指向的資料湖內的來源資料或資料。

## Principal
<a name="terminology-principal"></a>

*委託*人是 AWS Identity and Access Management (IAM) 使用者或角色或 Active Directory 使用者。

## 資料湖管理員
<a name="terminology-admin"></a>

*資料湖管理員*是可授予任何委託人 （包括自己） 任何 Data Catalog 資源或資料位置的任何許可的委託人。將資料湖管理員指定為 Data Catalog 的第一個使用者。然後，此使用者可以將更精細的資源許可授予其他委託人。

**注意**  
IAM 管理使用者 - 具有 `AdministratorAccess` AWS 受管政策的使用者 - 不是自動資料湖管理員。例如，除非已獲授予許可，否則他們無法授予目錄物件的 Lake Formation 許可。不過，他們可以使用 Lake Formation 主控台或 API 將自己指定為資料湖管理員。

如需資料湖管理員功能的資訊，請參閱 [隱含 Lake Formation 許可](implicit-permissions.md)。如需將使用者指定為資料湖管理員的詳細資訊，請參閱 [建立資料湖管理員](initial-lf-config.md#create-data-lake-admin)。

# AWS 服務與 Lake Formation 整合
<a name="service-integrations"></a>

您可以使用 Lake Formation 來管理 Amazon S3 中所存放資料的資料庫、資料表和資料欄層級存取許可。向 Lake Formation 註冊資料後，您可以使用 AWS 分析服務 AWS Glue，例如 Amazon Athena、Amazon Redshift Spectrum、Amazon EMR 來查詢資料。下列 AWS 服務與 整合 AWS Lake Formation 並遵循 Lake Formation 許可。


| AWS 服務 | 整合詳細資訊 | 
| --- | --- | 
| [https://docs.aws.amazon.com/glue/latest/dg/](https://docs.aws.amazon.com/glue/latest/dg/) |  參考主題：[AWS Lake Formation 搭配 使用 AWS Glue](glue-features-lf.md) AWS Glue 和 Lake Formation 共用相同的資料目錄。對於主控台操作 （例如檢視資料表清單） 和所有 API 操作，AWS Glue使用者只能存取具有 Lake Formation 許可的資料庫和資料表。  | 
| [Amazon Athena](https://docs.aws.amazon.com/athena/latest/ug/) |  參考主題：[AWS Lake Formation 搭配 Amazon Athena 使用](athena-lf.md) 使用 Lake Formation 允許或拒絕在 Amazon S3 中讀取資料的許可。當 Amazon Athena 使用者在查詢編輯器中選取AWS Glue目錄時，他們只能查詢具有 Lake Formation 許可的資料庫、資料表和資料欄。不支援使用資訊清單的查詢。 目前，Lake Formation 不支援管理 Open Table Formats 中 `VACUUM`、 `MERGE``UPDATE`和 等寫入操作`OPTIMIZE`的許可。 除了透過 AWS Identity and Access Management (IAM) 驗證 Athena 的委託人之外，Lake Formation 還支援透過 JDBC 或 ODBC 驅動程式連線並透過 SAML 驗證的 Athena 使用者。支援的 SAML 供應商包括 Okta 和 Microsoft Active Directory Federation Service (AD FS)。  | 
| [Amazon Redshift Spectrum](https://docs.aws.amazon.com/redshift/latest/dg/c-using-spectrum.html) |  參考主題：[AWS Lake Formation 搭配 Amazon Redshift Spectrum 使用](RSPC-lf.md) 當 Amazon Redshift 使用者在 中的資料庫上建立外部結構描述時 AWS Glue Data Catalog，他們只能查詢具有 Lake Formation 許可的該結構描述中的資料表和資料欄。  | 
| [Amazon Quick Enterprise Edition](https://docs.aws.amazon.com/quicksight/latest/user/welcome.html) | 參考： [AWS Lake Formation 搭配 Quick 使用](qs-integ-lf.md) 當 Amazon Quick Enterprise Edition 使用者在 Amazon S3 位置查詢資料集時，使用者必須擁有資料的 Lake Formation `SELECT`許可。  | 
| [Amazon EMR](https://docs.aws.amazon.com/emr/latest/DeveloperGuide/)  | 參考： [AWS Lake Formation 搭配 Amazon EMR 使用](emr-integ-lf.md) 您可以在建立具有執行期角色的 Amazon EMR 叢集時整合 Lake Formation 許可。 執行期角色是您與 Amazon EMR 任務或查詢建立關聯的 IAM 角色，然後 Amazon EMR 使用此角色存取 AWS 資源。  | 

Lake Formation 也使用 [AWS Key Management Service](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html)(AWS KMS)，讓您更輕鬆地設定這些整合服務，以加密和解密 Amazon Simple Storage Service (Amazon S3) 位置中的資料。

# 其他 Lake Formation 資源
<a name="additional-resources"></a>

 如需詳細資訊 AWS Lake Formation，建議您使用下列資源，繼續進一步了解本指南中介紹的概念：

**Topics**
+ [部落格](#lf-blogs)
+ [技術講座和網路研討會](#talks-webinars)
+ [現代架構](#modern-day-architecture)
+ [資料網格資源](#data-mesh-resources)
+ [最佳實務指南](#best-practice-lf)

## 部落格
<a name="lf-blogs"></a>
+  [AWS Lake Formation 2022 年審核中](https://aws.amazon.com/blogs/big-data/aws-lake-formation-2022-year-in-review/) 
+ [高彈性的多區域現代化資料架構](https://aws.amazon.com/blogs/big-data/build-a-multi-region-and-highly-resilient-modern-data-architecture-using-aws-glue-and-aws-lake-formation/)
+  [使用 LF 標籤來引導 IAM 主體的跨帳戶共用](https://aws.amazon.com/blogs/big-data/enable-cross-account-sharing-with-direct-iam-principals-using-aws-lake-formation-tags/) 
+ [Lake Formation 許可庫存儀表板](https://aws.amazon.com/blogs/big-data/build-an-aws-lake-formation-permissions-inventory-dashboard-using-aws-glue-and-amazon-quicksight/) 
+ [事件驅動型資料網格](https://aws.amazon.com/blogs/big-data/use-an-event-driven-architecture-to-build-a-data-mesh-on-aws/)

## 技術講座和網路研討會
<a name="talks-webinars"></a>
+ re：Invent 2020 – [資料湖：輕鬆建置、保護和共用 AWS Lake Formation](https://www.youtube.com/watch?v=r5F0hvuq9kY) 
+ re：Invent 2022 – [在 Amazon S3 上建置和操作資料湖](https://www.youtube.com/watch?v=YCNVdK5kPWk)
+ AWS Summit SF 2022 – [了解並實現現代資料架構](https://www.youtube.com/watch?v=rWQQDcqgcdw) 
+ AWS Summit ATL 2022 – [使用 AWS Lake Formation、Amazon Redshift 和 的現代資料湖 AWS Glue](https://www.youtube.com/watch?v=7H15CYpJRRI) 
+ AWS Summit ANZ 2022 – [資料湖、湖房和資料網格：什麼、為什麼和如何？](https://www.youtube.com/watch?v=3354wJV3X58)
+ AWS 線上技術講座 – [簡化資料湖中的許可和管理 ](https://www.youtube.com/watch?v=OybeggHYfRI) 

## 現代架構
<a name="modern-day-architecture"></a>
+ [現代架構模式](https://docs.aws.amazon.com/wellarchitected/latest/analytics-lens/modern-data-architecture.html)

## 資料網格資源
<a name="data-mesh-resources"></a>
+  [使用 AWS Lake Formation 標籤型存取控制大規模建置現代化資料架構和資料網格模式](https://aws.amazon.com/blogs/big-data/build-a-modern-data-architecture-and-data-mesh-pattern-at-scale-using-aws-lake-formation-tag-based-access-control/) 
+ [JPMorgan Chase 如何建置資料網格架構，以推動顯著價值來增強其企業資料平台](https://aws.amazon.com/blogs/big-data/how-jpmorgan-chase-built-a-data-mesh-architecture-to-drive-significant-value-to-enhance-their-enterprise-data-platform/)
+ [在 上建置資料網格 AWS](https://catalog.us-east-1.prod.workshops.aws/workshops/23e6326b-58ee-4ab0-9bc7-3c8d730eb851/en-US)

## 最佳實務指南
<a name="best-practice-lf"></a>
+ [AWS Lake Formation 最佳實務指南](https://aws.github.io/aws-lakeformation-best-practices/) 

## Lake Formation 入門
<a name="what-is-lake-formation-start"></a>

我們建議您從下列各節開始著手：
+ [AWS Lake Formation：運作方式](how-it-works.md) — 了解基本術語和各種元件的互動方式。
+ [Lake Formation 入門](getting-started-setup.md) — 取得先決條件的相關資訊，並完成重要的設定任務。
+ [AWS Lake Formation 教學課程](getting-started-tutorials.md) — 遵循step-by-step教學課程，了解如何使用 Lake Formation。
+ [AWS Lake Formation 的安全性](security.md) — 了解如何協助安全存取 Lake Formation 中的資料。