

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 建議的資料層
<a name="data-layer-definitions"></a>

如果您使用非敏感資料，例如不包含個人身分識別資訊 (PII) 的資料，我們建議您在 上的資料湖中使用至少三個不同的資料層 AWS 雲端。

不過，根據資料的複雜性和使用案例，您可能需要額外的層。例如，如果您使用敏感資料，例如 PII 資料，我們建議您使用額外的 Amazon Simple Storage Service (Amazon S3) 儲存貯體做為登陸區域。然後，在將資料移至原始資料層之前遮罩資料。如需詳細資訊，請參閱本指南的[處理敏感資料](sensitive-data.md)一節。

每個資料層都必須有個別的 Amazon S3 儲存貯體。下表說明建議的資料層。


****  

| 資料層名稱 | 描述 | 生命週期政策策略範例 | 
| --- | --- | --- | 
| 原始 | 包含原始、未處理的資料。資料會擷取到此層中的資料湖。如果可能，您應該保留原始檔案格式，並在 Amazon S3 儲存貯體中開啟版本控制。 | 一年後，將檔案移至 [Amazon S3 不常存取 (IA) 儲存類別](https://docs.aws.amazon.com/AmazonS3/latest/userguide/storage-class-intro.html#sc-infreq-data-access)。在 Amazon S3 IA 兩年後，將其封存至 [Amazon Glacier 儲存類別](https://docs.aws.amazon.com/AmazonS3/latest/userguide/glacier-storage-classes.html)。 | 
| 階段 | 包含針對取用最佳化的中繼處理資料 （例如 CSV 到 Apache Parquet 轉換原始檔案或資料轉換）。 AWS Glue 任務會從原始層讀取檔案並驗證資料。然後， AWS Glue 任務將資料存放在 Apache Parquet 格式的檔案中，中繼資料存放在 中的資料表中 AWS Glue Data Catalog。 | 資料可以在定義的時段後或根據組織的需求刪除。有些資料衍生項目，例如原始 JSON 格式的 Apache Avro 轉換，可以在較短的時間之後從資料湖中移除，例如 90 天後。 | 
| 分析 | 包含使用就緒格式之特定使用案例的彙總資料，例如 Apache Parquet。 | 資料可以移至 Amazon S3 IA，然後在定義的時段後或根據您的組織需求刪除。 | 

**注意**  
您必須根據組織需求、法規要求、查詢模式和成本考量來評估所有建議的生命週期政策策略。