

# SUS04-BP05 移除不需要或多餘的資料
<a name="sus_sus_data_a6"></a>

移除不需要或多餘的資料，以盡量降低儲存資料集時所需的儲存資源。

 **常見的反模式：**
+  您複製可以輕鬆取得或重新建立的資料。
+  您備份所有資料，而不考慮該資料是否重要。
+  您只會不定期地刪除資料、在發生營運事件時刪除資料，或完全不刪除資料。
+  您重複儲存資料，而不理會儲存服務的耐用性。
+  您在沒有任何商務理由的情況下開啟 Amazon S3 版本控制。

 **建立此最佳實務的優勢：**移除不需要的資料會降低工作負載所需的儲存大小，以及工作負載環境所受到的影響。

 **未建立此最佳實務時的曝險等級：**中 

## 實作指引
<a name="implementation-guidance"></a>

 當移除不需要的備援資料集時，即可縮減儲存成本和環境耗用面積。這種做法也可讓運算更有效率，因為運算資源只會處理重要資料，而不是不需要的資料。請自動刪除不需要的資料。使用會在檔案層級和區塊層級刪除重複資料的技術。使用服務原生資料複寫和備援功能。

### 實作步驟
<a name="implementation-steps"></a>
+  **評估公有資料集：**評估您是否可以藉由使用 [AWS Data Exchange](https://aws.amazon.com/data-exchange/) 和 [AWS 上的開放資料](https://registry.opendata.aws/)中現有公開提供的資料集，以避免儲存資料。
+  **刪除重複資料：**使用可在區塊和物件層級刪除重複資料的機制。下面幾個範例會說明如何在 AWS 上刪除重複資料：    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/wellarchitected/latest/framework/sus_sus_data_a6.html)
+  **使用生命週期政策：**使用生命週期政策來自動刪除不需要的資料。使用原生服務功能 (例如 [Amazon DynamoDB Time To Live](https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/TTL.html)、[Amazon S3 Lifecycle](https://docs.aws.amazon.com/AmazonS3/latest/userguide/object-lifecycle-mgmt.html) 或 [Amazon CloudWatch 日誌保留](https://docs.aws.amazon.com/managedservices/latest/userguide/log-customize-retention.html)) 執行刪除作業。
+  **使用資料虛擬化：**使用 AWS 上的資料虛擬化功能以保有其來源處的資料，並避免資料重複。
  +  [AWS 上的雲端原生資料虛擬化](https://www.youtube.com/watch?v=BM6sMreBzoA) 
  +  [使用 Amazon Redshift 資料共用來最佳化資料模式](https://catalog.workshops.aws/well-architected-sustainability/en-US/3-data/optimize-data-pattern-using-redshift-data-sharing) 
+  **使用增量備份：**使用可以進行增量備份的備份技術。
+  **使用原生耐久性：**利用 [Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/DataDurability.html) 的耐久性和 [Amazon EBS 的複寫功能](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ebs-volumes.html)來滿足耐久性目標，而非利用自我管理的技術 (例如獨立硬碟冗餘陣列 (RAID))。
+  **使用有效率的記錄：**集中日誌和追蹤資料、刪除重複的日誌項目，並建立根據需要微調詳細程度的機制。
+  **使用有效率的快取：**僅在合理的情況下預先填入快取。
+  建立快取監控和自動化，據以調整快取大小。
+  **移除舊版資產：**推送工作負載新版本時，從物件存放區和邊緣快取移除過時的部署和資產。

## 資源
<a name="resources"></a>

 **相關文件：**
+  [變更 CloudWatch Logs 中的日誌資料保留](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/Working-with-log-groups-and-streams.html#SettingLogRetention) 
+  [Amazon FSx for Windows File Server 上的重複資料刪除](https://docs.aws.amazon.com/fsx/latest/WindowsGuide/using-data-dedup.html) 
+  [Amazon FSx for ONTAP 的功能，包括重複資料刪除](https://docs.aws.amazon.com/fsx/latest/ONTAPGuide/what-is-fsx-ontap.html#features-overview) 
+  [使 Amazon CloudFront 上的檔案失效](https://docs.aws.amazon.com/AmazonCloudFront/latest/DeveloperGuide/Invalidation.html) 
+  [使用 AWS Backup 來備份和還原 Amazon EFS 檔案系統](https://docs.aws.amazon.com/efs/latest/ug/awsbackup.html) 
+  [什麼是 Amazon CloudWatch Logs？](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) 
+  [在 Amazon RDS 上使用備份](https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/USER_WorkingWithAutomatedBackups.html) 
+  [使用 AWS Lake Formation 整合及刪除重複資料集](https://aws.amazon.com/blogs/big-data/integrate-and-deduplicate-datasets-using-aws-lake-formation-findmatches/) 

 **相關影片：**
+  [Amazon Redshift 資料共用使用案例](https://www.youtube.com/watch?v=sIoTB8B5nn4) 

 **相關範例：**
+  [我要如何使用 Amazon Athena 分析 Amazon S3 伺服器存取日誌？](https://aws.amazon.com/premiumsupport/knowledge-center/analyze-logs-athena/) 