

# SUS04-BP05 删除不需要或多余的数据
<a name="sus_sus_data_a6"></a>

删除不需要或多余的数据，以最大程度地减少存储数据集所需的存储资源。

 **常见反模式：**
+  复制可以轻松获取或重新创建的数据。
+  备份所有数据时不考虑其重要性。
+  只不定期地删除数据、操作事件时删除数据，或者根本不删除数据。
+  无论存储服务的持久性如何，都冗余地存储数据。
+  您在没有任何业务理由的情况下启用 Amazon S3 版本控制。

 **建立此最佳实践的好处：**删除不需要的数据可以减少工作负载所需的存储大小和工作负载对环境的影响。

 **在未建立这种最佳实践的情况下暴露的风险等级：**中 

## 实施指导
<a name="implementation-guidance"></a>

 当您移除不需要和冗余的数据集时，可以降低存储成本和环境足迹。这种做法还可以提高计算效率，因为计算资源只处理重要的数据，而不处理不需要的数据。自动删除不需要的数据。使用技术在文件和数据块级别进行重复数据删除。使用服务功能来实现原生数据复制和冗余。

### 实施步骤
<a name="implementation-steps"></a>
+  **评估公开数据集：**评估是否可以通过使用 [AWS Data Exchange](https://aws.amazon.com/data-exchange/) 和 [Open Data on AWS](https://registry.opendata.aws/) 中现有公开可用的数据集来避免存储数据。
+  **删除重复数据：**使用可以在数据块和对象级别删除重复数据的机制。以下是有关如何删除 AWS 上的重复数据的一些示例：    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/wellarchitected/latest/sustainability-pillar/sus_sus_data_a6.html)
+  **使用生命周期策略：**使用生命周期策略来自动删除不需要的数据。使用原生服务功能（如 [Amazon DynamoDB 生存时间](https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/TTL.html)、[Amazon S3 生命周期](https://docs.aws.amazon.com/AmazonS3/latest/userguide/object-lifecycle-mgmt.html)或 [Amazon CloudWatch log retention](https://docs.aws.amazon.com/managedservices/latest/userguide/log-customize-retention.html)）进行删除。
+  **使用数据虚拟化：**使用 AWS 上的数据虚拟化功能在源头维护数据并避免数据重复。
  +  [AWS 上的云原生数据虚拟化](https://www.youtube.com/watch?v=BM6sMreBzoA) 
  +  [Optimize Data Pattern Using Amazon Redshift Data Sharing](https://catalog.workshops.aws/well-architected-sustainability/en-US/3-data/optimize-data-pattern-using-redshift-data-sharing) 
+  **使用增量备份：**使用可进行增量备份的备份技术。
+  **使用原生持久性：**利用 [Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/DataDurability.html) 的持久性和 [Amazon EBS 的复制](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ebs-volumes.html)来实现您的持久性目标，而不是使用自行管理的技术 [例如独立磁盘冗余阵列（RAID）]。
+  **使用高效的日志记录：**集中日志和跟踪数据，对相同的日志条目进行重复数据删除，并在需要时建立调整详细程度的机制。
+  **使用高效的缓存：**仅在合理的情况下预填充缓存。
+  建立缓存监控和自动化以相应地调整缓存大小。
+  **移除旧的版本资产：**推送新版本的工作负载时，从对象存储和边缘缓存中移除过时的部署和资产。

## 资源
<a name="resources"></a>

 **相关文档：**
+  [更改 CloudWatch Logs 中的日志数据留存](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/Working-with-log-groups-and-streams.html#SettingLogRetention) 
+  [适用于 Windows File Server 的 Amazon FSx 的重复数据删除](https://docs.aws.amazon.com/fsx/latest/WindowsGuide/using-data-dedup.html) 
+  [Amazon FSx for ONTAP 的功能，包括重复数据删除](https://docs.aws.amazon.com/fsx/latest/ONTAPGuide/what-is-fsx-ontap.html#features-overview) 
+  [使 Amazon CloudFront 上的文件失效](https://docs.aws.amazon.com/AmazonCloudFront/latest/DeveloperGuide/Invalidation.html) 
+  [使用 AWS Backup 备份和恢复 Amazon EFS 文件系统](https://docs.aws.amazon.com/efs/latest/ug/awsbackup.html) 
+  [什么是 Amazon CloudWatch Logs？](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) 
+  [在 Amazon RDS 上使用备份](https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/USER_WorkingWithAutomatedBackups.html) 
+  [使用 AWS Lake Formation 集成数据集并删除其中的重复数据](https://aws.amazon.com/blogs/big-data/integrate-and-deduplicate-datasets-using-aws-lake-formation-findmatches/) 

 **相关视频：**
+  [Amazon Redshift 数据共享用例](https://www.youtube.com/watch?v=sIoTB8B5nn4) 

 **相关示例：**
+  [如何使用 Amazon Athena 分析我的 Amazon S3 服务器访问日志？](https://aws.amazon.com/premiumsupport/knowledge-center/analyze-logs-athena/) 