

# SUS04-BP05 불필요하거나 중복된 데이터 제거
<a name="sus_sus_data_a6"></a>

불필요하거나 중복된 데이터를 제거하여 데이터 세트를 저장하는 데 필요한 스토리지 리소스를 최소화합니다. 

 **일반적인 안티 패턴:** 
+  쉽게 얻을 수 있거나 다시 생성할 수 있는 데이터를 중복합니다. 
+  데이터의 중요도를 고려하지 않고 모든 데이터를 백업합니다. 
+  데이터를 불규칙하게 또는 운영 이벤트에만 삭제하거나 전혀 삭제하지 않습니다. 
+  스토리지 서비스의 내구성에 관계없이 데이터를 중복 저장합니다. 
+  업무상 타당한 이유 없이 Amazon S3 버전 관리를 활성화합니다. 

 **이 모범 사례 확립의 이점:** 불필요한 데이터를 제거하면 워크로드 및 워크로드의 환경 영향에 필요한 스토리지 크기를 줄일 수 있습니다. 

 **이 모범 사례를 따르지 않을 경우 노출되는 위험 수준:** 보통 

## 구현 가이드
<a name="implementation-guidance"></a>

 필요하지 않은 데이터를 저장하지 않습니다. 불필요한 데이터의 삭제를 자동화합니다. 파일 및 블록 수준에서 데이터 중복을 제거하는 기술을 사용합니다. 서비스의 네이티브 데이터 복제 및 중복성 기능을 활용합니다. 

 **구현 단계** 
+  [AWS Data Exchange](https://aws.amazon.com/data-exchange/)의 기존 공개 데이터 세트 및 [AWS의 개방형 데이터](https://registry.opendata.aws/)를 사용하여 데이터 저장을 방지할 수 있는지 여부를 평가합니다. 
+  블록 및 객체 수준에서 데이터 중복을 제거할 수 있는 메커니즘을 사용합니다. 다음은 AWS의 데이터 중복을 제거하는 방법의 몇 가지 예입니다.     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ko_kr/wellarchitected/2023-04-10/framework/sus_sus_data_a6.html)
+  데이터 액세스를 분석하여 불필요한 데이터를 식별합니다. 수명 주기 정책을 자동화합니다. 삭제할 [Amazon DynamoDB Time To Live](https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/TTL.html), [Amazon S3 수명 주기](https://docs.aws.amazon.com/AmazonS3/latest/userguide/object-lifecycle-mgmt.html) 또는 [Amazon CloudWatch 로그 보존](https://docs.aws.amazon.com/managedservices/latest/userguide/log-customize-retention.html)과 같은 네이티브 서비스 기능을 활용합니다. 
+  AWS의 데이터 가상화 기능을 사용하여 소스의 데이터를 유지 관리하고 데이터 중복을 방지합니다. 
  +  [AWS의 클라우드 네이티브 데이터 가상화](https://www.youtube.com/watch?v=BM6sMreBzoA) 
  +  [실습: Amazon Redshift 데이터 공유를 사용하여 데이터 패턴 최적화](https://wellarchitectedlabs.com/sustainability/300_labs/300_optimize_data_pattern_using_redshift_data_sharing/) 
+  증분식 백업을 만들 수 있는 백업 기술을 사용합니다. 
+  [Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/DataDurability.html)의 내구성 및 [Amazon EBS의 복제](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ebs-volumes.html)를 활용하여 자체 관리형 기술(예: 독립 디스크의 이중화 어레이(RAID)) 대신 내구성 목표를 달성합니다. 
+  로그 및 추적 데이터를 중앙 집중화하고, 동일한 로그 항목을 중복 제거하며, 필요에 따라 세부적으로 조정하는 메커니즘을 설정합니다. 
+  적절한 경우에만 캐시를 미리 채웁니다. 
+  캐시 모니터링 및 자동화를 설정하여 그에 따라 캐시 크기를 조정합니다. 
+  새 버전의 워크로드를 푸시할 때 객체 스토어 및 엣지 캐시에서 오래된 배포 및 자산을 제거합니다. 

## 리소스
<a name="resources"></a>

 **관련 문서:** 
+  [CloudWatch Logs에서 로그 데이터 보존 변경](https://docs.aws.amazon.com/Amazon/latest/logs/Working-with-log-groups-and-streams.html#SettingLogRetention) 
+  [Amazon FSx for Windows File Server에서 데이터 중복 제거](https://docs.aws.amazon.com/fsx/latest/WindowsGuide/using-data-dedup.html) 
+  [데이터 중복 제거를 포함한 Amazon FSx for ONTAP의 기능](https://docs.aws.amazon.com/fsx/latest/ONTAPGuide/what-is-fsx-ontap.html#features-overview) 
+  [Amazon CloudFront에서의 파일 무효화](https://docs.aws.amazon.com/Amazon/latest/DeveloperGuide/Invalidation.html) 
+  [AWS Backup을 사용하여 Amazon EFS 파일 시스템 백업 및 복구](https://docs.aws.amazon.com/efs/latest/ug/awsbackup.html) 
+  [Amazon CloudWatch Logs란 무엇인가요?](https://docs.aws.amazon.com/Amazon/latest/logs/WhatIsLogs.html) 
+  [Amazon RDS의 백업 작업](https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/USER_WorkingWithAutomatedBackups.html) 

 **관련 동영상:** 
+  [AWS Lake Formation의 ML 변환을 통한 퍼지 매칭 및 데이터 중복 제거](https://www.youtube.com/watch?v=g34xUaJ4WI4) 

 **관련 예시:** 
+  [Amazon Athena를 사용하여 Amazon S3 서버 액세스 로그를 분석하려면 어떻게 해야 합니까?](https://aws.amazon.com/premiumsupport/knowledge-center/analyze-logs-athena/) 