

# SUS04-BP05 不要なデータや重複するデータを削除する
<a name="sus_sus_data_a6"></a>

不要なデータや重複するデータを削除し、データセットの保存に必要なストレージリソースを最小限に抑えます。

 **一般的なアンチパターン:** 
+  簡単に取得または再作成できるデータを複製している。
+  データの重要性を考慮せず、すべてのデータをバックアップしている。
+  データの削除は、不定期、運用イベント時のみ、またはまったく行わない。
+  ストレージサービスの耐久性に関係なく、データを冗長に保存している。
+  ビジネス上の正当な理由なく Amazon S3 バージョニングを有効にしている。

 **このベストプラクティスを活用するメリット:** 不要なデータを削除すると、ワークロードに必要なストレージサイズとワークロードの環境への影響が軽減されます。

 **このベストプラクティスを活用しない場合のリスクレベル:** 中 

## 実装のガイダンス
<a name="implementation-guidance"></a>

 不要な冗長データセットを削除すると、ストレージコストと環境フットプリントを削減できます。この方法により、コンピューティングリソースが不要なデータではなく重要なデータのみを処理するため、コンピューティングの効率も向上する可能性があります。不要なデータの削除を自動化する。ファイルおよびブロックレベルでデータの重複を排除するテクノロジーを使用する。ネイティブデータレプリケーションと冗長性のためのサービス機能を使用します。

### 実装手順
<a name="implementation-steps"></a>
+  **パブリックデータセットの評価:** [AWS Data Exchange](https://aws.amazon.com/data-exchange/) および [AWS の Open Data で公開されている既存のデータセットを使用し、データの保存を回避できるかどうかを評価します](https://registry.opendata.aws/)。
+  **データの重複排除:** ブロックレベルとオブジェクトレベルでデータを重複排除できる仕組みを使用します。AWS でデータの重複をなくす方法の例を次に示します。    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/wellarchitected/2024-06-27/framework/sus_sus_data_a6.html)
+  **ライフサイクルポリシーの使用:** ライフサイクルポリシーを使用して、未使用のアセットを自動的に削除します。削除には、[Amazon DynamoDB の有効期限](https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/TTL.html)や [Amazon S3 Lifecycle](https://docs.aws.amazon.com/AmazonS3/latest/userguide/object-lifecycle-mgmt.html)、[Amazon CloudWatch Logs 保持](https://docs.aws.amazon.com/managedservices/latest/userguide/log-customize-retention.html)などのネイティブサービス機能を使用します。
+  **データ仮想化の使用:** AWS のデータ仮想化機能を使用してデータをソースに保持し、データの重複を回避します。
  +  [AWS でのクラウドネイティブデータ仮想化](https://www.youtube.com/watch?v=BM6sMreBzoA) 
  +  [Amazon Redshift データ共有を使用したデータパターンの最適化](https://catalog.workshops.aws/well-architected-sustainability/en-US/3-data/optimize-data-pattern-using-redshift-data-sharing) 
+  **増分バックアップの使用:** 増分バックアップが可能なバックアップテクノロジーを使用します。
+  **ネイティブ耐久性の使用:** セルフマネージドテクノロジー (独立ディスクの冗長アレイ (RAID) など) の代わりに [Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/DataDurability.html) の耐久性と [Amazon EBS のレプリケーション](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ebs-volumes.html)を活用して、耐久性の目標を達成します。
+  **効率的なログの使用:** ログおよび追跡データを一元化し、同一のログエントリの重複を排除して、必要に応じて冗長性を調整するメカニズムを確立します。
+  **効率的なキャッシュの使用:** 正当化された場合にのみキャッシュを事前入力します。
+  キャッシュのモニタリングとオートメーションを確立し、それに従ってキャッシュをサイズ変更します。
+  **古いバージョンのアセットの削除:** ワークロードの新しいバージョンをプッシュする際に、オブジェクトストアとエッジキャッシュから古いデプロイとアセットを削除します。

## リソース
<a name="resources"></a>

 **関連ドキュメント:** 
+  [Change log data retention in CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/Working-with-log-groups-and-streams.html#SettingLogRetention) 
+  [Data deduplication on Amazon FSx for Windows File Server](https://docs.aws.amazon.com/fsx/latest/WindowsGuide/using-data-dedup.html) 
+  [Features of Amazon FSx for ONTAP including data deduplication](https://docs.aws.amazon.com/fsx/latest/ONTAPGuide/what-is-fsx-ontap.html#features-overview) 
+  [Amazon CloudFront のファイルを無効化する](https://docs.aws.amazon.com/AmazonCloudFront/latest/DeveloperGuide/Invalidation.html) 
+  [AWS Backup を使用してAmazon EFS ファイルシステムをバックアップおよび復元する](https://docs.aws.amazon.com/efs/latest/ug/awsbackup.html) 
+  [What is Amazon CloudWatch Logs?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html)
+  [バックアップの概要](https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/USER_WorkingWithAutomatedBackups.html) 
+  [AWS Lake Formation を使用してデータセットの統合および重複の削除を実施](https://aws.amazon.com/blogs/big-data/integrate-and-deduplicate-datasets-using-aws-lake-formation-findmatches/) 

 **関連動画:** 
+  [Amazon Redshift Data Sharing Use Cases](https://www.youtube.com/watch?v=sIoTB8B5nn4) 

 **関連する例:** 
+  [Amazon Athena で Amazon S3 サーバーアクセスログを分析する方法を教えてください。](https://aws.amazon.com/premiumsupport/knowledge-center/analyze-logs-athena/)