

# 故障管理
<a name="failure-management"></a>

****  
 如果故障在所难免，那么一切操作会在一段时间后全部失败：从路由器到硬盘，从操作系统到内存单元 TCP 数据包损坏，从暂时性错误到永久性故障。不管使用的是最高质量的硬件还是最低成本的组件，必然会出现故障 – [https://www.allthingsdistributed.com/2016/03/10-lessons-from-10-years-of-aws.html](https://www.allthingsdistributed.com/2016/03/10-lessons-from-10-years-of-aws.html) 

 低级别的硬件组件故障是本地数据中心每天都要处理的问题。不过，在云中，您可以避免大多数的此类故障。例如，Amazon EBS 卷被置于特定的可用区内，在其中被自动复制，避免单个组件出现故障。所有 EBS 卷都被设计具有 99.999% 的可用性。Amazon S3 对象会被存储在至少三个可用区内，在指定的一年时间内为其提供 99.999999999% 的持久性。无论选择哪家云提供商，都有可能遭遇会对工作负载造成影响的故障。因此，如果想让工作负载具有可靠性，您必须采取措施来实施韧性。

 要运用此处讨论的最佳实践，必须先确保负责设计实施并运行工作负载的人员了解业务目标以及实现这些目标的可靠性目标。这些人员必须了解这些可靠性要求，并且接受过相关的培训。

 以下各节旨在介绍管理故障的最佳实践，可预防对工作负载造成影响。

**Topics**
+ [备份数据](back-up-data.md)
+ [使用故障隔离来保护工作负载](use-fault-isolation-to-protect-your-workload.md)
+ [设计工作负载来承受组件故障](design-your-workload-to-withstand-component-failures.md)
+ [测试可靠性](test-reliability.md)
+ [灾难恢复（DR）计划](plan-for-disaster-recovery-dr.md)