

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 测试灾难恢复
<a name="testing-disaster-recovery"></a>

 测试灾难恢复实施以验证实施情况，并定期测试到工作负载灾难恢复区域的故障转移，以确保满足 RTO 和 RPO。

 要避免的一种模式是开发很少执行的恢复路径。例如，您可能有一个用于只读查询的辅助数据存储。在写入某个数据存储，却发现主存储故障时，您可能希望失效转移到辅助数据存储。如果不经常测试此失效转移，您可能会发现自己关于辅助数据存储容量的假设是错误的。在这种情况下，辅助区域的容量（在您上次测试时可能已经足够了）可能无法再承受负载，或者辅助区域的服务配额可能不足。

 根据我们的经验，唯一有效的错误恢复路径是您经常测试的路径。这就是为什么最好使用少量恢复路径的原因。

 您可以建立恢复模式并定期对其进行测试。如果您的恢复路径复杂或关键，则仍需要定期在生产环境中执行该故障，以验证恢复路径是否有效。

 管理灾难恢复区域的配置偏差。确保您的基础架构、数据和配置符合灾难恢复区域的需求。例如，检查一下 AMIs ，服务配额是 up-to-date。

 您可以利用[AWS Config](https://aws.amazon.com/config/)来持续监控和记录您的 AWS 资源配置。 AWS Config 可以检测漂移并触发 [AWS Systems Manager Automation](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html) 以修复漂移并发出警报。 [AWS CloudFormation](https://aws.amazon.com/cloudformation/)此外，还可以检测您部署的堆栈中的偏差。