

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 可用性及其他：了解和提高 AWS 上的分布式系统的韧性
<a name="availability-and-beyond-improving-resilience"></a>

发布日期：**2021 年 11 月 12 日**（[文档历史记录](document-revisions.md)）

 如今的企业会在云端和本地运行各种复杂的分布式系统。他们希望这些工作负载具有韧性，以便为客户提供服务并实现业务成果。这篇论文概述了把可用性作为韧性的衡量标准这一共识，建立了构建高可用性工作负载的规则，并就如何提高工作负载可用性提供了指导。

## 简介
<a name="introduction"></a>

 构建高可用性工作负载意味着什么？ 如何衡量可用性？ 怎样才能提高工作负载的可用性？ 本文将会帮助您回答这类问题。本文分为三个主要部分。第一部分*了解可用性*是偏理论性的论述。它针对可用性的定义和影响可用性的因素建立了共识。第二部分*衡量可用性*提供了实证式衡量工作负载可用性方面的指导。第三部分*在 AWS 上设计高可用性分布式系统*是第一部分中介绍的想法的实际应用。此外，本文还在上述内容中明确了构建韧性工作负载的规则。本文的目的是为 [AWS Well-Architected 可靠性支柱](https://docs.aws.amazon.com/wellarchitected/latest/reliability-pillar/welcome.html)中提出的指导和最佳实践提供支持。

 在这篇论文中，我们会遇到很多代数学知识。我们应该关注数学支持的概念，而不是数学本身。这篇论文的目的也包括提出一项挑战。当您运行高可用性工作负载时，您需要能够在数学上证明自己构建的东西实现了预期目的。即使是建立在良好意愿之上的最佳设计也可能无法始终如一地实现预期结果。这意味着您需要能够衡量解决方案有效性的机制，因此，在构建和运行有韧性并且高度可用的分布式系统时，必须进行一定程度的数学运算。