

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 高级多可用区弹性模式
<a name="advanced-multi-az-resilience-patterns"></a>

发布日期：**2023 年 7 月 11 日** ([文档修订](document-revisions.md))

许多客户在可用性高的多可用区 (AZ) 配置中运行其工作负载。这些架构在二进制故障事件期间表现良好，但经常遇到*灰色*故障。这种故障的表现形式很微妙，无法快速而明确地对其进行检测。本文提供了有关如何检测工作负载的指导，以检测隔离到单个可用区的灰色故障的影响，然后采取措施减轻对该可用区的这种影响。

## 简介
<a name="introduction"></a>

 本文档的目的是帮助您更有效地实现弹性多可用区架构。在 [Amazon 虚拟私有云](https://aws.amazon.com/vpc/) (VPC) 网络中构建弹性系统的最佳实操之一是[将每个工作负载都部署到多个可用区](https://docs.aws.amazon.com/vpc/latest/userguide/vpc-security-best-practices.html)。

 [可用区](https://aws.amazon.com/about-aws/global-infrastructure/regions_az/)是一个或多个具有冗余电源、网络和连接的离散数据中心。通过使用多个可用区，您可以获得比在单个数据中心中可用性、容错能力和可扩展性更高的工作负载。

 许多 AWS 服务（例如 [Amazon Elastic Compute Cloud (EC2) 自动扩缩](https://aws.amazon.com/ec2/autoscaling/)或 [Amazon Relational Database Service](https://aws.amazon.com/rds/) (Amazon RDS)都提供多可用区配置。这些服务不需要您额外构建任何可观测性或失效转移工具。它们使工作负载能够适应影响单个可用区的 [AWS 区域](https://aws.amazon.com/about-aws/global-infrastructure/regions_az/) 中易于检测到的二进制故障模式。它可能是完全的物理硬件故障、断电或影响大多数资源的潜在软件错误。

 但是还有另一类故障，称为*灰色故障*，表现形式微妙，无法快速明确地对其进行检测。这反过来又会导致投入更长的时间来缓解故障所造成的影响。本文重点介绍灰色故障可能对多可用区架构产生的影响、如何检测它们，以及如何缓解这些影响。

****  
本白皮书中提供的指南主要适用于具有以下特点的特定类别工作负载：  
主要使用区域 AWS 服务
需要提高单个区域的弹性
愿意进行大量投资来建立所需的可观测性和弹性模式
在这些工作负载中，您可能不愿意做出 [应对灰色故障](gray-failures.md#responding-to-gray-failures) 中提出的部分或全部权衡，或者不具备使用多个区域的选项。这些类型的工作负载可能只占整个产品组合的一小部分，因此应在工作负载级别而不是平台级别考虑本指南。