

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 减少 MTTD
<a name="reducing-mttd"></a>

 减少故障意味着要尽快发现故障。MTTD缩短MTTD是基于可观察性，或者你如何对工作负载进行检测以了解其状态。客户应监控其工作负载关键子系统中的*客户体验*指标，以便主动识别问题何时发生（请参阅[附录1），MTTD并监控MTTR关键指标](appendix-1-mttd-and-mttr-critical-metrics.md)以了解有关这些指标的更多信息。)。 客户可以使用 [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 创建用于监控您APIs和控制台的*金丝雀*，从而主动衡量用户体验。还有许多其他运行状况检查机制可用于最大限度地减少运行状况，例如 [Elastic Load Balancing (ELB) 运行状况检查](https://docs.aws.amazon.com/autoscaling/ec2/userguide/as-add-elb-healthcheck.html)、[Amazon Route 53 运行状况检查](https://docs.aws.amazon.com/Route53/latest/DeveloperGuide/health-checks-types.html)等。MTTD（参见 [Amazon Builders's Library — 实施运行状况检查](https://aws.amazon.com/builders-library/implementing-health-checks/)。） 

 您的监控机制还需要能够检测整个系统和单个子系统的部分故障。您的可用性、故障和延迟指标应使用故障隔离边界的维[CloudWatch 度作为指标](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_concepts.html#Dimension)维度。例如，假设一个属于基于单元的架构、use1-az1 AZ、useast-1 区域中的单个EC2实例，它是工作负载更新的一部分，也是其控制平面子系统的一部分。API当服务器推送其指标时，它可以使用其实例 ID、可用区、区域、API名称和子系统名称作为维度。这让您可以进行观测，并针对每个维度设置警报以便检测故障。