

# 生产监控
<a name="dax-production-monitoring"></a>

 应该通过在不同时间和不同负载条件下测量性能，在您的环境中建立正常 DAX 性能的基准。监控 DAX 时，您应考虑存储历史监控数据。此存储数据将为您提供与当前性能数据进行比较的基准，确定正常性能模式和性能异常，以及设计解决问题的方法。

 要建立基准，您应至少在负载测试期间和生产中监控以下各项。
+  CPU 使用率和限制的请求数，以便您可以确定是否可能需要在集群中使用较大的节点类型。可通过 `CPUUtilization` CloudWatch 指标获得集群的 CPU 使用率。该指标的平均统计数据提供了集群中所有节点的平均 CPU 利用率视图。在做出集群扩展决策时，建议您使用最大统计数据，即所有节点的最大利用率。
**注意**  
AWS 提高了 `CPUUtilization` 指标的粒度。从 2024 年 5 月 17 日到 2024 年 6 月 22 日，您可能观察到该指标发生了变化。
+  操作延迟（在客户端测量）应始终与应用程序的延迟要求保持一致。
+  错误率应保持较低水平，如 `ErrorRequestCount`、`FaultRequestCount` 和 `FailedRequestCount` CloudWatch 指标中所示。
+  网络字节消耗，这样您就可以确定是应该在集群中使用更多节点，还是应使用更大的节点类型。要监控消耗，您可以对 CloudWatch 中提供的 `BaselineNetworkBytesInUtilization` 和 `BaselineNetworkBytesOutUtilization` 指标设置提醒，这两个指标指示您的实例类型的可用网络带宽的消耗百分比（分别对应于入口流量和出口流量）。
+ 缓存内存利用率和驱逐的大小，以便您可以确定集群的节点类型是否有足够的内存来容纳工作集，如果没有，则切换到更大的节点类型。
**注意**  
 如果出现大量缓存未命中和写入，缓存内存利用率可能会增加到高达 100%，并可能导致可用性停机。
+  客户端连接，以便您可以监控集群连接中任何无法解释的峰值。