

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Grafana 10 版本中的警报
<a name="v10-alerts"></a>

****  
本文档主题专为支持 **Grafana 10.x 版本**的 Grafana 工作区而设计。  
有关支持 Grafana 版本 12.x 的 Grafana 工作空间，请参阅。[在 Grafana 版本 12 中工作](using-grafana-v12.md)  
对于支持 Grafana 9.x 版本的 Grafana 工作区，请参阅[使用 Grafana 版本 9](using-grafana-v9.md)。  
对于支持 Grafana 8.x 版本的 Grafana 工作区，请参阅[使用 Grafana 版本 8](using-grafana-v8.md)。

在 Grafana v10 中，Amazon Managed Grafana 允许访问更新的警报系统 *Grafana Alerting*，该系统将警报信息集中在一个可搜索的视图中。Grafana 警报在 Grafana v8 中作为一项可选功能引入， GrafanaLabs 并宣布在版本 11 中删除旧版警报。

**注意**  
本文档介绍了 Grafana Alerting。有关旧版警报的信息，请参阅 [经典控制面板警报](old-alerts-overview.md)。

通过 Grafana Alerting，您可以在系统出现问题后立即了解情况。

监控传入的指标数据或日志条目，设置警报系统来监视特定事件或情况，然后在发现这些情况时发送通知。

这样，您就不再需要人工监控，还可以为系统中断或可能演变成重大事故的变更提供了第一道防线。

借助 Grafana Alerting，您可以从多个数据来源创建查询和表达式，无论数据存储在何处，都能够以新颖和独特的方式灵活组合数据，并针对指标和日志发出警报。然后，您可以从单一的整合视图中创建、管理和处理警报，从而提高团队快速发现和解决问题的能力。

通过 Mimir 和 Loki 警报规则，您可以更好地监控数据，并大规模警运行警报表达式，所有这些都由您所熟悉的 Grafana UI 管理。

**注意**  
如果您是从早期版本的 Grafana 迁移过来，在早期版本中使用的是旧版 Grafana Alerting，那么了解[旧版警报系统和新版 Grafana Alerting 之间的区别](v10-alerting-use-grafana-alerts.md#v10-alerting-diff-old-new)可能会有所帮助。

## 主要功能和优势
<a name="v10-alerting-key-features"></a>

**单页显示所有警报**

单个 Grafana 警报页面将驻留在数据源中的 Prometheus-compatible 警报 Grafana-managed 和警报整合到一个地方。

**Multi-dimensional 警报**

警报规则可为每个警报规则创建多个单独的警报实例（称为多维警报），让您只需一个警报规则，就能获得对整个系统的可见性。为此，您可以在查询中添加标签以指定正在监控哪个组件，并为单个警报规则生成多个警报实例。例如，如果要监控集群中的每台服务器，则多维警报将针对每个 CPU 发出警报，而标准警报将针对整个服务器发出警报。

**路由警报**

根据您定义的标签，将每个警报实例路由到特定的联系点。通知策略是一组规则，规定了在何处、何时以及如何将警报分组并路由到联系点。

**静默警报**

静默会阻止创建通知，且只能在指定的时间段内持续。您可以通过静默停止接收来自一个或多个警报规则的持续通知。您也可以根据特定标准部分暂停警报。静默有自己的专用部分，以便更好地整理和查看，让您可以扫描暂停的警报规则，而不会使主警报视图混乱。

**静音定时**

静音定时是一个重复的时间间隔，在此期间，不会针对某个策略生成或发送新的通知。使用静音定时可防止警报在特定的重复时间段（如定期维护时间段）内触发。

与静默类似，静音定时不会阻止对警报规则进行评估，也不会阻止警报实例显示在用户界面中。只会阻止创建通知。

## 设计警报系统
<a name="v10-alerting-design"></a>

监控复杂的 IT 系统并了解一切是否正常运行是一项艰巨的任务。因此，建立一个有效的警报管理系统至关重要，在出现问题时发出通知，以免对业务成果造成影响。

设计和配置有效的警报管理设置需要时间。

以下是有关如何为您的企业创建有效的警报管理设置的一些提示：

**您想要监控和发出警报的业务关键指标有哪些？**
+ 查找需要了解的重要事件，避免过于琐碎或频繁，以至于收件人忽略这些事件。
+ 仅为需要立即关注或干预的重大事件创建警报。
+ 考虑质量而不是数量。

**您想使用哪种类型的警报？**
+ 在 “ Grafana-managed 警报”、“Grafana Mimir Loki-managed” 或 “警报” 之间进行选择；或者两者兼而有之。

**您想如何整理警报和通知？**
+ 选择性地设置接收警报的对象。考虑将其发送给随时待命的人员或特定的 Slack 频道。
+ 使用 Alerting API 或警报即代码（Terraform）尽可能自动化。

**如何减少警觉疲劳？**
+ 使用静默、静音定时或暂停警报规则评估，避免发出不必要的噪音警报。
+ 不断调整警报规则，查看有效性。删除警报规则，避免警报重复或无效。
+ 仔细考虑优先级和严重性级别。
+ 持续查看阈值和评估规则。

## Grafana Alerting 限制
<a name="v10-alerting-limitations"></a>
+ 聚合来自其他系统的规则时，Grafana Alerting 系统可以从所有可用的 Amazon Managed Service for Prometheus、Prometheus、Loki 和 Alertmanager 数据来源中检索规则。但可能无法从其他受支持的数据来源获取规则。

**重要**  
Amazon Managed Grafana 的警报评估超时时间为 30 秒。由于警报引擎可以生成大量查询，因此警报所做的查询的最长持续时间为 30 秒。此超时不可配置。有关更多信息，请参阅中的[亚马逊托管 Grafana 服务](https://docs.aws.amazon.com/general/latest/gr/grafana-service.html#grafana-quotas)配额。*AWS 一般参考*

**Topics**
+ [主要功能和优势](#v10-alerting-key-features)
+ [设计警报系统](#v10-alerting-design)
+ [Grafana Alerting 限制](#v10-alerting-limitations)
+ [概述](v10-alerting-overview.md)
+ [设置警报](v10-alerting-setup.md)
+ [配置警报](v10-alerting-configure.md)
+ [管理警报](v10-alerting-manage.md)