Regras de silenciamento de alarmes - Amazon CloudWatch

Regras de silenciamento de alarmes

As regras de silenciamento de alarmes são um atributo do CloudWatch que fornece um mecanismo para silenciar automaticamente as ações de alarme durante intervalos de tempo predefinidos. Ao criar uma regra de silenciamento, você define períodos de tempo específicos e seleciona alarmes cujas ações serão silenciadas. O CloudWatch continuará monitorando e avaliando os estados de alarme, evitando notificações indesejadas ou ações de alarme automatizadas durante eventos operacionais esperados.

As regras de silenciamento de alarmes ajudam você a gerenciar cenários operacionais críticos em que as ações de alarme seriam desnecessárias ou causariam interrupções. Por exemplo, durante as janelas de manutenção planejada, é possível evitar ações de alarme automatizadas enquanto seus sistemas estão intencionalmente off-line ou apresentam problemas esperados, permitindo que você realize a manutenção sem interrupções. Para operações fora do horário comercial, como fins de semana ou feriados, é possível silenciar ações de alarme não críticas quando a resposta imediata não for necessária, reduzindo o ruído do alarme e as notificações desnecessárias para sua equipe de operações. Em ambientes de teste, as regras de silenciamento permitem que você silencie temporariamente as ações de alarme durante cenários como testes de carga, em que o alto uso de recursos ou taxas de erro são esperadas e não exigem atenção imediata. Quando sua equipe está solucionando problemas ativamente, as regras de silenciamento permitem que você evite que ações de alarme duplicadas sejam acionadas, ajudando você a se concentrar na resolução sem se distrair com notificações de alarme redundantes.

Definição das regras de silenciamento de alarmes

As regras de silenciamento do alarme podem ser definidas usando: regras e destinos.

  • Regras: definem as janelas de tempo em que as ações de alarme devem ser silenciadas. As regras são compostas por três atributos:

    • Expressão: define quando o período de silêncio começa e como ele se repete. É possível usar dois tipos de expressões:

      • Expressões cron: use a sintaxe padrão do cron para criar janelas de silenciamento recorrentes. Essa abordagem é ideal para programações de manutenção regulares, como atualizações semanais do sistema ou operações diárias de backup. As expressões cron permitem que você especifique padrões recorrentes complexos, incluindo dias específicos da semana, meses ou horários.

        Sintaxe da expressão cron

        ┌───────────── minute (0 - 59) │ ┌───────────── hour (0 - 23) │ │ ┌───────────── day of the month (1 - 31) │ │ │ ┌───────────── month (1 - 12) (or JAN-DEC) │ │ │ │ ┌───────────── day of the week (0 - 6) (0 or 7 is Sunday, or MON-SUN) │ │ │ │ │ │ │ │ │ │ * * * * *
        • Os caracteres *, ,, - serão aceitos em todos os campos.

        • Nomes em inglês podem ser usados para os campos month (JAN-DEC) e day of week (SUN-SAT)

      • Expressões at: use expressões at para janelas de silenciamento únicas. Essa abordagem funciona bem para eventos operacionais planejados que ocorrem uma vez em um horário conhecido.

        Syntax: `at(yyyy-MM-ddThh:mm)`
    • Duração: especifica quanto tempo a regra de silenciamento dura depois de ativada. A duração deve ser especificada no formato ISO-8601 com um mínimo de 1 minuto (PT1M) e máximo de 15 dias (P15D).

    • Fuso horário: especifica o fuso horário no qual a janela de silenciamento será aplicada de acordo com as expressões, usando identificadores de fuso horário padrão, como “America/Los_Angeles” ou “Europe/London”.

  • Destinos: especifica a lista de nomes de alarmes cujas ações serão silenciadas durante as janelas de tempo definidas. É possível incluir alarmes de métrica e alarmes compostos na sua lista de destinos.

Opcionalmente, é possível incluir carimbos de data/hora de início e término para fornecer limites adicionais para suas janelas de silenciamento. Os carimbos de data/hora de início garantem que as regras de silenciamento não sejam ativadas antes de uma data e hora específicas, enquanto os carimbos de data/hora de término evitam que as regras sejam aplicadas além da data e da hora especificadas.

Para obter mais informações sobre como criar regras de silenciamento de alarmes programaticamente, consulte PutAlarmMuteRule.

nota
  • Os alarmes direcionados devem estar presentes na mesma Conta da AWS e na mesma Região da AWS em que a regra de silenciamento foi criada.

  • Uma única regra de silenciamento de alarme pode atingir até 100 alarmes por nomes de alarmes.

O console do CloudWatch inclui uma guia dedicada “Regras de silenciamento de alarmes” que fornece gerenciamento centralizado de todas as regras de silenciamento dentro da sua Conta da AWS. É possível pesquisar regras de silenciamento específicas usando os atributos da regra de silenciamento, como nome da regra.

Status de silenciamento da regra

Uma vez criada, uma regra de silenciamento de alarme pode estar em um dos três status abaixo:

  • PROGRAMADA: a regra de silenciamento ficará ativa em algum momento no futuro, de acordo com a expressão de janela de tempo configurada.

  • ATIVA: a regra de silenciamento está atualmente ativa de acordo com a expressão da janela de tempo configurada e silencia ativamente as ações de alarme direcionadas.

  • EXPIRADA: a regra de silenciamento não estará mais PROGRAMADA/ATIVA no futuro. Isso ocorre para regras de silenciamento únicas após o término da janela de silenciamento ou para regras de silenciamento recorrentes quando um carimbo de data/hora de término é configurado e esse tempo já decorreu.

Efeitos das regras de silenciamento nos alarmes

Durante uma janela ativa de silenciamento, quando um alarme selecionado muda de estado e tem ações configuradas, o CloudWatch impede que essas ações sejam executadas. Os silenciamentos são aplicados somente às ações de alarme, o que significa que os alarmes continuam sendo avaliados e as mudanças de estado são visíveis no console do CloudWatch, mas as ações configuradas, como notificações do Amazon Simple Notification Service, ações de ajuste de escala automático do Amazon Elastic Compute Cloud ou ações do Amazon EC2, são impedidas de serem executadas. O CloudWatch continua avaliando os estados de alarme normalmente durante o período de silêncio, e é possível visualizar essas informações por meio do histórico de alarmes.

Quando uma janela de silenciamento se encerra, se os alarmes selecionados permanecerem em um estado de alarme (OK/ALARM/INSUFFICIENT_DATA), o CloudWatch acionará automaticamente as ações de alarme que foram silenciadas durante a janela. Isso garante que suas ações de alarme sejam executadas para problemas contínuos após o término do período de silenciamento planejado, mantendo a integridade do seu sistema de monitoramento.

nota

Quando você silencia um alarme:

  • Todas as ações associadas aos alarmes selecionados são silenciadas

  • Ações associadas a todos os estados de alarme (OK, ALARM e INSUFFICIENT_DATA) são silenciadas

Para obter mais informações sobre como visualizar e gerenciar alarmes silenciados, consulte Visualização e gerenciamento de alarmes silenciados.

Exemplos de programações para casos de uso comuns

Os exemplos a seguir mostram como configurar expressões de janela de tempo para casos de uso comuns.

Cenário 1: silenciamento de ações de alarme durante janelas de manutenção programada: atividades de manutenção regulares que ocorrem em um cronograma previsível, como atualizações do sistema ou do banco de dados quando os serviços estão intencionalmente indisponíveis ou operam em modo degradado.

  • Expressão cron 0 2 * * SUN com duração PT4H: silencia os alarmes todos os domingos, das 2h às 6h, para manutenção semanal do sistema.

  • Expressão cron 0 1 1 * * com duração PT6H: silencia os alarmes no primeiro dia de cada mês, das 1h às 7h, para manutenção mensal do banco de dados.

Cenário 2: silenciamento de alarmes não críticos fora do horário comercial: reduzir a fadiga de alertas durante fins de semana ou feriados, quando não é necessária atenção imediata.

  • Expressão cron 0 18 * * FRI com duração P2DT12H: silencia os alarmes todo fim de semana, de sexta-feira às 18h até segunda-feira às 6h.

Cenário 3: silenciamento de alarmes de performance durante as operações diárias de backup: processos diários de backup automatizados que aumentam temporariamente a utilização dos recursos e podem acionar alarmes relacionados à performance durante intervalos de tempo previsíveis.

  • Expressão cron 0 23 * * * com duração PT2H: silencia os alarmes todos os dias, das 23h à 1h, durante operações noturnas de backup que aumentam temporariamente a E/S do disco e a utilização da CPU.

Cenário 4: silenciamento de alarmes duplicados durante sessões ativas de solução de problemas: silenciamento temporário das ações de alarme enquanto as equipes investigam e resolvem problemas ativamente, evitando ruídos de notificação e permitindo uma resolução focada do problema.

  • Expressão at at(2024-05-10T14:00) com duração PT4H: silencia os alarmes em 10 de maio de 2024, das 14h às 18h, durante uma sessão ativa de resposta a incidentes.

Cenário 5: silenciamento das ações de alarme durante as paralisações planejadas da empresa: períodos de manutenção prolongados únicos ou desligamentos em toda a empresa em que todos os sistemas ficam intencionalmente off-line por longos períodos.

  • Expressão at at(2024-12-23T00:00) com duração P7D: silencia os alarmes durante toda a semana de 23 a 29 de dezembro de 2024 durante a paralisação anual da empresa.