Avaliação de alarme
Estados de alarme de métrica
Um alarme de métrica tem estes estados possíveis:
-
OK: a métrica ou a expressão está dentro do limite definido. -
ALARM: a métrica ou a expressão está fora do limite definido. -
INSUFFICIENT_DATA: o alarme acabou de ser acionado, a métrica não está disponível ou não há dados suficientes para a métrica determinar o estado do alarme.
Estado de avaliação do alarme
Além do estado do alarme, cada alarme tem um estado de avaliação que fornece informações sobre o processo de avaliação do alarme. Os estados a seguir podem ocorrer:
-
PARTIAL_DATA: indica que nem todos os dados disponíveis puderam ser recuperados devido a limitações de cota. Para obter mais informações, consulte Como dados parciais são tratados. -
EVALUATION_ERROR: indica erros de configuração na definição do alarme que exigem revisão e correção. Consulte o campo StateReason do alarme para obter mais detalhes. -
EVALUATION_FAILURE: indica problemas temporários do CloudWatch. Recomendamos o monitoramento manual até que o problema seja resolvido
É possível visualizar o estado da avaliação nos detalhes do alarme no console ou usando o comando describe-alarms da CLI ou a API DescribeAlarms.
Configurações de avaliação do alarme
Ao criar um alarme, você especifica três configurações para habilitar o CloudWatch e avaliar quando alterar o estado do alarme:
-
Período é o intervalo de tempo para avaliar a métrica ou a expressão e criar cada ponto de dados de um alarme. Ele é expresso em segundos.
-
Evaluation Periods (Períodos de avaliação) é o número de períodos mais recentes, ou pontos de dados, para avaliar quando determinar o estado do alarme.
-
Datapoints to Alarm (Pontos de dados para alarme) é o número de pontos de dados dentro dos períodos de avaliação que devem estar violando para fazer com que o alarme passe para o estado
ALARM. Os pontos de dados de violação não precisam ser consecutivos, mas eles devem estar dentro do último número de pontos de dados igual ao Evaluation Period (Período de avaliação).
Para qualquer período de um minuto ou mais, um alarme é avaliado a cada minuto, e a avaliação é baseada na janela de tempo definida pelo Período epelos Períodos de Avaliação. Por exemplo, se o Período for de 5 minutos (300 segundos) e os Períodos de Avaliação forem de 1, no final do minuto 5 o alarme será avaliado com base nos dados dos minutos 1 a 5. Então, no final do minuto 6, o alarme será avaliado com base nos dados dos minutos 2 a 6.
Se o período do alarme for de 10, 20 ou 30 segundos, o alarme será avaliado a cada 10 segundos. Para obter mais informações, consulte Alarmes de alta resolução.
Se o número de períodos de avaliação multiplicado pela duração de cada período de avaliação exceder um dia, o alarme será avaliado uma vez por hora. Para obter mais detalhes sobre como esses alarmes de vários dias são avaliados, consulte Exemplo de avaliação de um alarme de vários dias.
Na figura a seguir, o limite para um alarme de métrica é definido como três unidades. Tanto o Evaluation Period (Período de avaliação) como os Datapoints to Alarm (Pontos de Dados para Alarme) são 3. Ou seja, quando todos os pontos de dados nos três períodos consecutivos mais recentes estiverem acima do limite, o alarme passará para o estado ALARM. Na figura, isso acontece do terceiro ao quinto períodos de tempo. No período seis, o valor fica abaixo do limite. Portanto, um dos períodos que estão sendo avaliados não é violado, e o estado do alarme volta para OK. Durante o nono período, o limite é violado novamente, mas somente em um período. Consequentemente, o estado do alarme permanece OK.
Ao configurar Evaluation Periods (Períodos de avaliação) e Datapoints to Alarm (Pontos de dados para alarme) como valores diferentes, você está configurando um alarme “M de N”. Pontos de dados para alarme é (“M”) e Períodos de avaliação é (“N”). O intervalo de avaliação é o número de períodos de avaliação multiplicado pela duração do período. Por exemplo, se você configurar 4 de 5 pontos de dados com um período de 1 minuto, o intervalo de avaliação será de 5 minutos. Se você configurar 3 de 3 pontos de dados com um período de 10 minutos, o intervalo de avaliação será de 30 minutos.
nota
Se os pontos de dados estiverem ausentes logo depois que você criar um alarme, e se a métrica estava sendo relatada para o CloudWatch antes da criação do alarme, ao avaliá-lo, o CloudWatch recuperará os pontos de dados mais recentes, de antes de o alarme ter sido criado.
Alarmes de alta resolução
Se você configurar um alarme com base em uma métrica de alta resolução, poderá especificar um alarme de alta resolução com um período de 10 segundos, 20 segundos ou 30 segundos. Há um custo maior para alarmes de alta resolução. Para obter mais informações sobre as métricas de alta resolução, consulte Publicar métricas personalizadas.
Exemplo de avaliação de um alarme de vários dias
Um alarme será um alarme de vários dias se o número de períodos de avaliação multiplicado pela duração de cada período de avaliação exceder um dia. Os alarmes de vários dias são avaliados uma vez por hora. Quando os alarmes de vários dias são avaliados, o CloudWatch leva em consideração somente as métricas até a hora atual, no minuto :00, durante a avaliação.
Por exemplo, considere um alarme que monitora um trabalho executado a cada 3 dias às 10h.
-
Às 10h02, o trabalho falha
-
Às 10h03, o alarme é avaliado e permanece no estado
OK, porque a avaliação considera dados somente até 10h. -
Às 11h03, o alarme considera dados até 11h e entra no estado
ALARM. -
Às 11h43, você corrige o erro e o trabalho agora é executado com êxito.
-
Às 12h03, o alarme é avaliado novamente, identifica o trabalho bem-sucedido e retorna ao estado
OK.