

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Detecção de anomalias
<a name="prometheus-anomaly-detection"></a>

O Amazon Managed Service for Prometheus fornece recursos de detecção de anomalias que usam algoritmos de machine learning para identificar automaticamente padrões incomuns em seus dados métricos. Esse recurso ajuda você a detectar proativamente possíveis problemas, reduzir a fadiga de alertas e melhorar a eficácia do monitoramento, concentrando-se em comportamentos verdadeiramente anômalos em vez de limites estáticos.

A detecção de anomalias no Amazon Managed Service for Prometheus usa o algoritmo Random Cut Forest (RCF), que analisa seus dados de séries temporais para estabelecer padrões normais de comportamento e identificar desvios desses padrões. O algoritmo se adapta às tendências sazonais, lida com os dados perdidos com tranqulidade e fornece pontuações de confiança para anomalias detectadas.

## Como funciona a detecção de anomalias
<a name="amp-anomaly-detection-how-it-works"></a>

A detecção de anomalias do Amazon Managed Service for Prometheus usa machine learning para identificar padrões incomuns em dados de métricas sem configuração manual de limites. O sistema aprende padrões normais de comportamento e variações sazonais, reduzindo falsos positivos e permitindo a detecção precoce de problemas. Ele se adapta continuamente às mudanças dos aplicativos, tornando-o adequado para ambientes de nuvem dinâmicos.

A detecção de anomalias monitora as métricas de desempenho do aplicativo, como tempos de resposta e taxas de erro, rastreia a integridade da infraestrutura por meio do uso da CPU e da memória, detecta comportamentos incomuns do usuário, identifica as necessidades de planejamento de capacidade pela análise de tráfego e monitora as métricas de negócios em busca de mudanças inesperadas. Funciona melhor com padrões previsíveis, variações sazonais ou tendências de crescimento gradual.

O algoritmo Random Cut Forest (RCF) é usado para analisar dados de séries temporais. O RCF cria árvores de decisão que particionam o espaço de dados e identificam pontos isolados longe da distribuição normal. O algoritmo aprende com os dados recebidos para criar um modelo dinâmico de comportamento normal para cada métrica.

Quando ativado, ele analisa dados históricos para estabelecer padrões básicos e tendências sazonais e, em seguida, gera previsões para valores esperados e identifica desvios. O algoritmo produz quatro saídas principais:
+ *upper\$1band*: o limite superior dos valores normais esperados
+ *lower\$1band*: o limite inferior dos valores normais esperados
+ *score*: uma pontuação de anomalia numérica que indica o quão incomum é o ponto de dados
+ *value*: o valor métrico real observado

## Conceitos básicos da detecção de anomalias
<a name="anomaly-detection-getting-started"></a>

Para começar a usar a detecção de anomalias com suas métricas do Prometheus, você precisa de dados históricos suficientes para que o algoritmo aprenda os padrões normais. Recomendamos ter pelo menos 14 dias de dados métricos consistentes antes de ativar a detecção de anomalias para obter os melhores resultados.

Você pode visualizar como a detecção de anomalias funcionará com suas métricas usando a API `PreviewAnomalyDetector`. Use `PreviewAnomalyDetector` para testar o algoritmo em relação aos seus dados históricos e avaliar a eficácia dele antes de implementá-lo no monitoramento da produção. Para obter mais informações, consulte [PreviewAnomalyDetector API](anomaly-detection-api.md).

Ao implementar a detecção de anomalias, considere estas práticas recomendadas:
+ **Comece com métricas estáveis**: comece com métricas com padrões consistentes e evite inicialmente dados altamente voláteis ou esparsos.
+ **Use dados agregados**: aplique a detecção de anomalias a métricas agregadas (como médias ou somas) em vez de dados brutos de alta cardinalidade para obter melhor desempenho e precisão.
+ **Ajuste a sensibilidade**: ajuste os parâmetros do algoritmo com base em seu caso de uso específico e na tolerância a falsos positivos versus anomalias perdidas.
+ **Monitore o desempenho do algoritmo**: revise regularmente as anomalias detectadas para garantir que o algoritmo continue fornecendo informações valiosas à medida que seu sistema evolui.