

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 異常偵測
<a name="prometheus-anomaly-detection"></a>

Amazon Managed Service for Prometheus 提供異常偵測功能，使用機器學習演算法自動識別指標資料中的異常模式。此功能可協助您主動偵測潛在問題、減少警示疲勞，並透過專注於真正的異常行為而非靜態閾值來改善監控效率。

Amazon Managed Service for Prometheus 中的異常偵測使用 Random Cut Forest (RCF) 演算法，可分析您的時間序列資料，以建立正常行為模式並識別與這些模式的偏差。此演算法會適應季節性趨勢、正常處理遺失的資料，並為偵測到的異常提供可信度分數。

## 異常偵測的運作方式
<a name="amp-anomaly-detection-how-it-works"></a>

Amazon Managed Service for Prometheus 異常偵測使用機器學習來識別指標資料中的異常模式，而無需手動閾值組態。系統會學習正常行為模式和季節性變化，減少誤報並啟用早期問題偵測。它會持續適應應用程式變更，使其適合動態雲端環境。

異常偵測會監控應用程式效能指標，例如回應時間和錯誤率、透過 CPU 和記憶體使用量追蹤基礎設施運作狀態、偵測不尋常的使用者行為、透過流量分析識別容量規劃需求，以及監控業務指標是否有非預期的變更。它最適合用於可預測模式、季節性變化或逐步成長趨勢。

Random Cut Forest (RCF) 演算法用於分析時間序列資料。RCF 會建立決策樹來分割資料空間，並識別遠離正常分佈的隔離點。演算法會從傳入資料中學習，為每個指標建立正常行為的動態模型。

啟用時，它會分析歷史資料以建立基準模式和季節性趨勢，然後產生預期值的預測並識別偏差。演算法會產生四個金鑰輸出：
+ *upper\$1band* - 預期正常值的上限
+ *lower\$1band* - 預期正常值的下限
+ ** score - 數值異常分數，指出資料點的異常程度
+ *value* - 實際觀察到的指標值

## 開始使用異常偵測
<a name="anomaly-detection-getting-started"></a>

若要開始使用異常偵測搭配 Prometheus 指標，您需要足夠的歷史資料，演算法才能學習正常模式。我們建議在啟用異常偵測以獲得最佳結果之前，至少擁有 14 天的一致指標資料。

您可以使用 `PreviewAnomalyDetector` API 預覽異常偵測如何與您的指標搭配使用。`PreviewAnomalyDetector` 使用 針對您的歷史資料測試演算法，並在生產監控中實作演算法之前評估其有效性。如需詳細資訊，請參閱[PreviewAnomalyDetector API](anomaly-detection-api.md)。

實作異常偵測時，請考慮下列最佳實務：
+ **從穩定的指標**開始 – 從具有一致模式的指標開始，一開始就避免高度波動或稀疏的資料。
+ **使用彙總資料** – 將異常偵測套用至彙總指標 （例如平均值或總和），而不是原始的高基數資料，以提高效能和準確性。
+ **調校敏感度** – 根據您的特定使用案例和容錯率調整演算法參數，避免誤報與遺漏的異常。
+ **監控演算法效能** – 定期審查偵測到的異常情況，以確保演算法隨著系統演進持續提供寶貴的洞見。