

# 監控工作負載資源
<a name="monitor-workload-resources"></a>

 日誌和指標是可深入洞察工作負載運作狀態的強大工具。您可以設定工作負載以監控日誌和指標，並在超過閾值或發生重大事件時傳送通知。監控可讓您的工作負載識別何時會超過低效能閾值或發生故障，以便自動復原來回應。

 監控是確保您會滿足可用性要求的關鍵步驟。需高效監控，以偵測故障。最糟糕的失敗模式是「沉默」失敗，在這種情況下，功能不再發揮功用，但除了間接處理之外，無法偵測到該問題。您的客戶比您知悉的還要早。提醒問題出現的時間，是您監控的主要原因之一。您的提醒應盡量與您的系統解偶。若服務中斷讓您無法接收提醒，您的中斷期會延長。

 在 AWS，我們在多個層級進行應用程式偵測。我們會記錄每個請求、所有相依性及流程中關鍵營運的延遲、錯誤率和可用性。我們還記錄成功營運的指標。這樣一來，我們就能在問題即將發生之前加以預防。我們不只考量平均延遲。我們更專注於延遲異常值，例如第 99.9 和 99.99 個百分位數。這是因為如果 1,000 或 10,000 中的一個請求進行緩慢，這仍是個差勁的體驗。此外，雖然您的平均值是可接受的，但如果 100 個請求中有一個造成極端延遲，最終會在流量增加時變成問題。

 AWS 監控包含四個不同的階段：

1. 產生 – 監控工作負載的所有元件 

1. 彙總 – 定義和計算指標 

1. 即時處理和警示 – 傳送通知並將回應自動化 

1. 儲存與分析 

**Topics**
+ [REL06-BP01 監控工作負載的所有元件 (產生)](rel_monitor_aws_resources_monitor_resources.md)
+ [REL06-BP02 定義和計算指標 (彙總)](rel_monitor_aws_resources_notification_aggregation.md)
+ [REL06-BP03 傳送通知 (即時處理和警示)](rel_monitor_aws_resources_notification_monitor.md)
+ [REL06-BP04 自動化回應 (即時處理和警示)](rel_monitor_aws_resources_automate_response_monitor.md)
+ [REL06-BP05 分析日誌](rel_monitor_aws_resources_storage_analytics.md)
+ [REL06-BP06 定期審查監控範圍和指標](rel_monitor_aws_resources_review_monitoring.md)
+ [REL06-BP07 透過您的系統監控請求的端對端追蹤](rel_monitor_aws_resources_end_to_end.md)