本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
主動事件預防
AWS DevOps 代理程式會分析整個事件調查的模式,以提供目標性建議,以持續改善您的營運狀態並防止未來的事件。透過 Operator Web 應用程式中的 Ops 待處理項目頁面存取主動事件預防。
主動事件預防的運作方式
AWS DevOps 代理程式會評估最近的事件調查,以識別持續的改進,以防止未來的事件,並加快平均偵測時間 (MTTD)。代理程式會分析多個事件,以識別可能在未來阻止整個事件類別的建議,專注於最具影響力的建議,以確保這些建議可採取動作。
根據預設,代理程式會每週自動執行評估。如果您想要僅隨需執行評估,可以暫停排程。手動評估隨時可用,這在最近的調查需要快速解決建議的改進時很有用。
客服人員會識別四個類別的改進,如 Ops Backlog 頁面上的建議分類圖表所示:
可觀測性 – 增強監控、提醒、記錄和系統可見性的建議,以更快、更準確地偵測問題。
基礎設施 – 最佳化資源組態、容量調校和架構彈性的建議。
控管 – 強化部署程序、管道改善、測試實務和操作控制的建議。
程式碼最佳化 – 改善應用程式程式碼品質、錯誤處理和程式碼彈性的建議。
此分類可協助您了解最需要改善營運的位置,並可讓您根據團隊的重點領域排定建議優先順序。
優勢
防止重複發生事件 – 有系統地解決根本原因,而不是重複回應相同類型的問題
減少營運管道 – 讓團隊免於重複的消防,專注於創新和策略改進
改善系統彈性 – 根據實際事件資料強化您的基礎設施、可觀測性和部署程序
從歷史模式學習 - 利用過去事件的洞察,進行具有最大影響的目標改善
客服人員摘要
Web 應用程式操作待處理項目頁面中的客服人員摘要提供最近事件上次評估結果的說明。摘要說明分析的事件調查數量、哪些事件與過去的事件類似,以及使用新資訊建立或更新了哪些建議。
摘要可協助您快速了解客服人員在最近一次評估期間發現的情況,並重點介紹可能對您的營運狀態產生最大影響的最值得注意的建議。
控制評估
您可以控制何時 AWS DevOps 代理程式評估事件並產生建議:
手動執行評估 – 按一下操作待處理項目頁面中的立即執行按鈕,立即開始評估。當最近的調查需要快速解決建議的改進時,這很有用。
停止作用中的評估 – 按一下 Ops Backlog 頁面中的停止評估按鈕,以停止目前正在進行的評估。
管理建議
AWS DevOps 代理程式會在 Ops Backlog 頁面中提供建議,您可以在其中檢閱和管理這些建議:
檢視建議詳細資訊 – 按一下建議以開啟建議詳細資訊頁面,您可以在其中查看建議改進的詳細資訊,包括通知建議的事件、預期的影響和後續步驟。如需程式碼變更的建議,您也可以檢視可供代理程式使用的規格,這些規格可以交給編碼代理程式進行實作。
保留 – 按一下「保留」,在待處理項目中保留建議以進行追蹤。這可讓您監控計劃實作和追蹤其進度的改善項目。
捨棄 – 按一下「捨棄」以從待處理項目中移除建議。當您捨棄建議時,您可以提供自然語言說明,說明它為何不符合您的需求。客服人員會從此意見回饋中學習,並用它來通知未來的建議,確保隨著時間的推移,它們更符合您的操作優先事項和需求。
已實作 – 按一下「已實作」,將建議標記為已完成。這可協助您追蹤已套用的改善項目,並允許代理程式測量其建議隨時間經過的有效性。
自動移除 – 如果實作建議不會阻止任何新事件,則大約 6 週後可能會移除未標記為保留或實作的建議。這可確保營運待處理項目頁面專注於最相關的營運挑戰改進。
建議更新 – 當發現有較新的事件被建議所阻止時,現有的建議會更新。更新可能會變更建議的優先順序,或根據新洞見精簡建議。
客服人員就緒規格
對於涉及程式碼或組態變更的建議, AWS DevOps 代理程式可以產生適用於代理程式的規格。此規格提供結構化文件,可直接交給編碼代理程式進行實作。
規格包括:
問題陳述式 – 問題及其根本原因的摘要
解決方案摘要 – 建議方法的高階描述
目標儲存庫 – 需要變更的特定儲存庫
程式碼變更 – 詳細說明需要變更的內容和原因,以及特定的檔案路徑和實作考量
測試需求 – 需要測試哪些案例
實作計畫 – 實作變更的分階段方法
代理程式就緒規格透過為編碼代理程式提供進行生產就緒變更所需的內容來加速實作,而不需要工程師進行廣泛的back-and-forth操作。
實作建議
若要將主動事件預防建議的價值最大化,請考慮採取下列做法來採取行動:
使用代理程式就緒規格 – 如需程式碼變更的建議,請使用產生的規格,透過將其交給編碼代理程式,或使用它作為手動實作的詳細指南來加速實作。
將建議新增至票證待處理項目 – 將建議複製到團隊的票證系統或專案管理工具,以確保與其他工程工作一起排定優先順序。
根據影響排定建議優先順序 – 首先專注於處理最常見或嚴重事件類型,或影響關鍵系統的建議。
追蹤實作進度 – 監控已實作的建議,並透過觀察類似事件是否隨著時間減少來衡量其有效性。
與開發團隊協調 – 與擁有受影響系統的適當團隊分享建議,確保他們擁有實作改善所需的內容和資源。