本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
主动预防事故
AWS DevOps 代理分析您的事件调查模式,以提供有针对性的建议,从而持续改善您的运营状况并防止将来发生事件。通过 Operator Web 应用程序中的 Ops Backlog 页面访问主动事件预防。
主动式事件预防的工作原理
AWS DevOps 代理评估最近的事件调查,以确定持久的改进措施,以防止将来发生事故并缩短平均检测时间 (MTTD)。该代理分析多起事件,以确定可以防止将来发生整类事件的建议,重点是最有影响力的建议,以确保这些建议具有可操作性。
默认情况下,代理每周自动运行一次评估。如果您希望仅按需进行评估,则可以暂停日程安排。手动评估随时可用,当最近的调查要求对建议的改进进行快速周转时,这很有用。
代理发现了四个类别的改进,显示在 Ops Backlog 页面的建议分类图表中:
可观察性-增强监控、警报、日志记录和系统可见性的建议,以更快、更准确地检测问题。
基础架构 — 优化资源配置、容量调整和架构弹性的建议。
治理 — 关于加强部署流程、管道改进、测试实践和操作控制的建议。
代码优化-改善应用程序代码质量、错误处理和代码弹性的建议。
这种分类可帮助您了解最需要改进运营的地方,并允许您根据团队的重点领域确定建议的优先顺序。
优势
防止事件反复出现 — 系统地解决根本原因,而不是反复应对相同类型的问题
减少运营疲劳 — 让您的团队摆脱重复的消防工作,专注于创新和战略改进
提高系统弹性 — 根据真实事件数据加强您的基础架构、可观察性和部署流程
从历史模式中学习 — 利用过去事件的见解,进行有针对性的改进,从而产生最大的影响
代理摘要
Web App 的 Ops Backlog 页面中的 “代理摘要” 描述了最近一次事件评估的结果。摘要说明了分析的事件调查数量,哪些事件与过去的事件相似,以及哪些建议是根据新信息创建或更新的。
该摘要可帮助您快速了解代理在最近的评估中发现了什么,并重点介绍了可能对您的运营状况产生最大影响的最值得注意的建议。
控制评估
您可以控制 AWS DevOps 代理何时评估事件并生成建议:
手动运行评估-单击 Ops Backlog(操作待办事项)页面中的立即运行按钮可立即开始评估。当最近的调查要求对建议的改进进行快速周转时,这很有用。
停止正在进行的评估-单击 Ops Bac k log(操作待办事项)页面中的 “停止评估” 按钮可暂停当前正在进行的评估。
管理推荐
AWS DevOps 代理在 Ops Backlog 页面中提供建议,您可以在其中查看和管理这些建议:
查看建议详情-单击建议可打开建议详细信息页面,您可以在其中查看有关建议改进的更多信息,包括为该建议提供依据的事件、预期影响和后续步骤。有关代码更改的建议,您还可以查看代理就绪规范,该规范可以交给编码代理实施。
保留 — 单击 “保留” 可在待办事项列表中保留建议以供跟踪。这使您可以监控计划实施哪些改进并跟踪其进度。
丢弃 — 单击 “放弃” 可从待办事项列表中删除推荐。当你放弃推荐时,你可以用自然语言解释为什么它不能满足你的需求。工程师从这些反馈中吸取教训,并利用这些反馈为未来的建议提供信息,确保这些建议随着时间的推移与您的运营优先事项和要求更加一致。
已实施-单击 “已实施” 将建议标记为已完成。这可以帮助您跟踪应用了哪些改进,并允许代理衡量其建议在一段时间内的有效性。
自动删除-未标记为 “保留” 或 “已实施” 的建议可以在大约 6 周后删除,前提是实施该建议无法防止出现新的事件。这样可以确保 Ops Backlog 页面专注于最相关的改进,以应对您的运营挑战。
建议更新 — 当发现建议本来可以防止的新事件时,会更新现有建议。更新可能会更改建议的优先级或根据新的见解完善建议。
代理就绪规格
对于涉及代码或配置更改的建议, AWS DevOps 代理可以生成代理就绪规范。该规范提供了一个结构化文档,可以直接交给编码代理进行实施。
该规格包括:
问题陈述-问题及其根本原因的摘要
解决方案摘要-对推荐方法的高级描述
目标存储库-需要进行更改的特定存储库
代码更改 — 详细描述需要更改的内容和原因,以及特定的文件路径和实现注意事项
测试要求-需要测试哪些场景
实施计划 — 实施变更的分阶段方法
Agent 就绪规范通过为编码代理提供进行生产就绪更改所需的上下文,而无需与工程师进行大量合作,从而加快实施速度。 back-and-forth
实施建议
为了最大限度地发挥主动事件预防建议的价值,请考虑采取以下措施来执行这些建议:
使用代理就绪规范 — 有关代码变更的建议,请使用生成的规范将其交给编码代理或将其用作手动实施的详细指南,从而加快实施。
向工单待办事项中添加建议 — 将建议复制到团队的工单系统或项目管理工具,以确保这些建议与其他工程工作一起被优先考虑。
根据影响对建议进行优先排序 — 首先关注针对最常见或最严重的事件类型或影响关键系统的建议。
跟踪实施进度 — 通过观察类似事件是否随着时间的推移而减少,监控哪些建议已得到实施,并衡量其有效性。
与开发团队协调-与拥有受影响系统的相应团队共享建议,确保他们拥有实施改进所需的背景和资源。