

# 卓越运营
<a name="operational-excellence"></a>

卓越运营（OE）是一项承诺，即正确地构建软件，同时持续提供卓越的客户体验。卓越运营支柱包含组织团队、设计工作负载、大规模运营工作负载和随时间推移改进工作负载的最佳实践。

 卓越运营的目标是快速可靠地将新功能和错误修复交付给客户。投资于卓越运营的组织在构建新功能、进行变革和应对失败时能够始终让客户满意。在这一过程中，卓越运营通过帮助开发人员始终如一地实现高质量的结果，推动了持续集成和持续交付（CI/CD）。

## 设计原则
<a name="design-principles"></a>

以下是在云中实现卓越运营的设计原则：
+  **围绕业务成果组织团队：**团队实现业务成果的能力来自领导力愿景、有效的运营和与业务协调的运营模式。领导层应致力于 CloudOps 转型并全身心地投入其中，采用合适的云运营模式，激励团队以非常高效的方式运营并实现业务成果。正确的运营模式会利用人员、流程和技术能力来扩大规模，优化工作效率，并通过敏捷性、响应能力和适应能力打造差异化优势。组织的长期愿景会转化为一系列目标，并且这些目标将传达给整个组织内云服务的利益相关方和使用者。各个层面的目标和运营 KPI 将保持一致。这种做法能够维持通过实施以下设计原则所获得的长期价值。
+  **实施可观测性以获得切实可行的洞察：**全面了解工作负载行为、性能、可靠性、成本和运行状况。建立关键绩效指标（KPI），利用可观测性遥测来作出明智的决策，并在业务结果面临风险时迅速采取行动。基于可操作的可观测性数据，主动提高性能和可靠性，降低成本。
+  **尽可能安全地实现自动化：**在云中，您可以将用于应用程序代码的工程规范应用于整个环境。您能够以代码形式定义整个工作负载及其运营（应用程序、基础设施、配置和程序），并对其进行更新。之后，您可以通过启动工作负载的运营来响应事件，从而实现运营的自动化。在云中，您可以通过配置防护机制（包括速率控制、错误阈值和审批）来实现自动化的安全。通过有效的自动化，您可以实现对事件的持续响应，限制人为错误并减少操作员的艰苦工作。
+  **频繁进行可逆的小规模更改：**将工作负载设计为可扩展且松耦合，以允许定期更新组件。自动部署技术加上小型增量更改可缩小影响范围，并能够在发生故障时更快地进行回滚。这将增强您的信心，在保持质量和快速适应市场条件变化的同时，为工作负载提供有益的更改。
+  **经常优化运营程序：**随着工作负载的发展变化，相应地改进运营。在使用运营程序时，要寻找机会改进它们。定期审查并验证所有程序是否有效，以及团队是否熟悉这些程序。在发现差距时，相应地更新程序。向所有利益相关方和团队传达程序更新。将运营游戏化，以分享最佳实践并向团队传授知识。
+  **预测故障：**通过推动故障场景来了解工作负载的风险状况及其对业务成果的影响，从而最大限度地提高运营成功率。测试程序的有效性以及团队对这些模拟故障作出的反应。制定明智的决策，管理通过测试确定的开放风险。
+  **从所有运营事件和指标中吸取经验教训：**从所有运营事件和故障中吸取经验教训，推动改进。在多个团队乃至组织范围中分享经验教训。经验教训应重点介绍有关运营如何促进取得业务成果的数据和轶事。
+  **使用托管服务：**尽可能使用 AWS 托管服务，减少运营负担。围绕与这些服务的交互制定操作程序。

## 定义
<a name="definition"></a>

 在云中实现卓越运营有四个领域的最佳实践：
+  组织 
+  准备 
+  运营 
+  改进 

 组织领导层负责定义业务目标。组织必须了解各项要求和优先事项，并利用它们来组织和开展工作，为取得业务成果提供支持。您的工作负载必须发出所需信息以提供支持。采用多种服务来支持工作负载的集成、部署和交付，这将通过自动化重复流程，增加对生产的有益更改。

 工作负载的运营可能存在固有风险。您必须了解这些风险并作出明智的生产决策。您的团队必须能够支持您的工作负载。从预期业务成果中得出的业务和运营指标将有助于您了解工作负载的运行状况、运营活动以及对事件的响应。优先事项将随着业务需求和业务环境的变化而变化。将这些作为反馈环路，持续推动组织和工作负载运营的改进。