

# Excelência operacional
<a name="operational-excellence"></a>

A excelência operacional (EO) é um compromisso com o desenvolvimento correto de software, ao mesmo tempo que oferecemos uma ótima experiência aos clientes. O pilar Excelência operacional contém as práticas recomendadas para organizar sua equipe, projetar sua workload, operar em grande escala e evoluir ao longo do tempo.

 O objetivo da excelência operacional é colocar novos recursos e correções de bugs nas mãos dos clientes de maneira rápida e confiável. As organizações que investem em excelência operacional sempre encantam os clientes à medida que criam novos recursos, fazem alterações e lidam com falhas. Ao longo do caminho, a excelência operacional leva à integração contínua e entrega contínua (CI/CD) ao ajudar os desenvolvedores a alcançar resultados de alta qualidade de forma consistente. 

## Princípios de design
<a name="design-principles"></a>

Os cinco princípios de design para excelência operacional na nuvem são:
+  **Organize as equipes em torno dos resultados comerciais:** a capacidade de uma equipe alcançar resultados comerciais vem da visão de liderança, das operações eficazes e de um modelo operacional alinhado aos negócios. A liderança deve estar totalmente envolvida e comprometida com a transformação de CloudOps por meio de um modelo operacional de nuvem adequado que incentive as equipes a operar da maneira mais eficiente e atingir os resultados comerciais. O modelo operacional correto usa pessoas, processos e recursos tecnológicos para escalar, otimizar a produtividade e promover a diferenciação por meio de agilidade, capacidade de resposta e adaptação. A visão de longo prazo da organização é convertida em metas que são comunicadas em toda a empresa às partes interessadas e aos consumidores dos serviços de nuvem. As metas e os KPIs operacionais estão alinhados em todos os níveis. Essa prática sustenta o valor de longo prazo derivado da implementação dos princípios de design a seguir.
+  **Implemente observabilidade para insights acionáveis:** obtenha uma compreensão abrangente do comportamento, da performance, da confiabilidade, do custo e da integridade da workload. Estabeleça indicadores-chave de performance (KPIs) e aproveite a telemetria de observabilidade para tomar decisões fundamentadas e agir imediatamente quando os resultados obtidos estiverem em risco. Melhore proativamente a performance, a confiabilidade e o custo com base em dados de observabilidade úteis. 
+  **Automatize com segurança onde possível:** na nuvem, você pode aplicar a mesma disciplina de engenharia usada para o código da aplicação em todo o ambiente. Você pode definir toda a workload e as respectivas operações (aplicações, infraestrutura, configuração e procedimentos) como código e atualizá-las. Em seguida, você pode automatizar as operações da workload iniciando-as em resposta a eventos. Na nuvem, você pode usar a segurança de automação configurando barreiras de proteção, incluindo controle de taxa, limites de erro e aprovações. Por meio de uma automação eficiente, você pode conseguir respostas consistentes a eventos, restringir erros humanos e reduzir o trabalho do operador. 
+  **Faça alterações frequentes, pequenas e reversíveis:** projete workloads escaláveis e com acoplamento fraco para permitir que os componentes sejam atualizados regularmente. Técnicas de implantação automatizadas, bem como mudanças menores e incrementais, reduzem o raio de expansão e permitem uma reversão mais rápida se ocorrerem falhas. Isso aumenta a confiança na entrega de mudanças benéficas à workload, mantendo a qualidade e possibilitando uma rápida adaptação às mudanças nas condições do mercado.
+  **Refine os procedimentos operacionais com frequência:** à medida que você evolui suas workloads, desenvolva suas operações de forma adequada. À medida que usar procedimentos operacionais, procure oportunidades para melhorá-los. Organize revisões regularmente e valide se todos os procedimentos estão em vigor e se as equipes estão familiarizadas com eles. Ao identificar lacunas, atualize os procedimentos adequadamente. Comunique as atualizações dos procedimentos a todas as partes interessadas e equipes. Promova o aprendizado gamificado em suas operações para compartilhar as práticas recomendadas e instruir as equipes.
+  **Preveja a falha:** maximize o sucesso operacional conduzindo cenários de falha para entender o perfil de risco da workload e seu impacto nos resultados comerciais. Teste a eficácia de seus procedimentos e a resposta de sua equipe em relação a essas falhas simuladas. Tome decisões embasadas para gerenciar riscos abertos identificados pelos testes.
+  **Aprenda com todos os eventos operacionais e métricas:** promova melhorias com as lições aprendidas em todos os eventos e falhas operacionais. Compartilhe o que foi aprendido com as equipes e a organização inteira. Os aprendizados devem destacar dados e curiosidades sobre como as operações contribuem para os resultados comerciais.
+  **Use serviços gerenciados:** reduza a carga operacional usando serviços gerenciados da AWS sempre que possível. Crie procedimentos operacionais em torno das interações com esses serviços. 

## Definição
<a name="definition"></a>

 Há quatro áreas de práticas recomendadas para excelência operacional na nuvem: 
+  Organização 
+  Preparar 
+  Operar 
+  Evoluir 

 A liderança da sua organização define os objetivos empresariais. Sua organização deve compreender requisitos e prioridades e usá-los para organizar e conduzir trabalhos para apoiar a obtenção de resultados empresariais. Sua workload deve emitir as informações necessárias para apoiá-la. A implementação de serviços para ativar a integração, a implantação e a entrega de sua workload criará um fluxo maior de alterações benéficas na produção por meio da automação de processos repetitivos. 

 Pode haver riscos inerentes à operação da workload. Você deve compreender esses riscos e tomar uma decisão embasada para entrar em produção. Suas equipes devem ser capazes de oferecer suporte à sua workload. As métricas operacionais e de negócios derivadas dos resultados de negócios desejados ajudarão você a compreender a integridade da workload e das atividades de operações, bem como responder a incidentes. Suas prioridades mudarão à medida que suas necessidades de negócios e o ambiente de negócios mudarem. Use isso como um ciclo de comentários para promover continuamente melhorias para a sua organização e a operação da sua workload. 