# Aprender, compartilhar e aprimorar
<a name="learn-share-and-improve"></a>

 É essencial que você forneça regularmente tempo para análise das atividades operacionais, análise de falhas, experimentação e aprimoramentos. Quando algo falha, é necessário garantir que sua equipe, assim como sua comunidade de engenharia maior, aprenda com essas falhas. Você deve analisar falhas para identificar as lições aprendidas e planejar melhorias. Você desejará revisar regularmente suas lições aprendidas com outras equipes para validar suas ideias. 

**Topics**
+ [OPS11-BP01 Adotar um processo para melhoria contínua](ops_evolve_ops_process_cont_imp.md)
+ [OPS11-BP02 Executar análise pós-incidente](ops_evolve_ops_perform_rca_process.md)
+ [OPS11-BP03 Implementar loops de feedback](ops_evolve_ops_feedback_loops.md)
+ [OPS11-BP04 Gerenciar o conhecimento](ops_evolve_ops_knowledge_management.md)
+ [OPS11-BP05 Definir fatores de melhoria](ops_evolve_ops_drivers_for_imp.md)
+ [OPS11-BP06 Validar insights](ops_evolve_ops_validate_insights.md)
+ [OPS11-BP07 Fazer revisões das métricas de operações](ops_evolve_ops_metrics_review.md)
+ [OPS11-BP08 Documentar e compartilhar as lições aprendidas](ops_evolve_ops_share_lessons_learned.md)
+ [OPS11-BP09 Alocar tempo para fazer melhorias](ops_evolve_ops_allocate_time_for_imp.md)

# OPS11-BP01 Adotar um processo para melhoria contínua
<a name="ops_evolve_ops_process_cont_imp"></a>

 Avalie a workload em relação às práticas recomendadas de arquitetura interna e externa. Realize análises frequentes e intencionais da workload. Priorize as oportunidades de melhoria na cadência de desenvolvimento de software. 

 **Resultado desejado:** 
+  Analise a workload em relação às práticas recomendadas de arquitetura com frequência. 
+  Atribua às oportunidades de melhoria a mesma prioridade que os recursos do processo de desenvolvimento de software. 

 **Práticas comuns que devem ser evitadas:** 
+  Não realizar uma análise de arquitetura na workload desde que ela foi implantada há vários anos. 
+  Atribuir uma prioridade menor às oportunidades de melhoria. Em comparação com os novos recursos, essas oportunidades permanecem pendentes. 
+  Não há um padrão para implementar modificações nas práticas recomendadas da organização. 

 **Benefícios de implementar esta prática recomendada:** 
+  A workload é mantida atualizada em relação às práticas recomendadas de arquitetura. 
+  Você desenvolveu a workload de forma intencional. 
+  Você pode utilizar as práticas recomendadas da organização para melhorar todas as workloads. 
+  Você tem ganhos marginais que têm um impacto cumulativo, o que gera maior eficiência. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Realize frequentemente uma revisão arquitetônica da workload. Usando práticas recomendadas internas e externas, avalie a workload e identifique oportunidades de melhoria. Priorize as oportunidades de melhoria na cadência de desenvolvimento de software. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  Realize revisões de arquitetura periódicas da workload de produção com uma frequência previamente combinada. Use um padrão de arquitetura documentado que inclua práticas recomendadas específicas da AWS. 

   1.  Use os padrões definidos internamente para essas avaliações. Se não houver um padrão interno, use o AWS Well-Architected Framework. 

   1.  Use o AWS Well-Architected Tool para criar uma perspectiva personalizada das práticas recomendadas internas e realizar a análise da arquitetura. 

   1.  Entre em contato com o arquiteto de soluções ou o gerente técnico de contas da AWS para realizar uma análise guiada do Well-Architected Framework para sua workload. 

1.  Priorize as oportunidades de melhoria identificadas durante a análise em seu processo de desenvolvimento de software. 

 **Nível de esforço do plano de implementação:** Baixo. É possível usar o AWS Well-Architected Framework para realizar sua análise de arquitetura anual. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS11-BP02 Executar análise pós-incidente](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) 
+  [OPS11-BP08 Documentar e compartilhar as lições aprendidas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_share_lessons_learned.html) 
+  [OPS04 Como implementar a observabilidade](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_process_cont_imp.html) 

 **Documentos relacionados:** 
+  [AWS Well-Architected Tool: perspectivas personalizadas](https://docs.aws.amazon.com/wellarchitected/latest/userguide/lenses-custom.html) 
+  [Whitepaper do AWS Well-Architected: O processo de revisão](https://docs.aws.amazon.com/wellarchitected/latest/framework/the-review-process.html) 
+  [Personalizar avaliações do Well-Architected usando Custom Lenses e o AWS Well-Architected Tool](https://aws.amazon.com/blogs/mt/customize-well-architected-reviews-using-custom-lenses-and-the-aws-well-architected-tool/) 
+  [Implementar o ciclo de vida do AWS Well-Architected Custom Lenses em sua organização](https://aws.amazon.com/blogs/architecture/implementing-the-aws-well-architected-custom-lens-lifecycle-in-your-organization/) 

 **Vídeos relacionados:** 
+  [AWS re:Invent 2023: Como escalar as práticas recomendadas da AWS Well-Architected em toda a sua organização](https://youtu.be/UXtZCoE9qfQ?si=OPATCOY2YAwiF2TS) 

 **Exemplos relacionados:** 
+  [AWS Well-Architected Tool](https://docs.aws.amazon.com/wellarchitected/latest/userguide/intro.html) 

# OPS11-BP02 Executar análise pós-incidente
<a name="ops_evolve_ops_perform_rca_process"></a>

 Revise os eventos que afetam o cliente e identifique os fatores contribuintes e as ações preventivas. Use essas informações para desenvolver mitigações e limitar ou evitar recorrência. Desenvolva procedimentos para respostas rápidas e eficazes. Comunique os fatores contribuintes e as ações corretivas conforme apropriado, de acordo com o público-alvo. 

 **Resultado desejado:** 
+  Você estabelece processos de gerenciamento de incidentes que incluem análise pós-incidente. 
+  Você tem planos de observabilidade para coletar dados sobre eventos. 
+  Com esses dados, você entende e coleta métricas que apoiam seu processo de análise pós-incidente. 
+  Você aprende com os incidentes para melhorar os resultados futuros. 

 **Práticas comuns que devem ser evitadas:** 
+  Você administra um servidor de aplicações. Todas as sessões ativas são encerradas aproximadamente a cada 23 horas e 55 minutos. Você tentou identificar o que está errado no servidor de aplicações. Você suspeita que possa ser um problema de rede, mas não consegue obter colaboração da equipe da rede, pois ela está muito ocupada para ajudar. Você não tem um processo predefinido a seguir para obter suporte e coletar as informações necessárias para determinar o que está acontecendo. 
+  Houve de dados em sua workload. Esta é a primeira vez que isso acontece e a causa não é óbvia. Você decide que não é importante porque pode recriar os dados. A perda de dados começa a ocorrer com maior frequência, afetando seus clientes. Isso também cria uma sobrecarga operacional adicional à medida que você restaura os dados ausentes. 

 **Benefícios de implementar esta prática recomendada:** 
+  Você tem um processo predefinido para determinar componentes, condições, ações e eventos que contribuíram para um incidente, ajudando a identificar oportunidades de melhoria. 
+  Você usa dados da análise pós-incidente para fazer melhorias. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Use um processo para determinar fatores contribuintes. Revise todos os incidentes de impacto do cliente. Tenha um processo para identificar e documentar as causas de um incidente para que você possa desenvolver atenuações para limitar ou impedir a recorrência e para desenvolver procedimentos para respostas rápidas e eficazes. Comunique as causas principais do incidente conforme apropriado e adapte a comunicação ao seu público-alvo. Compartilhe os aprendizados abertamente em sua organização. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  Colete métricas como mudança na implantação, mudança de configuração, hora de início do incidente, hora do alarme, hora do engajamento, hora de início da mitigação e hora de resolução do incidente. 

1.  Descreva os principais pontos do cronograma para entender os eventos do incidente. 

1.  Faça as seguintes perguntas: 

   1.  Você pode melhorar o tempo de detecção? 

   1.  Há atualizações nas métricas e alarmes que detectariam o incidente mais cedo? 

   1.  Você pode melhorar o tempo até o diagnóstico? 

   1.  Há atualizações em seus planos de resposta ou planos de escalação que envolveriam os respondentes corretos mais cedo? 

   1.  Você pode melhorar o tempo de mitigação? 

   1.  Existe alguma etapa do runbook ou playbook que você pode adicionar ou melhorar? 

   1.  Você pode evitar que futuros incidentes ocorram? 

1.  Crie listas de verificação e ações. Acompanhe e realize todas as ações. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS11-BP01 Adotar um processo para melhoria contínua](ops_evolve_ops_process_cont_imp.md) 
+ [OPS 4 Como implementar a observabilidade](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html)

 **Documentos relacionados:** 
+  [Como realizar uma análise pós-incidente no Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/analysis.html) 
+  [Revisão da prontidão operacional](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/iteration.html) 

# OPS11-BP03 Implementar loops de feedback
<a name="ops_evolve_ops_feedback_loops"></a>

Os loops de feedback fornecem insights que levam a ações concretas e orientam a tomada de decisões. Crie loops de feedback em seus procedimentos e workloads. Isso ajuda a identificar problemas e áreas que precisam de melhorias. Eles também validam os investimentos feitos em melhorias. Esses loops de feedback são a base para o aprimoramento contínuo da sua workload.

 Os ciclos de feedback se dividem em duas categorias: *feedback imediato* e *análise retrospectiva*. O feedback imediato é coletado por meio da avaliação da performance e dos resultados das atividades de operações. Esse feedback é proveniente de membros da equipe, de clientes ou do resultado automático da atividade. O feedback imediato é recebido de elementos como testes A/B e do envio de novos recursos e é essencial para antecipar-se à falha. 

 A análise retrospectiva é realizada regularmente para obter feedback da avaliação de resultados e métricas operacionais ao longo do tempo. Essa retrospectiva ocorre ao final de um sprint, com certa frequência ou após grandes lançamentos ou eventos. Esse tipo de loop de feedback valida investimentos em operações ou na workload. Ele ajuda a medir o sucesso e valida sua estratégia. 

 **Resultado desejado:** o feedback imediato e a análise retrospectiva são usados para promover melhorias. Há um mecanismo para obter o feedback de usuários e membros da equipe. A análise retrospectiva é usada para identificar tendências que promovem melhorias. 

 **Práticas comuns que devem ser evitadas:** 
+ Você lança um novo recurso, mas não há uma maneira de receber feedback de clientes sobre ele.
+ Depois de investir em melhorias de operações, você não realiza uma retrospectiva para validá-las.
+ Você coleta feedback dos clientes, mas não os avalia regularmente.
+ Os loops de feedback levam a itens de ação propostos, mas não estão incluídos no processo de desenvolvimento de software.
+  Os clientes não recebem feedback sobre as melhorias que propuseram. 

 **Benefícios de implementar esta prática recomendada:** 
+  É possível trabalhar partindo do feedback do cliente para criar novos recursos. 
+  A cultura da sua organização pode reagir às mudanças mais rapidamente. 
+  As tendências são usadas para identificar oportunidades de melhoria. 
+  As retrospectivas validam os investimentos feitos na workload e nas operações. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 A implementação dessa prática recomendada significa que você usa tanto o feedback imediato como a análise de retrospectiva. Esses loops de feedback geram melhorias. Há muitos mecanismos para o feedback imediato, incluindo pesquisas, enquetes com clientes ou formulários de feedback. Sua organização também pode usar as retrospectivas para identificar oportunidades de melhoria e validar iniciativas. 

 **Exemplo de cliente** 

 A AnyCompany Retail criou um formulário online pelo qual os clientes podem fornecer feedback ou relatar problemas. Durante as reuniões semanais, o feedback dos usuários é avaliado pela equipe de desenvolvimento de software. O feedback é usado regularmente para conduzir a evolução da plataforma. É feita uma retrospectiva ao final de cada sprint para identificar itens que eles desejam melhorar. 

## Etapas de implementação
<a name="implementation-steps"></a>

1. Feedback imediato
   +  Você precisa de um mecanismo para receber feedback de clientes e membros da equipe. Suas atividades de operações também podem ser configuradas para oferecer feedback automático. 
   +  Sua organização precisa de um processo para avaliar esse feedback, determinar o que precisa ser melhorado e programar a melhoria. 
   +  O feedback deve ser adicionado ao seu processo de desenvolvimento de software. 
   +  À medida que você faz melhorias, faça o rastreamento com quem enviou o feedback. 
     +  É possível usar o [OpsCenter do AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) para criar e monitorar essas melhorias como [OpSitems](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter-working-with-OpsItems.html).

1.  Análise retrospectiva 
   +  Faça retrospectivas ao final de um ciclo de desenvolvimento, com certa frequência ou após um grande lançamento. 
   +  Faça uma reunião de retrospectiva com as partes interessadas envolvidas na workload. 
   +  Crie três colunas em um quadro branco ou uma planilha: "Parar", "Iniciar" e "Manter". 
     +  *Parar* aplica-se ao que você deseja que a equipe pare de fazer. 
     +  *Iniciar* é para ideias em que você deseja começar a trabalhar. 
     +  *Manter* refere-se aos itens que você deseja continuar fazendo. 
   +  Caminhe pela sala e colete o feedback das partes interessadas. 
   +  Priorize o feedback. Atribua ações e partes interessadas aos itens "Iniciar" e "Manter". 
   +  Adicione as ações ao processo de desenvolvimento de software e comunique as atualizações de status às partes interessadas à medida que as melhorias são implementadas. 

 **Nível de esforço do plano de implementação:** Médio. Para implementar essa prática recomendada, você precisa de uma maneira para receber feedback imediato e analisá-lo. Além disso, é necessário estabelecer um processo de análise retrospectiva. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS01-BP01 Avaliar as necessidades dos clientes externos](ops_priorities_ext_cust_needs.md): loops de feedback são um mecanismo para coletar as necessidades de clientes externos. 
+  [OPS01-BP02 Avaliar as necessidades dos clientes internos](ops_priorities_int_cust_needs.md): as partes interessadas internas podem usar loops de feedback para comunicar necessidades e requisitos. 
+  [OPS11-BP02 Executar análise pós-incidente](ops_evolve_ops_perform_rca_process.md): a análise pós-incidente é uma forma importante de análise retrospectiva conduzida após os incidentes. 
+  [OPS11-BP07 Fazer revisões das métricas de operações](ops_evolve_ops_metrics_review.md): as avaliações das métricas de operações identificam tendências e áreas para melhorias. 

 **Documentos relacionados:** 
+  [Sete obstáculos que devem ser evitados ao criar um CCoE](https://aws.amazon.com/blogs/enterprise-strategy/7-pitfalls-to-avoid-when-building-a-ccoe/) 
+  [Playbook da equipe Atlassian: retrospectivas](https://www.atlassian.com/team-playbook/plays/retrospective) 
+  [Definições de e-mail: loops de feedback](https://aws.amazon.com/blogs/messaging-and-targeting/email-definitions-feedback-loops/) 
+  [Como estabelecer loops de feedback com base na avaliação do AWS Well-Architected Framework](https://aws.amazon.com/blogs/architecture/establishing-feedback-loops-based-on-the-aws-well-architected-framework-review/) 
+  [Metodologia IBM Garage: fazer uma retrospectiva](https://www.ibm.com/garage/method/practices/learn/practice_retrospective_analysis/) 
+  [Investopedia: o ciclo de PDCS](https://www.investopedia.com/terms/p/pdca-cycle.asp) 
+  [Como maximizar a eficácia do desenvolvedor, por Tim Cochran](https://martinfowler.com/articles/developer-effectiveness.html) 
+  [Whitepaper Revisões de prontidão operacional (ORR): iteração](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/iteration.html) 
+  [ITIL CSI: melhoria contínua nos serviços](https://wiki.en.it-processmaps.com/index.php/ITIL_CSI_-_Continual_Service_Improvement)
+  [Quando a Toyota conheceu o comércio eletrônico: confiança na Amazon](https://www.mckinsey.com/capabilities/operations/our-insights/when-toyota-met-e-commerce-lean-at-amazon) 

 **Vídeos relacionados:** 
+  [Como criar loops de feedback de clientes eficazes](https://www.youtube.com/watch?v=zz_VImJRZ3U) 

 **Exemplos relacionados:** 
+  [Astuto: ferramenta de código aberto para feedback de clientes](https://github.com/riggraz/astuto) 
+  [Soluções da AWS: QnABot na AWS](https://aws.amazon.com/solutions/implementations/qnabot-on-aws/) 
+  [Fider: uma plataforma para organizar feedback de clientes](https://github.com/getfider/fider) 

 **Serviços relacionados:** 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 

# OPS11-BP04 Gerenciar o conhecimento
<a name="ops_evolve_ops_knowledge_management"></a>

O gerenciamento de conhecimento ajuda os membros da equipe a encontrar as informações necessárias para realizar suas tarefas. Nas organizações de aprendizagem, as informações são compartilhadas livremente, o que promove a capacitação das pessoas. As informações podem ser descobertas ou pesquisadas. As informações são precisas e atualizadas. Mecanismos existem para criar informações, atualizar informações existentes e arquivar informações desatualizadas. O exemplo mais comum de uma plataforma de gerenciamento de conhecimento é um sistema de gerenciamento de conteúdo como uma wiki. 

 **Resultado desejado:** 
+  Os membros da equipe têm acesso a informações precisas e atualizadas. 
+  As informações podem ser pesquisadas. 
+  Existem mecanismos para adicionar, atualizar e arquivar informações. 

 **Práticas comuns que devem ser evitadas:** 
+ Não há um armazenamento de conhecimento centralizado. Os membros da equipe gerenciam suas próprias notas em suas máquinas locais.
+  Você tem uma wiki hospedada pela própria empresa, mas nenhum mecanismo para gerenciar informações, o que resulta em informações desatualizadas. 
+  Alguém identifica a ausência de informações, mas não há nenhum processo para solicitar sua adição à wiki da equipe. Essa pessoa adiciona as informações por conta própria, mas deixa de realizar uma etapa, o que resulta em uma interrupção. 

 **Benefícios de implementar esta prática recomendada:** 
+  Os membros da equipe são capacitados, pois as informações são compartilhadas livremente. 
+  Os novos membros da equipe passam pelo processo de integração mais rapidamente, pois a documentação está atualizada e pode ser pesquisada. 
+  As informações são precisas, levam a ações concretas e são enviadas em tempo hábil. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 O gerenciamento de conhecimento é uma faceta importante das organizações de aprendizagem. Para começar, é necessário ter um repositório central para armazenar seu conhecimento (como um exemplo comum, uma wiki hospedada pela própria empresa). É necessário desenvolver processos para adicionar, atualizar e arquivar conhecimento. Desenvolva padrões para o que deve ser documentado e permita que todos contribuam. 

 **Exemplo de cliente** 

 A AnyCompany Retail hospeda uma wiki interna em que todo o conhecimento é armazenado. Os membros da equipe são incentivados a adicionar informações na base de conhecimento à medida que realizam suas tarefas diárias. Trimestralmente, uma equipe multifuncional avalia quais páginas estão mais desatualizadas e determina se elas devem ser arquivadas ou atualizadas. 

 **Etapas de implementação** 

1.  Comece identificando o sistema de gerenciamento de conteúdo em que o conhecimento será armazenado. Obtenha o consentimento das partes interessadas em sua organização. 

   1.  Se você não tiver um sistema de gerenciamento de conteúdo, considere desenvolver uma wiki hospedada pela própria empresa ou usar um repositório de controle de versão como ponto de partida. 

1.  Desenvolva runbooks para adicionar, atualizar e arquivar informações. Instrua a equipe sobre esses processos. 

1.  Identifique quais conhecimentos devem ser armazenados no sistema de gerenciamento de conteúdo. Comece com as atividades diárias (runbooks e playbooks) realizadas pelos membros da equipe. Trabalhe com as partes interessadas para priorizar qual conhecimento deve ser adicionado. 

1.  Periodicamente, trabalhe com as partes interessadas para identificar informações desatualizadas e arquive-as ou atualize-as. 

 **Nível de esforço do plano de implementação:** Médio. Se você não tiver um sistema de gerenciamento de conteúdo, defina uma wiki hospedada pela própria empresa ou um repositório de documentos com controle de versão. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS11-BP08 Documentar e compartilhar as lições aprendidas](ops_evolve_ops_share_lessons_learned.md): o gerenciamento de conhecimento facilita o compartilhamento de informações sobre as lições aprendidas. 

 **Documentos relacionados:** 
+ [Atlassian: Gerenciamento do conhecimento](https://www.atlassian.com/itsm/knowledge-management)

 **Exemplos relacionados:** 
+ [DokuWiki](https://www.dokuwiki.org/dokuwiki)
+ [Gollum](https://github.com/gollum/gollum)
+ [MediaWiki](https://www.mediawiki.org/wiki/MediaWiki)
+ [Wiki.js](https://github.com/Requarks/wiki)

# OPS11-BP05 Definir fatores de melhoria
<a name="ops_evolve_ops_drivers_for_imp"></a>

 Identifique os fatores de melhoria para ajudar a avaliar e priorizar oportunidades com base em dados e ciclos de feedback. Explore oportunidades de melhoria nos sistemas e nos processos e automatize sempre que apropriado. 

 **Resultado desejado:** 
+  Você rastreia dados de todo o ambiente. 
+  Você correlaciona eventos e atividades aos resultados comerciais. 
+  Você pode comparar e contrastar entre ambientes e sistemas. 
+  Você mantém um histórico detalhado de atividades das implantações e dos resultados. 
+  Você coleta dados para apoiar o procedimento de segurança. 

 **Práticas comuns que devem ser evitadas:** 
+  Coletar dados de todo o ambiente, mas não correlacionar eventos e atividades. 
+  Coletar dados detalhados de toda a propriedade, gerando atividade e custos elevados do Amazon CloudWatch e do AWS CloudTrail. No entanto, você não usa esses dados de forma significativa. 
+  Não levar em conta os resultados comerciais ao definir os fatores de melhoria. 
+  Não medir os efeitos dos novos recursos. 

 **Benefícios de implementar esta prática recomendada:** 
+  O impacto das motivações baseadas em eventos ou investimentos emocionais ao determinar os critérios de melhoria é minimizado. 
+  Você reage a eventos de negócios, não apenas a eventos técnicos. 
+  Você mede o ambiente para identificar áreas de melhoria. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>
+  Compreenda as motivações para melhoria: só faça alterações em um sistema quando o resultado desejado for compatível. 
  +  Capacidades desejadas: avalie as capacidades e os recursos desejados ao avaliar oportunidades de melhoria. 
    +  [Novidades da AWS](https://aws.amazon.com/new/) 
  +  Problemas inaceitáveis: avalie problemas, erros e vulnerabilidades inaceitáveis ao avaliar oportunidades de melhoria. Acompanhe as opções dimensionamento correto e busque oportunidades de otimização. 
    +  [Boletins de segurança mais recentes da AWS](https://aws.amazon.com/security/security-bulletins/) 
    +  [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/trustedadvisor/) 
    +  [Cloud Intelligence Dashboards](https://www.wellarchitectedlabs.com/cloud-intelligence-dashboards/) 
  +  Requisitos de conformidade: avalie as atualizações e as alterações necessárias para manter a conformidade com a regulamentação e com a política, ou para permanecer sob o suporte de terceiros ao analisar as oportunidades de melhoria. 
    +  [AWS Compliance](https://aws.amazon.com/compliance/) 
    +  [Programas de conformidade da AWS](https://aws.amazon.com/compliance/programs/) 
    +  [Últimas notícias sobre conformidade com a AWS](https://aws.amazon.com/compliance/compliance-latest-news/) 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS01 Prioridades da organização](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/organization-priorities.html) 
+  [OPS02 Relacionamentos e propriedades](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/relationships-and-ownership.html) 
+  [OPS04-BP01 Identificar indicadores-chave de performance](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_identify_kpis.html) 
+  [OPS08 Utilizar a observabilidade da workload](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html) 
+  [OPS09 Como compreender a integridade operacional](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/understanding-operational-health.html) 
+  [OPS11-BP03 Implementar loops de feedback](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_feedback_loops.html) 

 **Documentos relacionados:** 
+  [Amazon Athena](https://aws.amazon.com/athena/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc) 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [AWS Compliance](https://aws.amazon.com/compliance/) 
+  [Últimas notícias sobre conformidade com a AWS](https://aws.amazon.com/compliance/compliance-latest-news/) 
+  [Programas de conformidade da AWS](https://aws.amazon.com/compliance/programs/) 
+  [AWS Glue](https://aws.amazon.com/glue/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc) 
+  [Boletins de segurança mais recentes da AWS](https://aws.amazon.com/security/security-bulletins/) 
+  [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/trustedadvisor/) 
+  [Exportar seus dados de log para o Amazon S3](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/S3Export.html) 
+  [Novidades da AWS](https://aws.amazon.com/new/) 
+  [Os imperativos da inovação centrada no cliente](https://aws.amazon.com/executive-insights/content/the-imperatives-of-customer-centric-innovation/) 
+  [Transformação digital: modismo ou necessidade estratégica?](https://aws.amazon.com/blogs/enterprise-strategy/digital-transformation-hype-or-a-strategic-necessity/) 

 **Vídeos relacionados** 
+  [AWS re:Invent 2023: Melhorar a eficiência operacional e a resiliência com o Suporte (SUP310)](https://youtu.be/jaehZYBNG0Y?si=UNEaLZsXDrxcBgYo) 

# OPS11-BP06 Validar insights
<a name="ops_evolve_ops_validate_insights"></a>

 Revise os resultados e as respostas da análise com equipes multifuncionais e proprietários de negócios. Use essas revisões para estabelecer um entendimento comum, identificar impactos adicionais e determinar cursos de ação. Ajuste as respostas conforme apropriado. 

 **Resultado desejado:** 
+  Você revisa os insights regularmente com proprietários de empresas. Os empresários fornecem contexto adicional aos insights recém-adquiridos. 
+  Você analisa os insights e solicita feedback de pares técnicos e compartilha seu aprendizado entre as equipes. 
+  Você publica dados e insights para que outras equipes técnicas e comerciais analisem. Você pensa no aprendizado de novas práticas de outros departamentos. 
+  Você resume e analisa novos insights com os líderes seniores. Os líderes seniores usam novos insights para definir a estratégia. 

 **Práticas comuns que devem ser evitadas:** 
+  Você lança um novo recurso. Esse recurso muda alguns comportamentos dos clientes. Sua observabilidade não leva em conta essas mudanças. Você não quantifica os benefícios dessas mudanças. 
+  Você envia uma nova atualização e deixa de atualizar sua CDN. O cache da CDN não é mais compatível com a versão mais recente. Você mede a porcentagem de solicitações com erros. Todos os seus usuários relatam erros de HTTP 400 ao se comunicarem com servidores de backend. Você investiga os erros do cliente e descobre que, por ter medido a dimensão errada, seu tempo foi desperdiçado. 
+  Seu contrato de nível de serviço estipula 99,9% de tempo de atividade e seu objetivo de ponto de recuperação é de quatro horas. O proprietário do serviço afirma que o sistema tem zero tempo de inatividade. Você implementa uma solução de replicação cara e complexa que desperdiça tempo e dinheiro. 

 **Benefícios de implementar esta prática recomendada:** 
+  Ao validar insights com proprietários de empresas e especialistas, você estabelece um entendimento comum e orienta as melhorias de maneira mais eficaz. 
+  Você descobre problemas ocultos e os leva em conta em decisões futuras. 
+  Seu foco passa dos resultados técnicos para os resultados comerciais. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>
+  **Valide insights:** envolva-se com proprietários de empresas e especialistas para garantir que haja entendimento e concordância comuns sobre o significado dos dados coletados. Identifique preocupações adicionais, possíveis impactos e determine as ações. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS01-BP06 Avaliar as compensações ao gerenciar benefícios e riscos](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_priorities_eval_tradeoffs.html) 
+  [OPS02-BP06 As responsabilidades entre as equipes são predefinidas ou negociadas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_neg_team_agreements.html) 
+  [OPS11-BP03 Implementar loops de feedback](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_feedback_loops.html) 

 **Documentos relacionados:** 
+  [Como projetar um Centro de Excelência da Nuvem (CCoE)](https://aws.amazon.com/blogs/enterprise-strategy/designing-a-cloud-center-of-excellence-ccoe/) 

 **Vídeos relacionados:** 
+  [Criar observabilidade para aumentar a resiliência](https://youtu.be/6bJkYtrMMPI?si=yu8tVMz4a6ax9f34&t=2695) 

# OPS11-BP07 Fazer revisões das métricas de operações
<a name="ops_evolve_ops_metrics_review"></a>

 Realize regularmente revisões das métricas de operações com participantes de equipes diferentes de várias áreas do negócio. Use essas revisões para identificar oportunidades de melhorias e possíveis ações e compartilhar as lições aprendidas. Procure oportunidades para melhorar em todos os seus ambientes (por exemplo, desenvolvimento, teste e produção). 

 **Resultado desejado:** 
+  Você analisa frequentemente métricas que afetam os negócios. 
+  Você detecta e analisa anomalias por meio de suas capacidades de observabilidade. 
+  Você usa dados para apoiar os resultados e as metas de negócios. 

 **Práticas comuns que devem ser evitadas:** 
+  Sua janela de manutenção interrompe uma promoção significativa no varejo. A empresa continua sem saber que existe uma janela de manutenção padrão que poderá ser atrasada se houver outros eventos que afetam os negócios. 
+  Você sofreu uma paralisação prolongada porque costuma usar uma biblioteca desatualizada na organização. Desde então, você migrou para uma biblioteca compatível. As outras equipes da organização não sabem que estão em risco. 
+  Você não analisa regularmente o cumprimento dos SLAs do cliente. Você está tendendo a não cumprir os SLAs dos clientes. Há penalidades financeiras relacionadas ao não cumprimento de SLAs dos clientes. 

 **Benefícios de implementar esta prática recomendada:** 
+  Ao se reunir regularmente para analisar métricas de operações, eventos e incidentes, você mantém um entendimento comum entre as equipes. 
+  Sua equipe se reúne rotineiramente para analisar métricas e incidentes, o que permite tomar medidas sobre os riscos e reconhecer os SLAs dos clientes. 
+  Você compartilha as lições aprendidas, as quais fornecem dados para priorização e melhorias direcionadas para os resultados comerciais. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>
+  Realize regularmente revisões das métricas de operações com participantes de equipes diferentes de várias áreas do negócio. 
+  Envolva as partes interessadas, incluindo as equipes de negócios, desenvolvimento e operações, para validar suas descobertas de feedback imediato e análise retrospectiva e para compartilhar as lições aprendidas. 
+  Use suas ideias para identificar oportunidades de melhoria e possíveis cursos de ação. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS08-BP05 Criar painéis](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_workload_observability_create_dashboards.html) 
+  [OPS09-BP03 Revisar as métricas operacionais e priorizar a melhoria](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_review_ops_metrics_prioritize_improvement.html) 
+  [OPS10-BP01 Usar um processo para gerenciamento de eventos, incidentes e problemas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_event_incident_problem_process.html) 

 **Documentos relacionados:** 
+  [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) 
+  [Referência de métricas e dimensões do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Publicar métricas personalizadas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
+  [Usar métricas do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 
+  [Painéis e visualizações com o CloudWatch](https://docs.aws.amazon.com/prescriptive-guidance/latest/implementing-logging-monitoring-cloudwatch/cloudwatch-dashboards-visualizations.html) 

# OPS11-BP08 Documentar e compartilhar as lições aprendidas
<a name="ops_evolve_ops_share_lessons_learned"></a>

 Documente e compartilhe as lições aprendidas das atividades operacionais, para que possa usá-las internamente e entre equipes. Você deve compartilhar o que suas equipes aprendem para aumentar os benefícios em toda a organização. Compartilhe informações e recursos para evitar erros previsíveis e facilitar os esforços de desenvolvimento, e concentre-se na entrega dos recursos desejados. 

 Use o AWS Identity and Access Management (IAM) para definir permissões que permitem acesso controlado aos recursos que você deseja compartilhar dentro e entre contas. 

 **Resultado desejado:** 
+  Você usa os repositórios com controle de versão para compartilhar bibliotecas de aplicações, procedimentos com script, documentações de procedimentos e outras documentações do sistema. 
+  Você compartilha seus padrões de infraestrutura como modelos com controle de versão do AWS CloudFormation. 
+  Você revisa as lições aprendidas entre as equipes. 

 **Práticas comuns que devem ser evitadas:** 
+  Você sofreu uma paralisação prolongada porque a organização geralmente usa bibliotecas com erros. Desde então, você migrou para uma biblioteca confiável. As outras equipes na organização não sabem que estão em risco. Ninguém documenta e compartilha a experiência com essa biblioteca e não está ciente do risco. 
+  Você identificou um caso de borda em um microsserviço compartilhado internamente que causa a queda das sessões. Atualizou suas chamadas para o serviço para evitar esse caso de borda. As outras equipes da organização não sabem que estão em risco. 
+  Você encontrou uma maneira de reduzir significativamente os requisitos de utilização da CPU para um dos microsserviços. Você não sabe se alguma outra equipe poderia aproveitar essa técnica. 

 **Benefícios de implementar esta prática recomendada:** compartilhe as lições aprendidas para apoiar a melhoria e maximizar os benefícios da experiência. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Baixo 

## Orientação para implementação
<a name="implementation-guidance"></a>
+  **Documente e compartilhe as lições aprendidas:** tenha procedimentos para documentar as lições aprendidas com a execução de atividades operacionais e análises retrospectivas, para que possam ser usadas por outras equipes. 
+  **Compartilhe os aprendizados:** tenha procedimentos para compartilhar lições aprendidas e produções associadas entre as equipes. Por exemplo, compartilhe procedimentos atualizados, orientações, governança e práticas recomendadas por meio de uma wiki acessível. Compartilhe scripts, códigos e bibliotecas por meio de um repositório comum. 
  +  Utilize o [AWS re:Post Privado](https://aws.amazon.com/repost-private/) como um serviço de conhecimento para agilizar a colaboração e o compartilhamento de conhecimento na organização. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS02-BP06 As responsabilidades entre as equipes são predefinidas ou negociadas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_neg_team_agreements.html) 
+  [OPS05-BP01 Usar controle de versão](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_version_control.html) 
+  [OPS05-BP06 Compartilhar padrões de design](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_share_design_stds.html) 
+  [OPS11-BP03 Implementar loops de feedback](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_feedback_loops.html) 
+  [OPS11-BP07 Revisar as métricas de operações](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_metrics_review.html) 

 **Documentos relacionados:** 
+ [Aumente a colaboração e compartilhe com segurança o conhecimento da nuvem com o Private AWS re:Post](https://aws.amazon.com/blogs/aws/increase-collaboration-and-securely-share-cloud-knowledge-with-aws-repost-private/)
+ [Reduzir atrasos em projetos com uma solução de documentos como código](https://aws.amazon.com/blogs/infrastructure-and-automation/reduce-project-delays-with-docs-as-code-solution/)

 **Vídeos relacionados:** 
+ [AWS re:Invent 2023 - Collaborate within your company and with AWS using AWS re:Post Private ](https://www.youtube.com/watch?v=HNq_kU2QJLU)
+  [Suportes You \$1 Explorar a simulação teórica de gerenciamento de incidentes](https://www.youtube.com/watch?v=0m8sGDx-pRM) 

# OPS11-BP09 Alocar tempo para fazer melhorias
<a name="ops_evolve_ops_allocate_time_for_imp"></a>

 Dedique tempo e recursos em seus processos para possibilitar melhorias incrementais contínuas. 

 **Resultado desejado:** 
+  Você cria duplicações temporárias de ambientes, o que reduz o risco, o esforço e o custo de testes e experimentações. 
+  Esses ambientes duplicados podem ser usados para testar as conclusões de sua análise, experimentar e desenvolver e testar as melhorias planejadas. 
+  Você realiza game days e usa o Fault Injection Service (FIS) para fornecer os controles e as barreiras de proteção de que as equipes precisam para realizar experimentos em um ambiente semelhante ao de produção. 

 **Práticas comuns que devem ser evitadas:** 
+  Há um problema de performance conhecido no servidor de aplicações. Ele é adicionado ao backlog por trás de cada implementação de recurso planejada. Se a taxa de adição de recursos planejados permanecer constante, o problema de performance nunca será resolvido. 
+  Para apoiar a melhoria contínua, você aprova administradores e desenvolvedores usando todo o tempo extra para selecionar e implementar melhorias. As melhorias nunca são concluídas. 
+  A aceitação operacional está completa e você não testa as práticas operacionais novamente. 

 **Benefícios de implementar esta prática recomendada:** ao dedicar tempo e recursos em seus processos, você possibilita melhorias incrementais contínuas. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Baixo 

## Orientação para implementação
<a name="implementation-guidance"></a>
+  Aloque tempo para fazer melhorias: dedique tempo e recursos em seus processos para realizar melhorias incrementais contínuas. 
+  Implemente alterações para melhorar e avaliar os resultados para determinar o sucesso. 
+  Se os resultados não satisfizerem as metas e a melhoria ainda for uma prioridade, procure ações alternativas. 
+  Simule workloads de produção durante os game days e use o que aprendeu com essas simulações para melhorar. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS05-BP08 Usar vários ambientes](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_multi_env.html) 

 **Vídeos relacionados:** 
+  [AWS re:Invent 2023: Melhorar a resiliência de aplicações com o AWS Fault Injection Service](https://youtu.be/N0aZZVVZiUw?si=ivYa9ScBfHcj-IAq)