# Excelência operacional
<a name="a-operational-excellence"></a>

A excelência operacional (EO) é um compromisso com o desenvolvimento correto de software, ao mesmo tempo que oferecemos uma ótima experiência aos clientes. O pilar Excelência operacional contém as práticas recomendadas para organizar sua equipe, projetar sua workload, operar em grande escala e evoluir ao longo do tempo. Recomendações sobre implementação estão disponíveis no [whitepaper Pilar Excelência operacional](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/welcome.html). 

**Topics**
+ [Organização](a-organization.md)
+ [Preparar](a-prepare.md)
+ [Operar](a-operate.md)
+ [Evoluir](a-evolve.md)

# Organização
<a name="a-organization"></a>

**Topics**
+ [OPS 1. Como você determina quais são suas prioridades?](ops-01.md)
+ [OPS 2. Como você pode estruturar sua organização para oferecer suporte aos resultados comerciais?](ops-02.md)
+ [OPS 3. Como a cultura organizacional oferece suporte aos resultados comerciais?](ops-03.md)

# OPS 1. Como você determina quais são suas prioridades?
<a name="ops-01"></a>

 Todos devem entender seu papel no sucesso dos negócios. Tenha objetivos compartilhados para definir as prioridades dos recursos. Isso maximizará os benefícios de seus esforços. 

**Topics**
+ [OPS01-BP01 Avaliar as necessidades dos clientes externos](ops_priorities_ext_cust_needs.md)
+ [OPS01-BP02 Avaliar as necessidades dos clientes internos](ops_priorities_int_cust_needs.md)
+ [OPS01-BP03 Avaliar os requisitos de governança](ops_priorities_governance_reqs.md)
+ [OPS01-BP04 Avaliar os requisitos de conformidade](ops_priorities_compliance_reqs.md)
+ [OPS01-BP05 Avaliar o cenário de ameaças](ops_priorities_eval_threat_landscape.md)
+ [OPS01-BP06 Avaliar as compensações ao gerenciar benefícios e riscos](ops_priorities_eval_tradeoffs.md)

# OPS01-BP01 Avaliar as necessidades dos clientes externos
<a name="ops_priorities_ext_cust_needs"></a>

 Envolva as principais partes interessadas, incluindo equipes de negócios, de desenvolvimento e operacionais, a fim de determinar onde concentrar os esforços nas necessidades de clientes externos. Isso garantirá que você tenha um entendimento completo do suporte às operações, o que é necessário para obter os resultados desejados nos negócios. 

 **Resultado desejado:** 
+  Você trabalha de trás para frente partindo dos resultados do cliente. 
+  Você entende como as práticas operacionais apoiam os resultados e os objetivos comerciais. 
+  Você envolve todas as partes relevantes. 
+  Você tem mecanismos para registrar as necessidades de clientes externos. 

 **Práticas comuns que devem ser evitadas:** 
+  Você decidiu não oferecer suporte ao cliente fora do horário comercial principal, mas não analisou dados históricos de solicitação de suporte. Você não sabe se isso afetará seus clientes. 
+  Você está desenvolvendo um novo recurso, mas não envolveu seus clientes para descobrir se ele é desejado, em qual formato é desejado e sem experimentação para validar a necessidade e o método de entrega. 

 **Benefícios de implementar esta prática recomendada:** os clientes cujas necessidades são atendidas apresentam uma probabilidade muito maior de permanecerem como clientes. Avaliar e compreender as necessidades de clientes externos informará como você priorizará seus esforços para entregar valor empresarial. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 **Compreenda as necessidades empresariais**: o sucesso nos negócios é possibilitado pelos objetivos e pelo entendimento compartilhados entre as partes interessadas, incluindo equipes de negócios, de desenvolvimento e operacionais. 

 **Revise os objetivos, as necessidades e as prioridades de negócios dos clientes externos:** envolva as principais partes interessadas, incluindo as equipes corporativas, de desenvolvimento e operacionais, para discutir as metas, as necessidades e as prioridades dos clientes externos. Isso garantirá que você tenha um entendimento completo do suporte às operações que é necessário para obter resultados nos negócios. 

 **Estabeleça uma compreensão compartilhada:** estabeleça um entendimento compartilhado das funções corporativas da workload, das funções de cada uma das equipes na operação da workload e de como esses fatores apoiam seus objetivos empresariais compartilhados entre os clientes internos e externos. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS11-BP03 Implementar loops de feedback](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_feedback_loops.html) 

# OPS01-BP02 Avaliar as necessidades dos clientes internos
<a name="ops_priorities_int_cust_needs"></a>

 Envolva as principais partes interessadas, incluindo equipes de negócios, de desenvolvimento e operacionais, ao determinar onde concentrar os esforços nas necessidades de clientes internos. Isso garantirá que você tenha um entendimento completo do suporte às operações necessário para obter resultados nos negócios. 

 **Resultado desejado:** 
+  Use as prioridades estabelecidas para concentrar os esforços de melhoria onde eles terão maior impacto (por exemplo, desenvolvendo habilidades de equipe, melhorando a performance da workload, reduzindo custos, automatizando runbooks ou aprimorando o monitoramento). 
+  Atualize suas prioridades conforme as necessidades mudam. 

 **Práticas comuns que devem ser evitadas:** 
+  Você decidiu alterar as alocações de endereços IP para as equipes de produtos, sem consultá-las, para facilitar o gerenciamento da rede. Você não sabe o impacto que isso terá em suas equipes de produtos. 
+  Você está implementando uma nova ferramenta de desenvolvimento, mas não envolveu seus clientes internos para descobrir se ela é necessária ou se é compatível com suas práticas existentes. 
+  Você está implementando um novo sistema de monitoramento, mas não entrou em contato com os clientes internos para descobrir se eles têm necessidades de monitoramento ou relatórios que devam ser consideradas. 

 **Benefícios de implementar esta prática recomendada:** avaliar e compreender as necessidades de clientes internos informará como você priorizará seus esforços para entregar valor comercial. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>
+  Compreenda as necessidades empresariais: o sucesso nos negócios é possibilitado pelos objetivos e pelo entendimento compartilhados entre as partes interessadas, incluindo equipes de negócios, de desenvolvimento e operacionais. 
+  Revise os objetivos, as necessidades e as prioridades de negócios dos clientes internos: envolva as principais partes interessadas, incluindo as equipes corporativas, de desenvolvimento e operacionais, para discutir as metas, as necessidades e as prioridades dos clientes internos. Isso garantirá que você tenha um entendimento completo do suporte às operações que é necessário para obter resultados nos negócios. 
+  Estabeleça uma compreensão compartilhada: estabeleça um entendimento compartilhado das funções corporativas da workload, das funções de cada uma das equipes na operação da workload e de como esses fatores apoiam seus objetivos empresariais compartilhados entre os clientes internos e externos. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:**
+  [OPS11-BP03 Implementar loops de feedback](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_feedback_loops.html) 

# OPS01-BP03 Avaliar os requisitos de governança
<a name="ops_priorities_governance_reqs"></a>

 Governança refere-se a um conjunto de políticas, regras ou frameworks usados por uma empresa para atingir metas comerciais. Os requisitos de governança são gerados dentro da organização. Eles podem afetar os tipos de tecnologia que você escolhe ou influenciar a maneira como opera sua workload. Incorpore requisitos de governança organizacional em sua workload. Conformidade é a capacidade de demonstrar que você implementou os requisitos de governança. 

 **Resultado desejado:** 
+  Os requisitos de governança são incorporados ao design arquitetural e à operação da workload. 
+  Você pode fornecer prova de que seguiu os requisitos de governança. 
+  Os requisitos de governança são revistos e atualizados regularmente. 

 **Práticas comuns que devem ser evitadas:** 
+ Sua organização exige que a conta-raiz tenha autenticação multifator. Você não implementa esse requisito e a conta-raiz é comprometida.
+ Durante o design da workload, você escolhe um tipo de instância que não é aprovado pelo departamento de TI. Você não consegue iniciar a workload e precisa começar a reprojetá-la.
+ É obrigatório ter um plano de recuperação de desastres. Você não cria um, e a workload sofre uma interrupção prolongada.
+  Sua equipe quer usar novas instâncias, mas seus requisitos de governança não foram atualizados para permiti-las. 

 **Benefícios de implementar esta prática recomendada:** 
+  A aderência aos requisitos de governança alinha sua workload às políticas da organização como um todo. 
+  Os requisitos de governança refletem os padrões e as práticas recomendas do setor para sua organização. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

Identifique o requisito de governança trabalhando com as partes interessadas e as organizações de governança. Inclua os requisitos de governança em sua workload. Prepare-se para demonstrar prova de que você seguiu os requisitos de governança.

 **Exemplo de cliente** 

 Na AnyCompany Retail, a equipe de operações em nuvem trabalha com as partes interessadas dentro da organização para desenvolver requisitos de governança. Por exemplo, eles proíbem acesso SSH a instâncias do Amazon EC2. Caso as equipes precisem de acesso ao sistema, elas deverão usar o AWS Systems Manager Session Manager. A equipe de operações em nuvem atualiza regularmente os requisitos de governança à medida que novos serviços são disponibilizados. 

 **Etapas de implementação** 

1.  Identifique as partes interessadas referentes à sua workload, incluindo quaisquer equipes centralizadas. 

1.  Trabalhe com as partes interessadas para identificar requisitos de governança. 

1.  Assim que gerar uma lista, priorize os itens de melhoria e comece a implementá-los na workload. 

   1.  Use serviços como o [AWS Config](https://aws.amazon.com/blogs/industries/best-practices-for-aws-organizations-service-control-policies-in-a-multi-account-environment/) para criar governança como código e validar se os requisitos de governança são seguidos. 

   1.  Se você usa i [AWS Organizations](https://docs.aws.amazon.com/organizations/latest/userguide/orgs_manage_policies_scps.html), pode fazer uso das políticas de controle de serviços para implementar os requisitos de governança. 

1.  Forneça documentação que valide a implementação. 

 **Nível de esforço do plano de implementação:** Médio. A implementação de requisitos de governança pode exigir a reformulação da sua workload. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS01-BP04 Avaliar os requisitos de conformidade](ops_priorities_compliance_reqs.md): A conformidade é como governança, mas acontece fora da organização. 

 **Documentos relacionados:** 
+ [Gerenciamento e governança da AWS: guia do ambiente de nuvem](https://docs.aws.amazon.com/wellarchitected/latest/management-and-governance-guide/management-and-governance-cloud-environment-guide.html)
+ [Práticas recomendadas para Políticas de controle de serviços do AWS Organizations em um ambiente com várias contas](https://aws.amazon.com/blogs/industries/best-practices-for-aws-organizations-service-control-policies-in-a-multi-account-environment/)
+ [Governança na Nuvem AWS: o equilíbrio certo entre agilidade e segurança](https://aws.amazon.com/blogs/apn/governance-in-the-aws-cloud-the-right-balance-between-agility-and-safety/)
+ [O que é governança, risco e conformidade (GRC)?](https://aws.amazon.com/what-is/grc/)

 **Vídeos relacionados:** 
+ [Gestão e governança da AWS: configuração, conformidade e auditoria – AWS Online Tech Talks](https://www.youtube.com/watch?v=79ud1ZAaoj0)
+ [AWS re:Inforce 2019: Governança para a era da nuvem (DEM12-R1)](https://www.youtube.com/watch?v=y3WmHnavuN8)
+ [AWS re:Invent 2020: Alcançar a conformidade como código usando o AWS Config](https://www.youtube.com/watch?v=m8vTwvbzOfw)
+ [AWS re:Invent 2020: Governança ágil na AWS GovCloud (US)](https://www.youtube.com/watch?v=hv6B17eriHQ)

 **Exemplos relacionados:** 
+ [Exemplos de pacotes de conformidade da AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/conformancepack-sample-templates.html)

 **Serviços relacionados:** 
+ [AWS Config](https://aws.amazon.com/config/)
+ [Políticas de controle de serviço do AWS Organizations](https://docs.aws.amazon.com/organizations/latest/userguide/orgs_manage_policies_scps.html)

# OPS01-BP04 Avaliar os requisitos de conformidade
<a name="ops_priorities_compliance_reqs"></a>

Os requisitos de conformidade normativos, setoriais e internos são um importante motivador para definir as prioridades de sua organização. Seu framework de conformidade pode impedir que você use tecnologias ou localizações geográficas específicas. Realize a devida diligência se não for identificado nenhum framework de conformidade externo. Gere auditorias ou relatórios que validem a conformidade.

 Se você anunciar que seu produto atende a padrões de conformidade específicos, deverá ter um processo interno para garantir a conformidade contínua. Os exemplos de padrões de conformidade incluem PCI DSS, FedRAMP e HIPAA. Os padrões de conformidade aplicáveis são determinados por vários fatores, por exemplo, quais tipos de dados a solução armazena ou transmite e a quais regiões a solução oferece suporte. 

 **Resultado desejado:** 
+  Os requisitos de conformidade normativos, setoriais e internos são incorporados na seleção arquitetural. 
+  É possível validar a conformidade e gerar relatórios de auditoria. 

 **Práticas comuns que devem ser evitadas:** 
+ Partes da workload podem ser enquadradas no framework Payment Card Industry Data Security Standard (PCI-DSS), mas a workload armazena dados de cartões de crédito não criptografados.
+ Seus desenvolvedores e arquitetos de software não estão cientes do framework de conformidade que sua organização deve adotar.
+  A auditoria anual Systems and Organizations Control (SOC2) Tipo II será feita em breve e você não consegue verificar se esses controles estão em vigor. 

 **Benefícios de implementar esta prática recomendada:** 
+  Avaliar e compreender os requisitos de conformidade que se aplicam à sua workload informará como você prioriza seus esforços para entregar valor empresarial. 
+  Você escolhe as localizações e tecnologias corretas, que são congruentes com seu framework de conformidade. 
+  Quando a workload é projetada para ser auditável, é possível provar que você está seguindo seu framework de conformidade. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Implementar essa prática recomendada significa incorporar os requisitos de conformidade no processo de design da arquitetura. Os membros de sua equipe estão cientes do framework de conformidade necessário. Você valida a conformidade de acordo com o framework. 

 **Exemplo de cliente** 

 A AnyCompany Retail armazena informações de cartão de crédito dos clientes. Os desenvolvedores da equipe de armazenamento de cartões sabem que eles precisam respeitar o framework PCI-DSS. Eles adotaram medidas para verificar que as informações de cartão de crédito são armazenadas e acessadas com segurança de acordo com o framework PCI-DSS. Todo ano, eles trabalham com a equipe de segurança para validar a conformidade. 

 **Etapas de implementação** 

1.  Trabalhe com as equipes de segurança e governança para determinar quais frameworks de conformidade normativos, setoriais ou internos a workload deve seguir. Incorpore os frameworks de conformidade em sua workload. 

   1.  Valide a conformidade contínua dos recursos da AWS com serviços como [AWS Compute Optimizer](https://docs.aws.amazon.com/compute-optimizer/latest/ug/what-is-compute-optimizer.html) e [AWS Security Hub CSPM](https://docs.aws.amazon.com/securityhub/latest/userguide/what-is-securityhub.html). 

1.  Instrua os membros da equipe sobre os requisitos de conformidade para que possam operar e expandir a workload de acordo com eles. Os requisitos de conformidade devem ser incluídos nas escolhas de arquitetura e tecnologia. 

1.  Dependendo do framework de conformidade, talvez seja necessário gerar um relatório de auditoria ou conformidade. Trabalhe com sua organização para automatizar esse processo o máximo possível. 

   1.  Use determinados serviços, como o [AWS Audit Manager](https://docs.aws.amazon.com/audit-manager/latest/userguide/what-is.html), para gerar, validar a conformidade e gerar relatórios de auditoria. 

   1.  Você pode baixar documentos de segurança e conformidade da AWS com o [AWS Artifact](https://docs.aws.amazon.com/artifact/latest/ug/what-is-aws-artifact.html). 

 **Nível de esforço do plano de implementação:** Médio. A implementação de frameworks de conformidade pode ser um desafio. A geração de relatórios de auditoria e de documentos de conformidade aumenta ainda mais a complexidade. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [SEC01-BP03 Identificar e validar objetivos do controle](https://docs.aws.amazon.com/wellarchitected/latest/framework/sec_securely_operate_control_objectives.html): os objetivos do controle de segurança são uma parte importante da conformidade geral. 
+  [SEC01-BP06 Automatizar os testes e a validação de controles de segurança em pipelines](https://docs.aws.amazon.com/wellarchitected/latest/framework/sec_securely_operate_test_validate_pipeline.html): como parte de seus pipelines, valide os controles de segurança. Você também pode gerar documentação de conformidade para novas alterações. 
+  [SEC07-BP02 Definir controles de proteção de dados](https://docs.aws.amazon.com/wellarchitected/latest/framework/sec_data_classification_define_protection.html): muitos frameworks de conformidade têm como base políticas de tratamento e armazenamento de dados. 
+  [SEC10-BP03 Preparar recursos forenses](https://docs.aws.amazon.com/wellarchitected/latest/framework/sec_incident_response_prepare_forensic.html): às vezes, os recursos forenses podem ser usados em auditorias de conformidade. 

 **Documentos relacionados:** 
+ [Centro de Conformidade da AWS](https://aws.amazon.com/financial-services/security-compliance/compliance-center/)
+ [Recursos de conformidade do AWS](https://aws.amazon.com/compliance/resources/)
+ [Whitepaper Risco e conformidade da AWS](https://docs.aws.amazon.com/whitepapers/latest/aws-risk-and-compliance/welcome.html)
+ [Modelo de responsabilidade compartilhada da AWS](https://aws.amazon.com/compliance/shared-responsibility-model/)
+ [Serviços da AWS em escopo por programas de conformidade](https://aws.amazon.com/compliance/services-in-scope/)

 **Vídeos relacionados:** 
+ [AWS re:Invent 2020: Alcançar a conformidade como código usando o AWS Compute Optimizer](https://www.youtube.com/watch?v=m8vTwvbzOfw)
+ [AWS re:Invent 2021: Conformidade, garantia e auditoria na nuvem](https://www.youtube.com/watch?v=pdrYGVgb08Y)
+ [AWS Summit ATL 2022: Implementar conformidade, garantia e auditoria na AWS (COP202)](https://www.youtube.com/watch?v=i7XrWimhqew)

 **Exemplos relacionados:** 
+ [PCI DSS e as Práticas Recomendadas de Segurança Básica da AWS na AWS](https://aws.amazon.com/solutions/partners/compliance-pci-fsbp-remediation/)

 **Serviços relacionados:** 
+ [AWS Artifact](https://docs.aws.amazon.com/artifact/latest/ug/what-is-aws-artifact.html)
+ [AWS Audit Manager](https://docs.aws.amazon.com/audit-manager/latest/userguide/what-is.html)
+ [AWS Compute Optimizer](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html)
+ [AWS Security Hub CSPM](https://docs.aws.amazon.com/securityhub/latest/userguide/what-is-securityhub.html)

# OPS01-BP05 Avaliar o cenário de ameaças
<a name="ops_priorities_eval_threat_landscape"></a>

 Avalie as ameaças à empresa (por exemplo, concorrência, risco e passivos empresariais, riscos operacionais e ameaças à segurança da informação) e mantenha as informações atuais em um registro de risco. Inclua o impacto dos riscos ao determinar onde concentrar os esforços. 

 O [Well-Architected Framework](https://aws.amazon.com/architecture/well-architected/) enfatiza o aprendizado, a medição e o aprimoramento. Ele oferece uma abordagem consistente para avaliar arquiteturas e implementar designs que escalem ao longo do tempo. A AWS fornece o [AWS Well-Architected Tool](https://aws.amazon.com/well-architected-tool/) para ajudar você a analisar sua abordagem antes do desenvolvimento e o estado de suas workloads antes e durante a produção. Você pode compará-las com as práticas recomendadas de arquitetura mais recentes da AWS, monitorar o status geral das workloads e receber insights sobre possíveis riscos. 

 Os clientes da AWS são elegíveis para uma [revisão orientada do Well-Architected](https://aws.amazon.com/premiumsupport/programs/) para suas workloads de missão crítica a fim de avaliar suas arquiteturas em relação às práticas recomendadas da AWS. Os clientes Enterprise Support são elegíveis para uma [revisão\$1de operações](https://aws.amazon.com/premiumsupport/programs/) que foi desenvolvida para ajudá-los a identificar lacunas em sua abordagem de operação na nuvem. 

 O envolvimento entre equipes dessas avaliações ajuda a estabelecer um entendimento comum de suas workloads e como as funções da equipe contribuem para o sucesso. As necessidades identificadas pela avaliação podem ajudar a moldar suas prioridades. 

 O [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/) é uma ferramenta que fornece acesso a um conjunto principal de verificações que recomendam otimizações que podem ajudar a moldar suas prioridades. Os [clientes Business e Enterprise Support](https://aws.amazon.com/premiumsupport/plans/) recebem acesso a verificações adicionais com foco em segurança, confiabilidade, performance e otimização de custos que podem ajudar a moldar as prioridades. 

 **Resultado desejado:** 
+  Você revisa e age regularmente com base no Well-Architected e nos resultados do Trusted Advisor. 
+  Você está ciente do status do patch mais recente dos seus serviços. 
+  Você entende o risco e o impacto das ameaças conhecidas e toma medidas adequadas. 
+  Você implementa mitigações conforme necessário. 
+  Você fornece informações sobre as ações e o contexto. 

 **Práticas comuns que devem ser evitadas:** 
+  Você está usando uma versão antiga de uma biblioteca de software no seu produto. Você não está ciente das atualizações de segurança na biblioteca para problemas que podem ter um impacto indesejado na workload. 
+  Seu concorrente acabou de lançar uma versão do produto que lida com muitas das reclamações de seus clientes sobre seu produto. Você não priorizou a abordagem de nenhum desses problemas conhecidos. 
+  Os reguladores buscam empresas como a sua que não estejam em conformidade com os requisitos de conformidade normativa legais. Você não priorizou a abordagem de nenhum dos requisitos de conformidade pendentes. 

 **Benefícios de implementar esta prática recomendada:** identificar e compreender as ameaças à sua organização e à workload permite determinar quais ameaças devem ser resolvidas, a prioridade delas e os recursos necessários para isso. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>
+  **Avalie o cenário de ameaças:** avalie as ameaças aos negócios (como concorrência, riscos e responsabilidades comerciais, riscos operacionais e ameaças à segurança da informação), para que você possa incluir o impacto delas ao determinar onde concentrar os esforços. 
  +  [Boletins de segurança mais recentes da AWS](https://aws.amazon.com/security/security-bulletins/) 
  +  [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/trustedadvisor/) 
+  **Mantenha um modelo de ameaças:** estabeleça e mantenha um modelo de ameaças que identifique possíveis ameaças, mitigações planejadas e implementadas e a prioridade delas. Analise a probabilidade de as ameaças se manifestarem como incidentes, o custo de recuperação desses incidentes, o dano esperado causado e o custo para evitá-los. Revise as prioridades à medida que o conteúdo do modelo de ameaça muda. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [SEC01-BP07 Identificar ameaças e priorizar mitigações usando um modelo de ameaça](https://docs.aws.amazon.com/wellarchitected/latest/security-pillar/sec_securely_operate_threat_model.html) 

 **Documentos relacionados:** 
+  [Conformidade da Nuvem AWS](https://aws.amazon.com/compliance/) 
+  [Boletins de segurança mais recentes da AWS](https://aws.amazon.com/security/security-bulletins/) 
+  [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/trustedadvisor/) 

 **Vídeos relacionados:** 
+  [AWS re:INFORCE 2023: Uma ferramenta para ajudar a melhorar sua modelagem de ameaças](https://youtu.be/CaYCsmjuiHg?si=e_CXPGqRF4WeBr1u) 

# OPS01-BP06 Avaliar as compensações ao gerenciar benefícios e riscos
<a name="ops_priorities_eval_tradeoffs"></a>

 Interesses conflitantes de várias partes podem dificultar a priorização de esforços, a criação de capacidades e a entrega de resultados alinhados às estratégias de negócios. Por exemplo, talvez seja solicitado que você acelere a comercialização de novos recursos em vez de otimizar os custos da infraestrutura de TI. Isso pode colocar duas partes interessadas em conflito. Nessas situações, é necessário encaminhar as decisões a uma autoridade superior a fim de resolver conflitos. Dados são necessários para remover o apego emocional do processo de tomada de decisões. 

 O mesmo desafio pode ocorrer em nível tático. Por exemplo, a escolha entre usar tecnologias de bancos de dados relacionais ou não relacionais pode ter um impacto significativo na operação de uma aplicação. É fundamental entender os resultados previsíveis de várias opções. 

 A AWS pode ajudar a instruir suas equipes sobre a AWS e os serviços que ela fornece para que compreendam melhor como as escolhas que elas fazem podem ter um impacto na workload. Use os recursos fornecidos pelo [Suporte](https://aws.amazon.com/premiumsupport/programs/) ([Centro de Conhecimentos da AWS](https://aws.amazon.com/premiumsupport/knowledge-center/), [Fóruns de discussão da AWS](https://forums.aws.amazon.com/index.jspa) e o [Suporte Center](https://console.aws.amazon.com/support/home/)), bem como a [documentação da AWS](https://docs.aws.amazon.com/) para instruir suas equipes. Em caso de dúvidas, entre em contato com o Suporte. 

 A AWS também compartilha práticas recomendadas e padrões operacionais na [Amazon Builders' Library](https://aws.amazon.com/builders-library/). Inúmeras outras informações úteis podem ser obtidas por meio do [Blog da AWS](https://aws.amazon.com/blogs/) e no [podcast oficial da AWS](https://aws.amazon.com/podcasts/aws-podcast/). 

 **Resultado desejado:** você tem uma estrutura de governança de tomada de decisão claramente definida para facilitar decisões importantes em todos os níveis da sua organização de fornecimento de nuvem. Esse framework inclui recursos como um registro de riscos, funções definidas que estão autorizadas a tomar decisões e modelos definidos para cada nível de decisão que pode ser tomada. O framework define com antecedência como os conflitos são resolvidos, quais dados precisam ser apresentados e como as opções são priorizadas, para que, uma vez tomadas as decisões, você possa se comprometer sem demora. O framework de tomada de decisões inclui uma abordagem padronizada para analisar e avaliar os benefícios e os riscos de cada decisão e entender as vantagens e as desvantagens. Isso pode incluir fatores externos, como a adesão aos requisitos de conformidade regulatória. 

 **Práticas comuns que devem ser evitadas:** 
+  Seus investidores solicitam que você demonstre conformidade com os Payment Card Industry Data Security Standards (PCI DSS). Você não pensa nas concessões entre atender a essa solicitação e continuar com seus esforços de desenvolvimento atuais. Em vez disso, você prossegue com os esforços de desenvolvimento sem demonstrar conformidade. Seus investidores deixam de apoiar sua empresa devido a preocupações com a segurança da plataforma e de seus investimentos. 
+  Você decidiu incluir uma biblioteca que um de seus desenvolvedores encontrou na internet. Você não avaliou os riscos de adoção dessa biblioteca de origem desconhecida e não sabe se ela contém vulnerabilidades ou código mal-intencionado. 
+  A justificativa comercial original para sua migração foi baseada na modernização de 60% das workloads de aplicações. No entanto, devido a dificuldades técnicas, foi tomada a decisão de modernizar apenas 20%, ocasionando uma redução nos benefícios planejados de longo prazo, o aumento do trabalho do operador para que as equipes de infraestrutura apoiem manualmente os sistemas herdados e uma maior dependência do desenvolvimento de novos conjuntos de habilidades em suas equipes de infraestrutura que não estavam preparadas para essa mudança. 

 **Benefícios de implementar esta prática recomendada:** alinhar e apoiar totalmente as prioridades de negócios em nível de diretoria, compreender os riscos de alcançar o sucesso, tomar decisões informadas e agir adequadamente quando os riscos impedem as chances de sucesso. Compreender as implicações e as consequências de suas decisões ajuda você a priorizar suas opções e a possibilitar que os líderes cheguem a um acordo mais depressa, gerando melhores resultados comerciais. Identificar os benefícios gerados por suas escolhas e estar ciente dos riscos para a organização ajuda você a tomar decisões orientadas por dados, e não baseadas em histórias. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 O gerenciamento de benefícios e riscos deve ser definido por um órgão regulador que oriente os requisitos para a tomada de decisões importantes. Convém que as decisões sejam tomadas e priorizadas com base em como elas beneficiam a organização, com uma compreensão dos riscos envolvidos. Informações precisas são essenciais para a tomada de decisões organizacionais. Isso deve se basear em medições sólidas e ser definido por práticas comuns de análise de custo-benefício do setor. Para tomar esse tipo de decisão, encontre um equilíbrio entre autoridade centralizada e descentralizada. Sempre há concessões, e é importante entender como cada escolha afeta as estratégias definidas e os resultados comerciais desejados. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  Formalize as práticas de mensuração de benefícios dentro de um framework completo de governança de nuvem. 

   1.  Contrabalance o controle central da tomada de decisões e a autoridade descentralizada para algumas decisões. 

   1.  Entenda que processos fatigantes de tomada de decisões impostos a cada decisão podem diminuir seu ritmo. 

   1.  Incorpore fatores externos em seu processo de tomada de decisões (como requisitos de conformidade). 

1.  Estabeleça um framework de tomada de decisões acordado para vários níveis de decisão, incluindo quem deve desobstruir decisões sujeitas a interesses conflitantes. 

   1.  Centralize decisões unidirecionais que podem ser irreversíveis. 

   1.  Permita que as decisões bidirecionais sejam tomadas por líderes organizacionais de nível inferior. 

1.  Entenda e gerencie benefícios e riscos. Contrabalance os benefícios das decisões com os riscos envolvidos. 

   1.  **Identifique os benefícios:** identifique os benefícios com base nas metas, necessidades e prioridades da empresa. Os exemplos são os seguintes: impacto no caso de negócios, tempo até a comercialização, segurança, confiabilidade, performance e custo. 

   1.  **Identifique os riscos:** identifique os riscos com base nas metas, necessidades e prioridades da empresa. Os exemplos são os seguintes: tempo para comercialização, segurança, confiabilidade, performance e custo. 

   1.  **Avalie os benefícios em comparação com os riscos e tome decisões informadas:** determine o impacto dos benefícios e riscos com base nas metas, necessidades e prioridades de suas principais partes interessadas, incluindo negócios, desenvolvimento e operações. Avalie o valor do benefício em relação à probabilidade de realização do risco e o custo do seu impacto. Por exemplo, enfatizar a velocidade de entrada no mercado em vez da confiabilidade pode oferecer vantagem competitiva. No entanto, isso poderá causar tempo de atividade reduzido se houver problemas de confiabilidade. 

1.  Imponha de modo programático as principais decisões que automatizam sua adesão aos requisitos de conformidade. 

1.  Utilize frameworks e recursos conhecidos do setor, como análise do fluxo de valor e lean, para estabelecer uma referência comparativa para a performance do estado atual, bem como métricas de negócios, e defina iterações de progresso em direção a melhorias nessas métricas. 

 **Nível de esforço do plano de implementação:** Médio-Alto 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS01-BP05 Avaliar o cenário de ameaças](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_priorities_eval_threat_landscape.html) 

 **Documentos relacionados:** 
+  [Elementos da cultura de Dia 1 da Amazon \$1 Tomar decisões de alta qualidade em alta velocidade](https://aws.amazon.com/executive-insights/content/how-amazon-defines-and-operationalizes-a-day-1-culture/) 
+  [Governança na nuvem](https://aws.amazon.com/cloudops/cloud-governance/) 
+  [Gerenciamento e governança: ambiente de nuvem](https://docs.aws.amazon.com/wellarchitected/latest/management-and-governance-guide/management-and-governance-cloud-environment-guide.html?did=wp_card&trk=wp_card) 
+  [Governança na nuvem e na era digital: partes um e dois](https://aws.amazon.com/blogs/enterprise-strategy/governance-in-the-cloud-and-in-the-digital-age-part-one/) 

 **Vídeos relacionados:** 
+  [Podcast \$1 Jeff Bezos \$1 Sobre como tomar decisões](https://www.youtube.com/watch?v=VFwCGECvq4I) 

 **Exemplos relacionados:** 
+  [Tomar decisões informadas usando dados (The DevOps Sagas)](https://docs.aws.amazon.com/wellarchitected/latest/devops-guidance/oa.bcl.10-make-informed-decisions-using-data.html) 
+  [Usar o mapeamento do fluxo de valor do desenvolvimento para identificar restrições aos resultados de DevOps](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-devops-value-stream-mapping/introduction.html) 

# OPS 2. Como você pode estruturar sua organização para oferecer suporte aos resultados comerciais?
<a name="ops-02"></a>

 Suas equipes devem compreender o papel delas na obtenção de resultados empresariais. As equipes devem entender o respectivo papel no êxito de outras equipes e o papel das demais equipes em seu próprio êxito e estabelecer objetivos compartilhados. Entender a responsabilidade, a propriedade, como as decisões são tomadas e quem tem autoridade para tomar decisões ajudará a concentrar os esforços e maximizar os benefícios das suas equipes. 

**Topics**
+ [OPS02-BP01 Recursos com proprietários identificados](ops_ops_model_def_resource_owners.md)
+ [OPS02-BP02 Processos e procedimentos com proprietários identificados](ops_ops_model_def_proc_owners.md)
+ [OPS02-BP03 Atividades de operações com proprietários identificados responsáveis pela performance](ops_ops_model_def_activity_owners.md)
+ [OPS02-BP04 Mecanismos disponíveis para gerenciar responsabilidades e a relação de propriedade](ops_ops_model_def_responsibilities_ownership.md)
+ [OPS02-BP05 Mecanismos para solicitar adições, alterações e exceções](ops_ops_model_req_add_chg_exception.md)
+ [OPS02-BP06 As responsabilidades entre as equipes são predefinidas ou negociadas](ops_ops_model_def_neg_team_agreements.md)

# OPS02-BP01 Recursos com proprietários identificados
<a name="ops_ops_model_def_resource_owners"></a>

 Os recursos para sua workload devem ter proprietários identificados para fins de controle de alterações, resolução de problemas e outras funções. Proprietários são atribuídos para workloads, contas, infraestrutura, plataformas e aplicações. A propriedade é registrada usando ferramentas como um registro central ou metadados anexados aos recursos. O valor comercial dos componentes indica os processos e procedimentos aplicados a eles. 

 **Resultado desejado:** 
+  Os recursos têm proprietários identificados usando metadados ou um registro central. 
+  Os membros da equipe podem identificar quem é proprietários dos recursos. 
+  Quando possível, as contas têm um único proprietário. 

 **Práticas comuns que devem ser evitadas:** 
+  Os contatos alternativos para suas Contas da AWS não estão preenchidos. 
+  Os recursos não têm as tags que identificam as equipes às quais eles pertencem. 
+  Você tem uma fila ITSM sem mapeamento de e-mail. 
+  Duas equipes são proprietárias de uma mesma parte essencial da infraestrutura. 

 **Benefícios de implementar esta prática recomendada:** 
+  O controle de alterações para recursos é fácil com a atribuição de propriedade. 
+  Você pode envolver os proprietários corretos na resolução de problemas. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Defina o que significa propriedade para os casos de uso de recursos em seu ambiente. A propriedade pode se referir a quem supervisiona alterações no recurso e oferece suporte ao recurso durante a resolução de problemas ou a quem é responsável pela parte financeira. Especifique e registre proprietários para os recursos, incluindo nome, informações de contato, organização e equipe. 

 **Exemplo de cliente** 

 A AnyCompany Retail define propriedade como a equipe ou a pessoa proprietária das alterações e do suporte para os recursos. Ela utiliza o AWS Organizations para gerenciar as Contas da AWS. Os contatos de conta alternativos são configurados usando as caixas de entrada de grupo. Cada fila ITSM é mapeada em um alias de e-mail. As tags identificam quem é proprietário dos recursos da AWS. Para outras plataformas e infraestrutura, a empresa possui uma página de wiki que identifica informações sobre propriedade e contato. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  Para começar, identifique a propriedade para sua organização. A propriedade pode estar relacionada a quem é proprietário do risco referente ao recurso, quem é proprietário das alterações referentes ao recurso ou quem oferece suporte ao recurso na resolução de problemas. Propriedade também pode significar propriedade financeira ou administrativa do recurso. 

1.  Use o [AWS Organizations](https://aws.amazon.com/organizations/) para gerenciar contas. Você pode gerenciar contatos alternativos centralmente para as suas contas. 

   1.  O uso de endereços de e-mail ou de números de telefones pertencentes à empresa para informações de contato ajuda você a acessá-los mesmo quando os indivíduos aos quais eles pertencem não estiverem mais na organização. Por exemplo, crie listas de distribuição de e-mail separadas para faturamento, operações e segurança, e configure-as como contatos de Faturamento, Segurança e Operações em cada Conta da AWS ativa. Várias pessoas receberão notificações da AWS e poderão respondê-las, mesmo que alguém esteja de férias, mude de função ou saia da empresa. 

   1.  Se uma conta não for gerenciada pelo [AWS Organizations](https://aws.amazon.com/organizations/), os contatos alternativos da conta ajudarão a AWS a entrar em contato com o pessoal apropriado, se necessário. Configure os contatos alternativos da conta para apontar para um grupo em vez de uma pessoa. 

1.  Use tags para identificar proprietários de recursos da AWS. Você pode especificar os proprietários e as respectivas informações de contato em tags separadas. 

   1.  Você pode usar regras do [AWS Config](https://aws.amazon.com/config/) para garantir que os recursos tenham as tags de propriedade necessárias. 

   1.  Para obter orientações detalhadas sobre como criar uma estratégia de marcação para sua organização, consulte o whitepaper sobre [Práticas recomendadas de marcação com tags da AWS](https://docs.aws.amazon.com/whitepapers/latest/tagging-best-practices/tagging-best-practices.html). 

1.  Use o [Amazon Q Business](https://aws.amazon.com/q/business/), um assistente de conversação que usa IA generativa para melhorar a produtividade da força de trabalho, responder a perguntas e concluir tarefas com base nas informações dos seus sistemas corporativos. 

   1.  Conecte o Amazon Q Business à fonte de dados da sua empresa. O Amazon Q Business oferece conectores pré-construídos para mais de 40 fontes de dados compatíveis, incluindo Amazon Simple Storage Service (Amazon S3), Microsoft SharePoint, Salesforce e Atlassian Confluence. Para obter mais informações, consulte [Conectores do Amazon Q Business](https://aws.amazon.com/q/business/connectors/). 

1.  Para outros recursos, plataformas e infraestrutura, crie uma documentação que identifique a propriedade. Ela deve ser acessível a todos os membros da equipe. 

 **Nível de esforço do plano de implementação:** Baixo. Utilize informações de contato da conta e tags para atribuir propriedade a recursos da AWS. Para outros recursos, você pode usar algo simples como uma tabela em uma wiki para registrar a propriedade e informações de contato ou usar uma ferramenta de ITSM para mapear a propriedade. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS02-BP02 Processos e procedimentos com proprietários identificados](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_proc_owners.html) 
+  [OPS02-BP04 Mecanismos disponíveis para gerenciar responsabilidades e a relação de propriedade](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_responsibilities_ownership.html) 

 **Documentos relacionados:** 
+  [Gerenciamento de contas da AWS: atualizar as informações de contato](https://docs.aws.amazon.com/accounts/latest/reference/manage-acct-update-contact.html) 
+  [AWS Organizations: atualizar contatos alternativos em sua organização](https://docs.aws.amazon.com/organizations/latest/userguide/orgs_manage_accounts_update_contacts.html) 
+  [Whitepaper Práticas recomendadas de marcação com tags da AWS](https://docs.aws.amazon.com/whitepapers/latest/tagging-best-practices/tagging-best-practices.html) 
+  [Criar aplicações de IA generativa empresariais privadas e seguras com o Amazon Q Business e o AWS IAM Identity Center](https://aws.amazon.com/blogs/machine-learning/build-private-and-secure-enterprise-generative-ai-apps-with-amazon-q-business-and-aws-iam-identity-center/) 
+  [O Amazon Q Business, agora disponível ao público em geral, ajuda a aumentar a produtividade da força de trabalho com a IA generativa](https://aws.amazon.com/blogs/aws/amazon-q-business-now-generally-available-helps-boost-workforce-productivity-with-generative-ai/) 
+  [Blog de operações e migrações da Nuvem AWS: implementar controles de marcação com tags automatizados e centralizados com o AWS Config e o AWS Organizations](https://aws.amazon.com/blogs/mt/implementing-automated-and-centralized-tagging-controls-with-aws-config-and-aws-organizations/) 
+  [Blog de segurança da AWS: estenda seus hooks de pré-confirmação com o AWS CloudFormation Guard](https://aws.amazon.com/blogs/security/extend-your-pre-commit-hooks-with-aws-cloudformation-guard/) 
+  [Blog de DevOps da AWS: integrar o AWS CloudFormation Guard em pipelines de CI/CD](https://aws.amazon.com/blogs/devops/integrating-aws-cloudformation-guard/) 

 **Workshops relacionados:** 
+  [Workshop da AWS: marcação com tags](https://catalog.workshops.aws/tagging/) 

 **Exemplos relacionados:** 
+  [Regras do AWS Config: Amazon EC2 com tags obrigatórias e valores válidos](https://github.com/awslabs/aws-config-rules/blob/master/python/ec2_require_tags_with_valid_values.py) 

 **Serviços relacionados:** 
+  [Regras do AWS Config: tags obrigatórias](https://docs.aws.amazon.com/config/latest/developerguide/required-tags.html) 
+  [AWS Organizations](https://aws.amazon.com/organizations/) 

# OPS02-BP02 Processos e procedimentos com proprietários identificados
<a name="ops_ops_model_def_proc_owners"></a>

 Entenda quem tem a propriedade da definição de processos e procedimentos individuais, por que esses processos e procedimentos específicos são usados e por que essa propriedade existe. Entender os motivos pelos quais processos e procedimentos específicos são usados ajuda a identificar oportunidades de melhoria. 

 **Resultado desejado:** sua organização terá um conjunto bem definido e mantido de processos e procedimentos para tarefas operacionais. O processo e os procedimentos são armazenados em um local central e estarão disponíveis para os membros da equipe. Os processos e os procedimentos são atualizados com frequência, por meio de uma propriedade claramente atribuída. Sempre que possível, scripts, modelos e documentos de automação são implementados como código. 

 **Práticas comuns que devem ser evitadas:** 
+  Os processos não são documentados. Pode haver scripts fragmentados em estações de trabalho de operadores isoladas. 
+  O conhecimento de como usar scripts é mantido por algumas pessoas ou informalmente como conhecimento da equipe. 
+  Um processo legado precisa ser atualizado, mas a propriedade da atualização não está clara e o autor original não faz mais parte da organização. 
+  Processos e scripts não podem ser descobertos, portanto, não estão prontamente disponíveis quando necessário (por exemplo, em resposta a um incidente). 

 **Benefícios de implementar esta prática recomendada:** 
+  Os processos e os procedimentos impulsionam seus esforços para operar as workloads. 
+  Novos membros da equipe se tornam efetivos mais rapidamente. 
+  Tempo reduzido para mitigar incidentes. 
+  Diferentes membros da equipe (e equipes) podem usar os mesmos processos e procedimentos de maneira consistente. 
+  As equipes podem escalar os processos com procedimentos repetíveis. 
+  Processos e procedimentos padronizados ajudam a mitigar o impacto da transferência de responsabilidades de workload entre equipes. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>
+  Os processos e procedimentos possuem proprietários identificados que são responsáveis por suas definições. 
  +  Identifique as atividades de operações realizadas para oferecer suporte às suas workloads. Documente essas atividades em um local que possa ser localizado. 
  +  Identifique de maneira única a pessoa ou equipe responsável pela especificação de uma atividade. Ela é responsável por verificar se a atividade pode ser executada com êxito por um membro da equipe devidamente qualificado com as permissões, as ferramentas e o acesso corretos. Se houver problemas com a execução dessa atividade, os membros da equipe que a executam serão responsáveis por fornecer os comentários detalhados necessários para que a atividade seja melhorada. 
  +  Registre a propriedade dos metadados do artefato da atividade por meio de serviços como o AWS Systems Manager, documentos e do AWS Lambda. Registre a propriedade de recursos usando tags ou grupos de recursos, especificando as informações de propriedade e de contato. Use o AWS Organizations para criar políticas de marcação com tags e capturar as informações de propriedade e de contato. 
+  Com o tempo, esses procedimentos devem ser evoluídos para ser executados como código, reduzindo a necessidade de intervenção humana. 
  +  Por exemplo, pense em funções do AWS Lambda, modelos do CloudFormation ou documentos de automação do AWS Systems Manager. 
  +  Execute o controle de versão nos repositórios apropriados. 
  +  Inclua uma marcação de recursos adequada para que os proprietários e a documentação possam ser facilmente identificados. 

 **Exemplo de cliente** 

 A AnyCompany Retail define propriedade como a equipe ou o indivíduo que é responsável pelos processos de uma aplicação ou grupos de aplicações (que compartilham práticas e tecnologias de arquitetura comuns). Inicialmente, os processos e os procedimentos são documentados como guias passo a passo no sistema de gerenciamento de documentos, que podem ser descobertos por meio de tags na Conta da AWS que hospeda a aplicação e em grupos específicos de recursos dentro da conta. Ela utiliza o AWS Organizations para gerenciar as Contas da AWS. Com o tempo, esses processos são convertidos em código e os recursos são definidos usando a infraestrutura como código (como modelos do CloudFormation ou do AWS Cloud Development Kit (AWS CDK)). Os processos operacionais se tornam documentos de automação nas funções do AWS Systems Manager ou AWS Lambda, os quais podem ser iniciados como tarefas agendadas, em resposta a eventos como os alarmes do AWS CloudWatch ou os eventos do AWS EventBridge ou iniciados por solicitações em uma plataforma de gerenciamento de serviços de TI (ITSM). Todo processo tem tags para identificar a propriedade. A documentação para a automação e o processo é mantida nas páginas wiki geradas pelo repositório de código do processo. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  Documente os processos e os procedimentos existentes. 

   1.  Revise e mantenha-os atualizados. 

   1.  Identifique um proprietário para cada processo ou procedimento. 

   1.  Coloque-os sob controle de versão. 

   1.  Sempre que possível, compartilhe processos e procedimentos entre workloads e ambientes que compartilham projetos de arquitetura. 

1.  Estabeleça mecanismos de feedback e melhoria. 

   1.  Defina políticas sobre a frequência com que os processos devem ser revisados. 

   1.  Defina processos para revisores e aprovadores. 

   1.  Implemente problemas ou uma fila de emissão de tíquetes para que o feedback seja fornecido e rastreado. 

   1.  Sempre que possível, os processos e os procedimentos devem ter pré-aprovação e classificação de risco de um conselho de aprovação de mudanças (CAB). 

1.  Verifique se os processos e os procedimentos estão acessíveis e detectáveis por aqueles que precisam executá-los. 

   1.  Use tags para indicar onde os processos e os procedimentos podem ser acessados para a workload. 

   1.  Use mensagens relevantes de erros e eventos para indicar os processos ou os procedimentos apropriados para resolver um problema. 

   1.  Use wikis e gerenciamento de documentos e torne processos e procedimentos pesquisáveis de forma consistente em toda a organização. 

1.  Use o [Amazon Q Business](https://aws.amazon.com/q/business/), um assistente de conversação que usa IA generativa para melhorar a produtividade da força de trabalho, responder a perguntas e concluir tarefas com base nas informações dos seus sistemas corporativos. 

   1.  Conecte o Amazon Q Business à fonte de dados da sua empresa. O Amazon Q Business oferece conectores pré-construídos para mais de 40 fontes de dados compatíveis, incluindo Amazon S3, Microsoft SharePoint, Salesforce e Atlassian Confluence. Para ter mais informações, consulte [Conectores para o Amazon Q Business](https://aws.amazon.com/q/business/connectors/). 

1.  Automatize quando apropriado. 

   1.  As automações devem ser desenvolvidas quando os serviços e as tecnologias fornecem uma API. 

   1.  Instrua adequadamente sobre os processos. Desenvolva as histórias e os requisitos dos usuários e para automatizar esses processos. 

   1.  Avalie com êxito o uso de processos e procedimentos e registre problemas ou crie tíquetes para promover melhorias iterativas. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS02-BP01 Recursos com proprietários identificados](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_resource_owners.html) 
+  [OPS02-BP04 Mecanismos disponíveis para gerenciar responsabilidades e a relação de propriedade](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_responsibilities_ownership.html) 
+  [OPS11-BP04 Gerenciar o conhecimento](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_knowledge_management.html) 

 **Documentos relacionados:** 
+  [AWS Whitepaper da : Introdução a DevOps na AWS](https://docs.aws.amazon.com/whitepapers/latest/introduction-devops-aws/automation.html) 
+  [Whitepaper da AWS: Práticas recomendadas para marcação de recursos da AWS com tags](https://docs.aws.amazon.com/whitepapers/latest/tagging-best-practices/tagging-best-practices.html) 
+  [Whitepaper da AWS: Organizar seu ambiente da AWS usando várias contas](https://docs.aws.amazon.com/whitepapers/latest/organizing-your-aws-environment/organizing-your-aws-environment.html) 
+ [Nuvem AWS Operations and Migrations Blog - Using Amazon Q Business to streamline your operations ](https://aws.amazon.com/blogs/mt/streamline-operations-using-amazon-q-for-business/)
+  [Nuvem AWS Blog de operações e migrações da – Criar uma prática de automação na nuvem para excelência operacional: práticas recomendadas da AWS Managed Services](https://aws.amazon.com/blogs/mt/build-a-cloud-automation-practice-for-operational-excellence-best-practices-from-aws-managed-services/) 
+  [Blog de operações e migrações da Nuvem AWS: implementar controles de marcação com tags automatizados e centralizados com o AWS Config e o AWS Organizations](https://aws.amazon.com/blogs/mt/implementing-automated-and-centralized-tagging-controls-with-aws-config-and-aws-organizations/) 
+  [AWS Blog de segurança da : estenda seus hooks de pré-confirmação com o AWS CloudFormation Guard](https://aws.amazon.com/blogs/security/extend-your-pre-commit-hooks-with-aws-cloudformation-guard/) 
+  [Blog de DevOps da AWS: integrar o AWS CloudFormation Guard em pipelines de CI/CD](https://aws.amazon.com/blogs/devops/integrating-aws-cloudformation-guard/) 

 **Workshops relacionados:** 
+  [AWS Workshop Excelência operacional no Well-Architected](https://catalog.workshops.aws/well-architected-operational-excellence/en-US/) 
+  [AWS Workshop da : marcação com tags](https://catalog.workshops.aws/tagging/) 

 **Vídeos relacionados:** 
+  [Como automatizar operações de TI na AWS](https://www.youtube.com/watch?v=GuWj_mlyTug) 
+  [AWS re:Invent 2020: Automatize tudo com o AWS Systems Manager](https://www.youtube.com/watch?v=AaI2xkW85yE) 
+  [AWS re:Inforce 2022: Automatizar o gerenciamento e a conformidade de patches usando a AWS (NIS306)](https://www.youtube.com/watch?v=gL3baXQJvc0) 
+  [Suportes Você: Mergulho profundo no AWS Systems Manager](https://www.youtube.com/watch?v=xHNLNTa2xGU) 

 **Serviços relacionados:** 
+  [AWS Systems Manager - automação](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html) 
+  [AWS Service Management Connector](https://aws.amazon.com/service-management-connector/) 

# OPS02-BP03 Atividades de operações com proprietários identificados responsáveis pela performance
<a name="ops_ops_model_def_activity_owners"></a>

 Entenda quem tem a responsabilidade de realizar atividades específicas em workloads definidas e por que essa responsabilidade existe. Entender quem tem a responsabilidade de realizar atividades informa quem realizará a atividade, valida o resultado e fornece feedback ao proprietário da atividade. 

 **Resultado desejado:** 

 Sua organização define claramente as responsabilidades de realizar atividades específicas em workloads definidas e reagir aos eventos gerados pela workload. A organização documenta a propriedade dos processos e o cumprimento e torna essas informações detectáveis. Você analisa e atualiza as responsabilidades quando ocorrem mudanças organizacionais, e as equipes monitoram e medem a performance das atividades de identificação de defeitos e ineficiência. Você implementa mecanismos de feedback para rastrear defeitos e aprimoramentos e apoiar a melhoria iterativa. 

 **Práticas comuns que devem ser evitadas:** 
+  Você não documenta responsabilidades. 
+  Existem scripts fragmentados em estações de trabalho de operadores isoladas. Apenas algumas pessoas sabem como usá-las ou se referem informalmente a elas como *conhecimento de equipe*. 
+  Um processo herdado precisa ser atualizado, mas ninguém sabe quem é responsável pelo processo e o autor original não faz mais parte da organização. 
+  Processos e scripts não podem ser descobertos, portanto, não estão prontamente disponíveis quando necessário (por exemplo, em resposta a um incidente). 

 **Benefícios de implementar esta prática recomendada:** 
+  Você sabe quem é responsável por realizar uma atividade, a quem notificar quando uma ação é necessária e quem realiza a ação, valida o resultado e fornece feedback ao responsável pela atividade. 
+  Os processos e os procedimentos impulsionam seus esforços para operar as workloads. 
+  Novos membros da equipe se tornam efetivos mais rapidamente. 
+  Você reduz o tempo necessário para atenuar incidentes. 
+  Equipes diferentes usam os mesmos processos e procedimentos para realizar tarefas de maneira consistente. 
+  As equipes podem escalar os processos com procedimentos repetíveis. 
+  Processos e procedimentos padronizados ajudam a atenuar o impacto da transferência de responsabilidades de workload entre equipes. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Para começar a definir responsabilidades, comece com a documentação existente, como matrizes de responsabilidade, processos e procedimentos, perfis e responsabilidades, bem como ferramentas e automação. Revise e organize discussões sobre as responsabilidades pelos processos documentados. Revise com as equipes para identificar desalinhamentos entre as responsabilidades documentadas e os processos. Aborde os serviços oferecidos com os clientes internos dessa equipe para identificar as lacunas de expectativas entre as equipes. 

 Analise e resolva as discrepâncias. Identifique oportunidades de melhoria e procure atividades frequentemente solicitadas e que consomem muitos recursos, que normalmente são fortes candidatas a melhorias. Examine as práticas recomendadas, os padrões e as recomendações para simplificar e padronizar as melhorias. Registre oportunidades de melhoria e acompanhe as melhorias até a conclusão. 

 Com o tempo, esses procedimentos devem ser desenvolvidos para ser executados como código, reduzindo a necessidade de intervenção humana. Por exemplo, os procedimentos podem ser iniciados como funções do AWS Lambda, modelos do CloudFormation ou documentos de automação do AWS Systems Manager. Verifique se esses procedimentos têm controle de versão nos repositórios apropriados e inclua a marcação de recursos adequada para que as equipes possam identificar prontamente os proprietários e a documentação. Documente a responsabilidade pela realização das atividades e, depois, monitore as automações para iniciação e operação bem-sucedidas, bem como a performance dos resultados desejados. 

 **Exemplo de cliente** 

 A AnyCompany Retail define propriedade como a equipe ou o indivíduo que é responsável pelos processos de uma aplicação ou grupos de aplicações que compartilham práticas e tecnologias de arquitetura comuns. Inicialmente, a empresa documenta os processos e os procedimentos como guias passo a passo no sistema de gerenciamento de documentos. Ela torna os procedimentos detectáveis usando tags na Conta da AWS que hospeda a aplicação e em grupos específicos de recursos dentro da conta, usando o AWS Organizations para gerenciar as Contas da AWS. Com o tempo, a AnyCompany Retail converte esses processos em código e define recursos usando a infraestrutura como código (por meio de serviços como o CloudFormation ou de modelos do AWS Cloud Development Kit (AWS CDK)). Os processos operacionais se tornam documentos de automação no AWS Systems Manager ou nas funções do AWS Lambda, os quais podem ser iniciados como tarefas agendadas em resposta a eventos como os alarmes do Amazon CloudWatch ou os eventos do Amazon EventBridge ou iniciados por solicitações em uma plataforma de gerenciamento de serviços de TI (ITSM). Todos os processos têm tags para identificar quem é responsável por eles. As equipes gerenciam a documentação para a automação e o processo nas páginas wiki geradas pelo repositório de código do processo. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  Documente os processos e os procedimentos existentes. 

   1.  Revise e verifique se eles estão atualizados. 

   1.  Verifique se cada processo ou procedimento tem um proprietário. 

   1.  Submeta os procedimentos ao controle de versão. 

   1.  Sempre que possível, compartilhe processos e procedimentos entre workloads e ambientes que compartilham projetos de arquitetura. 

1.  Estabeleça mecanismos de feedback e melhoria. 

   1.  Defina políticas sobre a frequência com que os processos devem ser revisados. 

   1.  Defina processos para revisores e aprovadores. 

   1.  Implemente uma fila de problemas ou de tíquetes para fornecer e rastrear o feedback. 

   1.  Sempre que possível, forneça pré-aprovação e classificação de risco para processos e procedimentos de um conselho de aprovação de mudanças (CAB). 

1.  Torne os processos e os procedimentos acessíveis e detectáveis pelos usuários que precisam executá-los. 

   1.  Use tags para indicar onde os processos e os procedimentos podem ser acessados para a workload. 

   1.  Use mensagens relevantes de erros e eventos para indicar os processos ou os procedimentos apropriados para resolver o problema. 

   1.  Use wikis ou gerenciamento de documentos para tornar os processos e os procedimentos pesquisáveis de forma consistente em toda a organização. 

1.  Automatize quando for apropriado. 

   1.  Quando os serviços e as tecnologias fornecerem uma API, desenvolva automações. 

   1.  Verifique se os processos estão bem compreendidos e desenvolva as histórias e os requisitos dos usuários para automatizar esses processos. 

   1.  Avalie o uso bem-sucedido de processos e procedimentos, e faça rastreamento dos problemas para contribuir com a melhoria iterativa. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS02-BP01 Recursos com proprietários identificados](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_resource_owners.html) 
+  [OPS02-BP02 Processos e procedimentos com proprietários identificados](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_resource_owners.html) 
+  [OPS02-BP04 Mecanismos disponíveis para gerenciar responsabilidades e a relação de propriedade](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_responsibilities_ownership.html) 
+  [OPS02-BP05 Mecanismos disponíveis para identificar a responsabilidade e a relação de propriedade](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_find_owner.html) 
+  [OPS11-BP04 Gerenciar o conhecimento](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_knowledge_management.html) 

 **Documentos relacionados:** 
+  [Whitepaper da AWS \$1 Introdução a DevOps na AWS](https://docs.aws.amazon.com/whitepapers/latest/introduction-devops-aws/automation.html) 
+  [Whitepaper da AWS \$1 Práticas recomendadas para marcação de recursos da AWS com tags](https://docs.aws.amazon.com/whitepapers/latest/tagging-best-practices/tagging-best-practices.html) 
+  [Whitepaper da AWS \$1 Organizar seu ambiente da AWS usando várias contas](https://docs.aws.amazon.com/whitepapers/latest/organizing-your-aws-environment/organizing-your-aws-environment.html) 
+  [Blog de operações e migrações da Nuvem AWS \$1 Criar uma prática de automação na nuvem para excelência operacional: práticas recomendadas da AWS Managed Services](https://aws.amazon.com/blogs/mt/build-a-cloud-automation-practice-for-operational-excellence-best-practices-from-aws-managed-services/) 
+  [Workshop da AWS: marcação com tags](https://catalog.workshops.aws/tagging/) 
+  [AWS Service Management Connector](https://aws.amazon.com/service-management-connector/) 

 **Vídeos relacionados:** 
+  [Centro de Conhecimentos da AWS Live \$1 Recursos de marcação com tags da AWS](https://www.youtube.com/watch?v=MX9DaAQS15I) 
+  [AWS re:Invent 2020 \$1 Automatize tudo com o AWS Systems Manager](https://www.youtube.com/watch?v=AaI2xkW85yE) 
+  [AWS re:Inforce 2022 \$1 Automatizar o gerenciamento e a conformidade de patches usando a AWS (NIS306)](https://www.youtube.com/watch?v=gL3baXQJvc0) 
+  [Suportes Você \$1 Mergulho profundo no AWS Systems Manager](https://www.youtube.com/watch?v=xHNLNTa2xGU) 

# OPS02-BP04 Mecanismos disponíveis para gerenciar responsabilidades e a relação de propriedade
<a name="ops_ops_model_def_responsibilities_ownership"></a>

 Entenda as responsabilidades do seu perfil e como você contribui para os resultados comerciais, pois esse entendimento fornece informações sobre como priorizar tarefas e por que sua função é importante. Isso ajuda os membros da equipe a reconhecer as necessidades e reagir adequadamente. Quando os membros da equipe conhecem seus perfis, eles podem estabelecer propriedade, identificar oportunidades de melhoria e entender como influenciar ou fazer as mudanças apropriadas. 

 Ocasionalmente, uma responsabilidade pode não ter um proprietário claro. Nessas situações, desenvolva um mecanismo para resolver essa falha. Crie um caminho de escalação bem definido para que alguém com autoridade atribua propriedade ou estabeleça um plano para atender à necessidade em questão. 

 **Resultado desejado:** as equipes de sua organização têm responsabilidades claramente definidas que incluem como elas estão relacionadas aos recursos, ações a serem executadas, processos e procedimentos. Essas responsabilidades alinham-se às responsabilidades e às metas da equipe, bem como às responsabilidades de outras equipes. Você documenta as rotas de escalação de forma consistente e detectável e insere essas decisões em artefatos de documentação, como matrizes de responsabilidade, definições de equipe ou páginas wiki. 

 **Práticas comuns que devem ser evitadas:** 
+  As responsabilidades da equipe são ambíguas ou mal definidas. 
+  A equipe não alinha perfis a responsabilidades. 
+  A equipe não alinha metas e objetivos às responsabilidades, o que torna difícil medir o sucesso. 
+  As responsabilidades dos membros da equipe não se alinham à equipe nem à organização em geral. 
+  Sua equipe não mantém as responsabilidades atualizadas, o que as torna inconsistentes com as tarefas realizadas por ela. 
+  Os caminhos de escalação para determinar responsabilidades não estão definidos ou não estão claros. 
+  Os caminhos de escalação não têm um proprietário de thread único para garantir uma resposta oportuna. 
+  Os perfis, as responsabilidades e os caminhos de escalação não são detectáveis e não estão prontamente disponíveis quando necessário (por exemplo, em resposta a um incidente). 

 **Benefícios de implementar esta prática recomendada:** 
+  Quando você entende quem tem responsabilidade ou propriedade, pode entrar em contato com a equipe ou o membro adequado para fazer uma solicitação ou fazer a transição de uma tarefa. 
+  Para reduzir o risco de inação e necessidades não atendidas, você identificou uma pessoa que tem autoridade para atribuir responsabilidade ou propriedade. 
+  Quando você define claramente o escopo de uma responsabilidade, os membros da equipe ganham autonomia e propriedade. 
+  Suas responsabilidades fundamentam as decisões que você toma, as ações que você realiza e suas atividades de entrega aos proprietários apropriados. 
+  É fácil identificar responsabilidades abandonadas porque você tem uma compreensão clara do que está fora da responsabilidade de sua equipe, o que ajuda você a encaminhar os assuntos para ter esclarecimentos. 
+  As equipes evitam confusões e tensões e podem gerenciar de forma mais adequada as workloads e os recursos. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Identifique perfis e responsabilidades dos membros da equipe e verifique se eles entendem as expectativas do perfil que exercem. Torne essas informações detectáveis para que os membros da organização possam identificar com quem precisam entrar em contato (equipe ou indivíduo) em relação a necessidades específicas. À medida que as organizações buscam aproveitar as oportunidades de migrar e modernizar na AWS, os perfis e responsabilidades também podem mudar. Mantenha suas equipes e os membros cientes das responsabilidades e treine-os adequadamente para realizar as tarefas durante essa mudança. 

 Determine o perfil ou a equipe que deve receber as escalações para identificar a responsabilidade e a propriedade. Essa equipe pode interagir com várias partes interessadas para tomar uma decisão. No entanto, ela deve assumir o gerenciamento da tomada de decisões. 

 Forneça mecanismos acessíveis para que os membros da organização descubram e identifiquem propriedade e responsabilidade. Esses mecanismos os ensinam com quem entrar em contato em relação a necessidades específicas. 

 **Exemplo de cliente** 

 A AnyCompany Retail concluiu recentemente uma migração de workloads de um ambiente on-premises para sua zona de pouso na AWS com uma abordagem de mover sem alterações (lift-and-shift). Ela realizou uma revisão das operações para refletir sobre como realiza tarefas operacionais comuns e verificou se a matriz de responsabilidades existente reflete as operações no novo ambiente. Ao migrar do ambiente on-premises para a AWS, ela reduziu as responsabilidades das equipes de infraestrutura relacionadas a hardware e à infraestrutura física. Essa mudança também revelou novas oportunidades de desenvolver o modelo operacional das workloads. 

 Embora tenha identificado, tratado e documentado a maioria das responsabilidades, ela também definiu rotas de escalação para todas as responsabilidades não detectadas ou que possam precisar mudar à medida que as práticas operacionais evoluem. Para examinar novas oportunidades de padronizar e melhorar a eficiência nas workloads, forneça acesso a ferramentas operacionais, como o AWS Systems Manager, e a ferramentas de segurança, como o AWS Security Hub CSPM e o Amazon GuardDuty. A AnyCompany Retail realiza uma análise das responsabilidades e da estratégia com base nas melhorias que ela deseja abordar primeiro. À medida que a empresa adota novas formas de trabalhar e padrões tecnológicos, ela atualiza a matriz de responsabilidades para adequá-la. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  Comece com a documentação existente. Alguns exemplos de documentos de origem típicos: 

   1.  Matrizes de responsabilidades ou responsáveis, aprovador, consultado e informado (RACI) 

   1.  Definições de equipe ou páginas wiki 

   1.  Definições e ofertas de serviços 

   1.  Descrições de perfis ou cargos 

1.  Revise e organize discussões sobre as responsabilidades documentadas: 

   1.  Revise com as equipes para identificar desalinhamentos entre as responsabilidades documentadas e as responsabilidades que a equipe normalmente executa. 

   1.  Aborde os possíveis serviços oferecidos pelos clientes internos para identificar lacunas nas expectativas entre as equipes. 

1.  Analise e resolva as discrepâncias. 

1.  Identifique oportunidades de melhoria. 

   1.  Identifique solicitações feitas com frequência e que consomem muitos recursos, as quais normalmente são fortes candidatas a melhorias. 

   1.  Procure práticas recomendadas, compreenda os padrões, siga as orientações prescritivas e simplifique e padronize as melhorias. 

   1.  Registre oportunidades de melhoria e acompanhe-as até a conclusão. 

1.  Se uma equipe ainda não tiver a responsabilidade de gerenciar e rastrear a atribuição de responsabilidades, identifique alguém na equipe para assumir essa responsabilidade. 

1.  Defina um processo para que as equipes solicitem esclarecimentos sobre responsabilidades. 

   1.  Analise o processo e verifique se ele está claro e é simples de usar. 

   1.  Certifique-se de que alguém seja responsável pelas escalações e faça o rastreamento até a conclusão. 

   1.  Estabeleça métricas operacionais para medir a eficácia. 

   1.  Crie mecanismos de feedback para verificar se as equipes podem destacar oportunidades de melhoria. 

   1.  Implemente um mecanismo para revisão periódica. 

1.  Documente em um local detectável e acessível. 

   1.  Wikis ou portais de documentação são escolhas comuns. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS01-BP06 Avaliar compensações](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_priorities_eval_tradeoffs.html) 
+  [OPS03-BP02 Os membros da equipe são capacitados para executar ações quando os resultados estão em risco](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_team_emp_take_action.html) 
+  [OPS03-BP03 Incentivo à escalação](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_team_enc_escalation.html) 
+  [OPS03-BP07 Fornecer recursos adequados às equipes](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_team_res_appro.html) 
+  [OPS09-BP01 Medir metas operacionais e KPIs com métricas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_measure_ops_goals_kpis.html) 
+  [OPS09-BP03 Revisar as métricas operacionais e priorizar a melhoria](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_review_ops_metrics_prioritize_improvement.html) 
+  [OPS11-BP01 Adotar um processo para melhoria contínua](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_process_cont_imp.html) 

 **Documentos relacionados:** 
+  [Whitepaper da AWS: Introdução a DevOps na AWS](https://docs.aws.amazon.com/whitepapers/latest/introduction-devops-aws/automation.html) 
+  [Whitepaper da AWS: Framework de adoção da Nuvem AWS: perspectiva de operações](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/aws-caf-operations-perspective.html) 
+  [Excelência operacional do AWS Well-Architected Framework: topologias do modelo operacional em nível de workload](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/operating-model-2-by-2-representations.html) 
+  [Recomendações da AWS: Criar seu modelo operacional de nuvem](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-cloud-operating-model/welcome.html) 
+  [Recomendações da AWS: Criar uma matriz RACI ou RASCI para um modelo operacional na nuvem](https://docs.aws.amazon.com/prescriptive-guidance/latest/patterns/create-a-raci-or-rasci-matrix-for-a-cloud-operating-model.html) 
+  [Blog de operações e migrações da Nuvem AWS: Agregar valor comercial com equipes da Cloud Platform](https://aws.amazon.com/blogs/mt/delivering-business-value-with-cloud-platform-teams/) 
+  [Blog de operações e migrações da Nuvem AWS: Por que um modelo operacional na nuvem?](https://aws.amazon.com/blogs/mt/why-a-cloud-operating-model/) 
+  [Blog de DevOps da AWS: Como as organizações estão se modernizando para as operações na nuvem](https://aws.amazon.com/blogs/devops/how-organizations-are-modernizing-for-cloud-operations/) 

 **Vídeos relacionados:** 
+  [AWS Summit Online: Modelos operacionais em nuvem para transformação acelerada](https://www.youtube.com/watch?v=ksJ5_UdYIag) 
+  [AWS re:Invent 2023: Segurança na nuvem preparada para o futuro: um novo modelo operacional](https://www.youtube.com/watch?v=GFcKCz1VO2I) 

# OPS02-BP05 Mecanismos para solicitar adições, alterações e exceções
<a name="ops_ops_model_req_add_chg_exception"></a>

É possível fazer solicitações aos proprietários de processos, procedimentos e recursos. As solicitações incluem adições, alterações e exceções. Essas solicitações passam por um processo de gerenciamento de alterações. Tome decisões embasadas para aprovar solicitações quando elas forem viáveis e consideradas apropriadas após uma avaliação de benefícios e riscos. 

 **Resultado desejado:** 
+  É possível fazer solicitações para alterar processos, procedimentos e recursos com base na propriedade atribuída. 
+  As alterações são feitas de maneira deliberada, ponderando benefícios e riscos. 

 **Práticas comuns que devem ser evitadas:** 
+  Você precisa atualizar a maneira como implanta sua aplicação, mas não há como solicitar uma alteração no processo de implantação à equipe de operações. 
+  O plano de recuperação de desastres deve ser atualizado, mas não há nenhum proprietário identificado para solicitar alterações no plano. 

 **Benefícios de implementar esta prática recomendada:** 
+  Os processos, procedimentos e recursos podem evoluir à medida que os requisitos mudam. 
+  Os proprietários podem tomar decisões embasadas sobre quando realizar alterações. 
+  As alterações são feitas de maneira deliberada. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Para implementar esta prática recomendada, você precisará estar em uma posição em que possa solicitar alterações em processos, procedimentos e recursos. O processo de gerenciamento de alterações pode ser simples. Documente o processo de gerenciamento de alterações. 

 **Exemplo de cliente** 

 A AnyCompany Retail usa a matriz de atribuição de responsabilidades (RACI) para identificar quem é proprietário das alterações em processos, procedimentos e recursos. A empresa conta com um processo documentado de gerenciamento de alterações que é simples e fácil de seguir. Usando a matriz RACI e o processo, qualquer pessoa pode enviar solicitações de alteração. 

 **Etapas de implementação** 

1.  Identifique processos, procedimentos e recursos para sua workload e os proprietários de cada um. Documente-os no sistema de gerenciamento de conhecimento. 

   1.  Se você não implementou [OPS02-BP01 Recursos com proprietários identificados](ops_ops_model_def_resource_owners.md), [OPS02-BP02 Processos e procedimentos com proprietários identificados](ops_ops_model_def_proc_owners.md) ou [OPS02-BP03 Atividades de operações com proprietários identificados responsáveis pela performance](ops_ops_model_def_activity_owners.md), comece com eles primeiro. 

1.  Trabalhe com as partes interessadas em sua organização para desenvolver um processo de gerenciamento de alterações. O processo deve abranger adições, alterações e exceções para recursos, processos e procedimentos. 

   1.  O [Gerenciador de Alterações do AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/change-manager.html) pode ser usado como uma plataforma de gerenciamento de alterações para recursos de workload. 

1.  Documente o processo de gerenciamento de alterações em seu sistema de gerenciamento de conhecimento. 

 **Nível de esforço do plano de implementação:** Médio. O desenvolvimento de um processo de gerenciamento de alterações deve estar alinhado a várias partes interessadas em sua organização. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS02-BP01 Recursos com proprietários identificados](ops_ops_model_def_resource_owners.md): os recursos precisam de proprietários identificados antes de você criar um processo de gerenciamento de alterações. 
+  [OPS02-BP02 Processos e procedimentos com proprietários identificados](ops_ops_model_def_proc_owners.md): os processos precisam de proprietários identificados antes de você criar um processo de gerenciamento de alterações. 
+  [OPS02-BP03 Atividades de operações com proprietários identificados responsáveis pela performance](ops_ops_model_def_activity_owners.md): as atividades operacionais precisam de proprietários identificados antes de você criar um processo de gerenciamento de alterações. 

 **Documentos relacionados:** 
+ [Recomendações da AWS: Manual básico para grandes migrações da AWS: criação de matrizes RACI](https://docs.aws.amazon.com/prescriptive-guidance/latest/large-migration-foundation-playbook/team-org.html#raci)
+ [Whitepaper Gerenciamento de alterações na nuvem](https://docs.aws.amazon.com/whitepapers/latest/change-management-in-the-cloud/change-management-in-the-cloud.html)

 **Serviços relacionados:** 
+ [Gerenciador de Alterações do AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/change-manager.html)

# OPS02-BP06 As responsabilidades entre as equipes são predefinidas ou negociadas
<a name="ops_ops_model_def_neg_team_agreements"></a>

Tenha acordos definidos ou negociados entre as equipes que descrevam como elas trabalham e apoiam umas às outras (por exemplo, tempos de resposta, objetivos de nível de serviço ou acordos de serviço). Os canais de comunicação entre equipes são documentados. Ao entender o impacto do trabalho das equipes nos resultados de negócios e nos resultados de outras equipes e organizações, você conhece a priorização de tarefas delas e as ajuda a responder adequadamente. 

 Quando a responsabilidade e a propriedade não foram definidas ou são desconhecidas, você corre o risco de não abordar as atividades necessárias em tempo hábil e de despender esforços redundantes e possivelmente conflitantes para atender a essas necessidades. 

 **Resultado desejado:** 
+  Os acordos de trabalho ou apoio entre equipes são combinados e documentados. 
+  As equipes que apoiam ou trabalham umas com as outras definiram canais de comunicação e expectativas de resposta. 

 **Práticas comuns que devem ser evitadas:** 
+  Um problema ocorre na produção e duas equipes separadas iniciam a resolução de problemas de maneira independente. Esses esforços isolados estendem a interrupção. 
+  A equipe de operações necessita de assistência da equipe de desenvolvimento, mas nenhum tempo de resposta foi acordado. A solicitação está parada em uma lista de pendências. 

 **Benefícios de implementar esta prática recomendada:** 
+  As equipes sabem interagir e apoiar uma à outra. 
+  As expectativas quanto à capacidade de resposta são claras. 
+  Os canais de comunicação estão nitidamente definidos. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Baixo 

## Orientação para implementação
<a name="implementation-guidance"></a>

 A implementação desta prática recomendada significa que não há ambiguidade quanto à forma como as equipes trabalham uma com a outra. Os acordos formais sistematizam de que maneira as equipes trabalham juntas ou apoiam uma à outra. Os canais de comunicação entre as equipes são documentados. 

 **Exemplo de cliente** 

 A equipe de SRE da AnyCompany Retail tem um acordo de serviço com a equipe de desenvolvimento. Sempre que a equipe de desenvolvimento faz uma solicitação no sistema de tíquetes, ela pode esperar uma resposta em 15 minutos. Se não houver nenhuma interrupção no local, a equipe de SRE toma a dianteira na investigação e conta com o apoio da equipe de desenvolvimento. 

 **Etapas de implementação** 

1.  Trabalhando com as partes interessadas na organização, desenvolva acordos entre as equipes com base nos processos e procedimentos. 

   1.  Se um processo ou procedimento for compartilhado entre as duas equipes, desenvolva um runbook sobre como as equipes trabalharão juntas. 

   1.  Se houver dependências entre as equipes, estabeleça um SLA de resposta às solicitações. 

1.  Documente as responsabilidades no sistema de gerenciamento de conhecimento. 

 **Nível de esforço do plano de implementação:** Médio. Se não houver nenhum entendimento entre as equipes, talvez seja difícil chegar a um acordo com as partes interessadas na organização. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS02-BP02 Processos e procedimentos com proprietários identificados](ops_ops_model_def_proc_owners.md): os proprietários do processo devem ser identificados antes de estabelecer acordos entre as equipes. 
+  [OPS02-BP03 Atividades de operações com proprietários identificados responsáveis pela performance](ops_ops_model_def_activity_owners.md): os proprietários das atividades operacionais devem ser identificados antes de estabelecer acordos entre as equipes. 

 **Documentos relacionados:** 
+ [AWS Executive Insights: Fortalecer a inovação com a "equipe de duas pizzas"](https://aws.amazon.com/executive-insights/content/amazon-two-pizza-team/)
+ [Introdução a DevOps na AWS: equipes de duas pizzas](https://docs.aws.amazon.com/whitepapers/latest/introduction-devops-aws/two-pizza-teams.html)

# OPS 3. Como a cultura organizacional oferece suporte aos resultados comerciais?
<a name="ops-03"></a>

 Forneça suporte aos membros da equipe para que eles possam ser mais eficazes na tomada de ações e no suporte aos resultados comerciais. 

**Topics**
+ [OPS03-BP01 Fornecer patrocínio executivo](ops_org_culture_executive_sponsor.md)
+ [OPS03-BP02 Os membros da equipe estão capacitados para executar ações quando os resultados estão em risco](ops_org_culture_team_emp_take_action.md)
+ [OPS03-BP03 Incentivo à escalação](ops_org_culture_team_enc_escalation.md)
+ [OPS03-BP04 Comunicações rápidas, claras e acionáveis](ops_org_culture_effective_comms.md)
+ [OPS03-BP05 Incentivo à experimentação](ops_org_culture_team_enc_experiment.md)
+ [OPS03-BP06 Os membros da equipe são incentivados a manter e a aumentar seus conjuntos de habilidades.](ops_org_culture_team_enc_learn.md)
+ [OPS03-BP07 Fornecer recursos adequados às equipes](ops_org_culture_team_res_appro.md)

# OPS03-BP01 Fornecer patrocínio executivo
<a name="ops_org_culture_executive_sponsor"></a>

 No nível mais alto, a liderança sênior atua como patrocinadora executiva para definir claramente as expectativas e a direção dos resultados da organização, inclusive avaliando o sucesso. O patrocinador defende e promove a adoção das práticas recomendadas e a evolução da organização. 

 **Resultado desejado:** organizações que se esforçam para adotar, transformar e otimizar suas operações na nuvem estabelecem linhas claras de liderança e responsabilidade pelos resultados desejados. A organização compreende cada capacidade exigida pela organização para alcançar um novo resultado e atribui a propriedade às equipes funcionais para desenvolvimento. A liderança define ativamente essa direção, atribui propriedade, assume responsabilidade e define o trabalho. Como resultado, as pessoas em toda a organização podem se mobilizar, sentir-se inspiradas e trabalhar ativamente em direção aos objetivos desejados. 

 **Práticas comuns que devem ser evitadas:** 
+  Há uma obrigação de os proprietários de workloads migrá-las para a AWS sem um patrocinador e um plano claros para as operações na nuvem. Isso faz com que as equipes não colaborem conscientemente para melhorar e amadurecer a capacidade operacional. A falta de padrões de práticas recomendadas operacionais sobrecarrega as equipes (por exemplo, esforço do operador, plantões e dívidas técnicas), o que restringe a inovação. 
+  Um novo objetivo foi estabelecido em toda a organização de adotar uma tecnologia emergente sem fornecer liderança, patrocinador e estratégia. As equipes interpretam os objetivos de forma diferente, o que causa confusão sobre onde concentrar os esforços, por que eles são importantes e como medir o impacto. Consequentemente, a organização perde o ímpeto na adoção da tecnologia. 

 **Benefícios de implementar esta prática recomendada:** quando o patrocínio executivo comunica e compartilha claramente a visão, a direção e as metas, os membros da equipe sabem o que se espera deles. Indivíduos e equipes começam a concentrar intensamente os esforços na mesma direção para concretizar os objetivos definidos quando os líderes estão ativamente engajados. Desse modo, a organização maximiza a capacidade de sucesso. Ao avaliar o sucesso, você pode identificar melhor as barreiras ao sucesso para que elas possam ser resolvidas por meio da intervenção do patrocinador executivo. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>
+  Em cada fase da jornada para a nuvem (migração, adoção ou otimização), o sucesso exige envolvimento ativo no mais alto nível de liderança com um patrocinador executivo designado. O patrocinador executivo alinha a mentalidade, as habilidades e as formas de trabalhar da equipe com a estratégia definida. 
  +  **Explique o *porquê*:** traga clareza e explique o raciocínio por trás da visão e da estratégia. 
  +  **Defina expectativas:** defina e publique metas para suas organizações, incluindo como o progresso e o sucesso são medidos. 
  +  **Monitore o cumprimento das metas:** meça o alcance incremental das metas regularmente (não apenas a conclusão das tarefas). Compartilhe os resultados para que as ações apropriadas possam ser tomadas se os resultados estiverem em risco. 
  +  **Forneça os recursos necessários para atingir suas metas:** reúna pessoas e equipes para colaborar e criar as soluções certas que tragam os resultados definidos. Isso reduz ou elimina o atrito organizacional. 
  +  **Defenda suas equipes:** mantenha o envolvimento com suas equipes para entender o desempenho de cada uma e se há fatores externos que as afetam. Identifique os obstáculos que estão impedindo o progresso das equipes. Aja em nome das suas equipes para ajudar a resolver obstáculos e eliminar obrigações desnecessárias. Quando suas equipes forem afetadas por fatores externos, reavalie os objetivos e ajuste as metas conforme apropriado. 
  +  **Impulsione a adoção de práticas recomendadas:** reconheça as práticas recomendadas que oferecem benefícios quantificáveis e reconheça quem as cria e adota. Incentive ainda mais a adoção para ampliar os benefícios obtidos. 
  +  **Incentive a evolução de suas equipes:** crie uma cultura de melhoria contínua e aprenda proativamente com o progresso feito e com as falhas. Incentive o crescimento e o desenvolvimento pessoal e organizacional. Use dados e histórias para desenvolver a visão e a estratégia. 

 **Exemplo de cliente** 

 A Loja X está transformando seus negócios por meio da rápida reinvenção das experiências do cliente, do aumento da produtividade e da aceleração do crescimento via IA generativa. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  Estabeleça uma liderança unidirecional e designe um patrocinador executivo principal para liderar e promover a transformação. 

1.  Defina resultados comerciais claros de sua transformação e atribua propriedade e responsabilidade. Capacite o executivo principal com a autoridade para liderar e tomar decisões essenciais. 

1.  Verifique se sua estratégia de transformação está bem clara e amplamente comunicada pelo patrocinador executivo a todos os níveis da organização. 

   1.  Estabeleça objetivos comerciais claramente definidos para iniciativas de TI e nuvem. 

   1.  Documente as principais métricas de negócios para promover a transformação de TI e da nuvem. 

   1.  Comunique a visão de forma consistente a todas as equipes e indivíduos responsáveis por partes da estratégia. 

1.  Desenvolva matrizes de planejamento de comunicação que especifiquem qual mensagem precisa ser entregue a líderes, gerentes e colaboradores individuais específicos. Especifique a pessoa ou a equipe que deve entregar essa mensagem. 

   1.  Cumpra os planos de comunicação de forma consistente e confiável. 

   1.  Defina e gerencie as expectativas por meio de eventos presenciais regularmente. 

   1.  Aceite feedback sobre a eficácia das comunicações, ajuste-as e planeje adequadamente. 

   1.  Agende eventos de comunicação para entender proativamente os desafios das equipes e estabeleça um ciclo de feedback consistente que permita corrigir o curso quando necessário. 

1.  Mobilize ativamente cada iniciativa, do ponto de vista de liderança, para verificar se todas as equipes afetadas entendem os resultados que são responsáveis por alcançar. 

1.  Em cada reunião de status, os patrocinadores executivos devem procurar barreiras, inspecionar métricas estabelecidas, histórias ou feedback das equipes e medir o progresso em direção aos objetivos. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS03-BP04 Comunicações oportunas, claras e acionáveis](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_effective_comms.html) 
+  [OPS11-BP01 Adotar um processo para a melhoria contínua](wellarchitected/latest/operational-excellence-pillar/evolve/learn_share_and_improve/ops_evolve_ops_process_cont_imp.html) 
+  [OPS11-BP07 Revisar as métricas de operações](wellarchitected/latest/operational-excellence-pillar/evolve/learn_share_and_improve/ops_evolve_ops_metrics_review.html) 

 **Documentos relacionados:** 
+  [Desembaraçar o novelo organizacional: alinhamento elevado](https://aws.amazon.com/blogs/enterprise-strategy/untangling-your-organisational-hairball-highly-aligned/) 
+  [A transformação viva: abordagem pragmática às alterações](https://aws.amazon.com/blogs/enterprise-strategy/the-living-transformation-pragmatically-approaching-changes/) 
+  [Como se tornar uma empresa pronta para o futuro](https://aws.amazon.com/blogs/enterprise-strategy/becoming-a-future-ready-enterprise/) 
+  [Sete obstáculos que devem ser evitados ao criar um CCoE](https://aws.amazon.com/blogs/enterprise-strategy/7-pitfalls-to-avoid-when-building-a-ccoe/) 
+  [Navegação na nuvem: indicadores-chave de performance para o sucesso](https://aws.amazon.com/blogs/enterprise-strategy/navigating-the-cloud-key-performance-indicators-for-success/) 

 **Vídeos relacionados:** 
+  [AWS re:Invent 2023: Um guia de IA generativa para líderes: usando a história para moldar o futuro (SEG204)](https://youtu.be/e3snrDsct1o) 

 **Exemplos relacionados:** 
+  [Prosci: Papel e importância do patrocinador principal](https://www.prosci.com/blog/primary-sponsors-role-and-importance) 

# OPS03-BP02 Os membros da equipe estão capacitados para executar ações quando os resultados estão em risco
<a name="ops_org_culture_team_emp_take_action"></a>

 O comportamento cultural de apropriação encorajado pela liderança faz com que qualquer funcionário se sinta apto a agir em nome de toda a empresa, bem além do escopo definido para sua função e responsabilidade. Os funcionários podem agir para identificar proativamente os riscos à medida que eles surgem e tomar as medidas apropriadas. Essa cultura permite que os funcionários tomem decisões de alto valor com consciência situacional. 

 Por exemplo, a Amazon usa [Princípios de liderança](https://www.amazon.jobs/content/en/our-workplace/leadership-principles) como diretrizes para impulsionar o comportamento desejado dos funcionários para avançar em situações, resolver problemas, lidar com conflitos e agir. 

 **Resultado desejado:** a equipe de liderança influenciou uma nova cultura que permite que indivíduos e equipes tomem decisões essenciais, mesmo em níveis mais baixos da organização (desde que as decisões sejam definidas com permissões auditáveis e mecanismos de segurança). O fracasso não é desencorajado, e as equipes aprendem iterativamente a melhorar a tomada de decisão e suas respostas para enfrentar situações semelhantes daquele ponto em diante. Se as ações de alguém ocasionarem uma melhoria que possa beneficiar outras equipes, essa pessoa compartilha proativamente o conhecimento dessas ações. A liderança mede as melhorias operacionais e incentiva o indivíduo e a organização a adotar esses padrões. 

 **Práticas comuns que devem ser evitadas:** 
+  Não há diretrizes ou mecanismos claros em uma organização sobre o que fazer quando um risco é identificado. Por exemplo, quando um funcionário percebe um ataque de phishing, ele não se comunica com a equipe de segurança, fazendo com que grande parte da organização caia no ataque. Isso causa uma violação de dados. 
+  Seus clientes reclamam da indisponibilidade do serviço, que se deve principalmente a falhas nas implantações. Sua equipe de SRE é responsável pela ferramenta de implantação, e uma reversão automática das implantações está no roteiro de longo prazo. No lançamento recente de uma aplicação, um dos engenheiros criou uma solução para automatizar a reversão da aplicação para uma versão anterior. Embora a solução dele possa se tornar o padrão para equipes de SRE, outras equipes não a adotam, pois não há processo para rastrear essas melhorias. A organização continua sofrendo com falhas nas implantações, afetando os clientes e causando ainda mais sentimentos negativos. 
+  Para manter a conformidade, sua equipe de segurança da informação supervisiona um processo estabelecido há muito tempo para trocar as chaves SSH compartilhadas regularmente em nome dos operadores que se conectam às instâncias do Linux do Amazon EC2. As equipes de segurança da informação demoram vários dias para concluir a troca das chaves, e você não consegue se conectar a essas instâncias. Ninguém dentro ou fora da equipe de segurança da informação sugere usar outras opções na AWS para ter o mesmo resultado. 

 **Benefícios de implementar esta prática recomendada:** ao descentralizar a autoridade para tomar decisões e capacitar suas equipes a tomar decisões importantes, você pode resolver os problemas mais rapidamente com o aumento das taxas de sucesso. Além disso, as equipes começam a perceber um senso de propriedade e que as falhas são aceitáveis. A experimentação torna-se um pilar cultural. Gerentes e diretores não se sentem microgerenciados em todos os aspectos do trabalho. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

1.  Desenvolva uma cultura que reconheça a possibilidade de falhas. 

1.  Defina propriedade e responsabilidade claras para várias áreas funcionais dentro da organização. 

1.  Comunique a propriedade e a responsabilidade a todos para que as pessoas saibam quem pode ajudá-las a facilitar as decisões descentralizadas. 

1.  Defina suas decisões unidirecionais e bidirecionais para ajudar as pessoas a saber quando precisam escalar para níveis mais altos de liderança. 

1.  Crie a consciência organizacional de que todos os funcionários têm autonomia para agir em vários níveis quando os resultados correm risco. Forneça aos membros da equipe documentação sobre governança, níveis de permissão, ferramentas e oportunidades para praticar as habilidades necessárias para reagir de forma eficaz. 

1.  Dê aos membros da equipe a oportunidade de praticar as habilidades necessárias para reagir a várias decisões. Depois que os níveis de decisão forem definidos, realize game days para verificar se todos os colaboradores individuais entendem e podem demonstrar o processo. 

   1.  Forneça ambientes seguros alternativos em que processos e procedimentos possam ser testados e treinados. 

   1.  Reconheça e crie consciência de que os membros da equipe têm autoridade para agir quando o resultado tem um nível de risco predefinido. 

   1.  Defina a autoridade dos membros da equipe para realizar ações por meio da atribuição de permissões e acesso às workloads e aos componentes aos quais eles dão suporte. 

1.  Ofereça às equipes a capacidade de compartilhar seus aprendizados (sucessos e fracassos operacionais). 

1.  Capacite as equipes para desafiar o status quo e forneça mecanismos para rastrear e medir as melhorias, bem como seu impacto na organização. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS01-BP06 Avaliar as compensações ao gerenciar benefícios e riscos](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_priorities_eval_tradeoffs.html) 
+  [OPS02-BP05 Mecanismos disponíveis para identificar a responsabilidade e a relação de propriedade](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_req_add_chg_exception.html) 

 **Documentos relacionados:** 
+  [Publicação do blog da AWS \$1 A empresa ágil](https://aws.amazon.com/blogs/enterprise-strategy/the-agile-enterprise/) 
+  [Publicação do blog da AWS \$1 Medição do sucesso: um paradoxo e um plano](https://aws.amazon.com/blogs/enterprise-strategy/measuring-success-a-paradox-and-a-plan/) 
+  [Publicação do blog da AWS \$1 Deixar para trás: possibilitando a autonomia nas equipes](https://aws.amazon.com/blogs/enterprise-strategy/letting-go-enabling-autonomy-in-teams/) 
+  [Centralizar ou descentralizar?](https://aws.amazon.com/blogs/enterprise-strategy/centralize-or-decentralize/) 

 **Vídeos relacionados:** 
+  [re:Invent 2023 \$1 Como não sabotar sua transformação (SEG201)](https://www.youtube.com/watch?v=heLvxK5N8Aw) 
+  [re:Invent 2021 \$1 Amazon Builders' Library: excelência operacional da Amazon](https://www.youtube.com/watch?v=7MrD4VSLC_w) 
+  [Centralização versus descentralização](https://youtu.be/jviFsd4hhfE?si=fjt8avVAYxA9jF01) 

 **Exemplos relacionados:** 
+  [Usar registros de decisão de arquitetura para agilizar a tomada de decisões técnicas para um projeto de desenvolvimento de software](https://docs.aws.amazon.com/prescriptive-guidance/latest/architectural-decision-records/welcome.html) 

# OPS03-BP03 Incentivo à escalação
<a name="ops_org_culture_team_enc_escalation"></a>

 Os membros da equipe são incentivados pela equipe de liderança a escalar questões e preocupações para partes interessadas e tomadores de decisão de alto nível se acreditarem que os resultados desejados estão em risco e os padrões esperados não estão sendo atendidos. Essa é uma característica da cultura da organização e é encorajada em todos os níveis. A escalação deve ser realizada de maneira antecipada e frequente para que os riscos possam ser identificados e evitar incidentes. A liderança não repreende as pessoas por escalarem um problema. 

 **Resultado desejado:** indivíduos de toda a organização sentem-se confortáveis em escalar os problemas para seus níveis imediatos e mais altos de liderança. A liderança estabeleceu deliberada e conscientemente expectativas de que suas equipes devem se sentir seguras para encaminhar qualquer problema. Existe um mecanismo para encaminhar problemas em cada nível da organização. Quando os funcionários encaminham problemas ao gerente, eles decidem em conjunto o nível de impacto e se o problema deve ser encaminhado. Para iniciar uma escalação, os funcionários devem incluir um plano de trabalho recomendado para resolver o problema. Se a gerência direta não agir em tempo hábil, os funcionários são incentivados a levar as questões ao mais alto nível de liderança se tiverem certeza de que os riscos para a organização justificam a escalação. 

 **Práticas comuns que devem ser evitadas:** 
+  Os líderes executivos não fazem perguntas investigativas suficientes durante a reunião de status do programa de transformação na nuvem para descobrir onde os problemas e as barreiras se encontram. Somente boas notícias são apresentadas como status. A CIO deixou claro que só gosta de ouvir boas notícias, pois qualquer desafio abordado faz com que o CEO pense que o programa está falhando. 
+  Você é engenheiro de operações na nuvem e percebe que o novo sistema de gerenciamento de conhecimento não está sendo amplamente adotado pelas equipes de aplicações. A empresa investiu um ano e vários milhões de dólares para implementar esse novo sistema de gerenciamento de conhecimento, mas as pessoas ainda estão criando seus runbooks localmente e compartilhando-os em uma nuvem organizacional compartilhada, o que torna difícil encontrar conhecimentos pertinentes às workloads aceitas. Você tenta chamar a atenção da liderança para isso porque o uso consistente desse sistema pode aumentar a eficiência operacional. Quando você leva isso para a diretora que lidera a implementação do sistema de gerenciamento de conhecimentos, ela o repreende porque isso contesta o investimento. 
+  A equipe de segurança da informação responsável por fortalecer os recursos de computação decidiu implementar um processo que exige a execução das verificações necessárias a fim de garantir que as instâncias do EC2 estejam totalmente protegidas antes que a equipe de computação libere o recurso para uso. Isso criou um atraso de mais uma semana para que os recursos fossem implantados, o que viola o SLA dela. A equipe de computação tem medo de escalar a questão para o vice-presidente de nuvem, pois prejudica a imagem do vice-presidente de segurança da informação. 

 **Benefícios de implementar esta prática recomendada:** 

 Problemas complexos ou críticos são resolvidos antes que afetem os negócios. Menos tempo é desperdiçado. Os riscos são minimizados. As equipes tornam-se mais proativas e focadas nos resultados ao resolver problemas. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 A disposição e a capacidade de encaminhar problemas livremente em todos os níveis da organização são uma base organizacional e cultural que deve ser desenvolvida conscientemente por meio de treinamento enfatizado, comunicação de liderança, definição de expectativas e implantação de mecanismos em toda a organização em todos os níveis. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  Defina políticas, padrões e expectativas para sua organização. 

   1.  Garanta ampla adoção e compreensão de políticas, expectativas e padrões. 

1.  Incentive, treine e capacite os trabalhadores para escalação precoce e frequente quando os padrões não forem atendidos. 

1.  Reconheça de maneira organizacional que a escalação antecipada e frequente é a prática recomendada. Aceite que as escalações podem ser infundadas e que é melhor ter a chance de evitar um incidente do que perder essa oportunidade ao não encaminhar. 

   1.  Crie um mecanismo de escalação (como um sistema de cabos Andon). 

   1.  Mantenha procedimentos documentados que definam quando e como a escalação deve ocorrer. 

   1.  Defina o grupo de pessoas com autoridade crescente para tomar ou aprovar ações, bem como as informações de contato de cada parte interessada. 

1.  Quando a escalação ocorre, ela deve continuar até que o membro da equipe esteja convencido de que o risco foi mitigado por meio de ações orientadas pela liderança. 

   1.  As escalações devem incluir: 

      1.  Descrição da situação e natureza do risco 

      1.  Criticidade da situação 

      1.  Quem ou o que é afetado 

      1.  A dimensão do impacto 

      1.  A urgência em caso de impacto 

      1.  Soluções sugeridas e planos de mitigação 

   1.  Proteja os funcionários que escalam problemas. Adote uma política que proteja os membros da equipe contra retaliações se eles fizerem uma escalação a respeito de um responsável pela tomada de decisões ou uma parte interessada não responsiva. Tenha mecanismos implementados para identificar se isso está ocorrendo e que permita reagir da maneira adequada. 

1.  Incentive uma cultura de ciclos de feedback de melhoria contínua em tudo o que a organização produz. Os ciclos de feedback funcionam como pequenas escalações para os indivíduos responsáveis e identificam oportunidades de melhoria, mesmo quando a escalação não é necessária. As culturas de melhoria contínua instigam todos a serem mais proativos. 

1.  A liderança deve enfatizar periodicamente as políticas, os padrões, os mecanismos e o intuito de permitir escalação aberta e ciclos de feedback contínuos sem retribuição. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS02-BP05 Mecanismos para solicitar adições, alterações e exceções](ops_ops_model_req_add_chg_exception.md) 

 **Documentos relacionados:** 
+  [Como você promove uma cultura de melhoria e aprendizado contínios com o Andon e os sistemas de escalação?](https://www.linkedin.com/advice/0/how-do-you-foster-culture-continuous-improvement-7054190310033145857) 
+  [O Andon Cord (revolução da TI)](https://itrevolution.com/articles/kata/) 
+  [Orientação de DevOps da AWS](https://docs.aws.amazon.com/wellarchitected/latest/devops-guidance/oa.bcl.5-establish-clear-escalation-paths-and-encourage-constructive-disagreement.html) \$1 Estabelecer caminhos claros de escalação e incentivar discordâncias construtivas 

 **Vídeos relacionados:** 
+  [Jeff Bezos fala sobre como tomar decisões (e aumentar a velocidade)](https://www.youtube.com/watch?v=VFwCGECvq4I) 
+  [Sistema de produtos Toyota: interrupção da produção, um botão e um quadro elétrico Andon](https://youtu.be/TUKpxjAftnk?si=qohtCCX0q78GDzJu) 
+  [Andon Cord na manufatura LEAN](https://youtu.be/HshopyQk720?si=1XJkpCSqJSpk_zE6) 

 **Exemplos relacionados:** 
+  [Como trabalhar com planos de escalação no Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html) 

# OPS03-BP04 Comunicações rápidas, claras e acionáveis
<a name="ops_org_culture_effective_comms"></a>

 A liderança é responsável pela criação de comunicações fortes e eficazes, especialmente quando a organização adota novas estratégias, tecnologias ou formas de trabalhar. Os líderes precisam estabelecer expectativas para que todos os funcionários trabalhem de acordo com os objetivos da empresa. Desenvolva mecanismos de comunicação que criem e mantenham a conscientização entre as equipes responsáveis pela execução de planos financiados e patrocinados pela liderança. Faça uso da diversidade interorganizacional e ouça atentamente vários pontos de vista exclusivos. Use essa abordagem para aumentar a inovação, desafiar suas suposições e reduzir o risco de viés de confirmação. Promova a inclusão, a diversidade e a acessibilidade em suas equipes para ter pontos de vista benéficos. 

 **Resultado desejado:** sua organização cria estratégias de comunicação para lidar com o impacto da mudança na organização. As equipes permanecem informadas e motivadas para continuar trabalhando umas com as outras, e não umas contra as outras. Os indivíduos entendem a importância de seu papel para concretizar os objetivos declarados. O e-mail é apenas um mecanismo passivo de comunicação e é usado adequadamente. A gerência passa tempo com seus colaboradores individuais para ajudá-los a entender suas responsabilidades, as tarefas a serem concluídas e como o trabalho contribui para a missão geral. Quando necessário, os líderes engajam as pessoas diretamente em locais menores para transmitir mensagens e verificar se essas mensagens estão sendo entregues de forma eficaz. Como resultado de boas estratégias de comunicação, a organização tem uma performance igual ou superior às expectativas da liderança. A liderança incentiva e busca opiniões diversas dentro e entre as equipes. 

 **Práticas comuns que devem ser evitadas:** 
+  Sua organização tem um plano de cinco anos para migrar todas as workloads para a AWS. O caso comercial da nuvem inclui a modernização de 25% de todas as workloads para aproveitar a tecnologia sem servidor. O diretor executivo de informação comunica essa estratégia aos subordinados diretos e espera que cada líder transmita essa apresentação em cascata para gerentes, diretores e colaboradores individuais sem nenhuma comunicação pessoal. O diretor executivo de informação recua e espera que a organização execute a nova estratégia. 
+  A liderança não fornece nem usa um mecanismo de feedback, aumentando a lacuna de expectativas, o que causa a paralisação dos projetos. 
+  Você deve fazer uma alteração em seus grupos de segurança, mas não recebe detalhes sobre qual alteração precisa ser feita, qual pode ser o impacto da mudança em todas as workloads e quando ela deve ocorrer. O gerente encaminha um e-mail do vice-presidente de segurança da informação e adiciona a mensagem "Faça isso acontecer". 
+  Foram feitas alterações em sua estratégia de migração que reduziram a taxa de modernização planejada de 25% para 10%. Isso tem efeitos subsequentes na organização de operações. A organização não foi informada dessa mudança estratégica e, portanto, não está preparada com capacidade qualificada suficiente para comportar um número maior de workloads movidas sem alterações (lift-and-shift) para a AWS. 

 **Benefícios de implementar esta prática recomendada:** 
+  Sua organização está bem informada sobre estratégias novas ou alteradas e age adequadamente, com forte motivação para ajudar umas às outras a alcançar os objetivos gerais e as métricas definidas pela liderança. 
+  Mecanismos existem e são usados para fornecer avisos oportunos aos membros da equipe sobre riscos conhecidos e eventos planejados. 
+  Novas formas de trabalhar (incluindo mudanças nas pessoas ou na organização, nos processos ou na tecnologia), além das habilidades necessárias, são adotadas de forma mais eficaz pela organização, que recebe os benefícios comerciais mais rapidamente. 
+  Os membros da equipe têm o contexto necessário para que as comunicações sejam recebidas e podem ser mais eficazes no trabalho. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Para implementar essa prática recomendada, você precisa trabalhar com as partes interessadas na organização para ajustar padrões de comunicação. Divulgue esses padrões para toda a organização. Para qualquer transição significativa de TI, uma equipe de planejamento estabelecida pode gerenciar melhor o impacto da mudança no pessoal do que uma organização que ignora essa prática. Para organizações maiores, o gerenciamento de mudanças pode ser mais desafiador, pois é fundamental estabelecer uma forte adesão a uma nova estratégia junto a todos os colaboradores individuais. Na ausência dessa equipe de planejamento de transição, a liderança é totalmente responsável pela comunicação eficaz. Ao estabelecer uma equipe de planejamento de transição, designe membros da equipe para trabalhar com toda a liderança organizacional a fim de definir e gerenciar a comunicação eficaz em todos os níveis. 

 **Exemplo de cliente** 

 A AnyCompany Retail se inscreveu no Enterprise Support da AWS e depende de outros fornecedores terceirizados para suas operações na nuvem. A empresa usa chat e chatops como principal meio de comunicação para atividades operacionais. Alertas e outras informações são divulgados em canais específicos. Quando alguém precisa agir, essa pessoa expressa claramente o resultado desejado, e, em muitos casos, recebe um runbook ou playbook para uso nessas situações. As pessoas programam alterações importantes em sistemas de produção com um calendário de alterações. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  Estabeleça uma equipe central na organização que tenha a responsabilidade de criar e iniciar planos de comunicação para mudanças que ocorrem em vários níveis dentro da organização. 

1.  Institua a propriedade de um único segmento para obter supervisão. Dê às equipes individuais a capacidade de inovar de forma independente e contrabalance o uso de mecanismos consistentes, o que permite o nível certo de inspeção e visão direcional. 

1.  Trabalhe com as partes interessadas em toda a organização para chegar a um acordo acerca de padrões, práticas e planos de comunicação. 

1.  Verifique se a equipe principal de comunicação colabora com a liderança organizacional e do programa para criar mensagens para a equipe apropriada em nome dos líderes. 

1.  Crie mecanismos estratégicos de comunicação para gerenciar mudanças por meio de anúncios, calendários compartilhados, reuniões gerais e métodos presenciais ou individuais, para que os membros da equipe tenham expectativas adequadas sobre as ações que devem realizar. 

1.  Forneça o contexto, os detalhes e o tempo necessários (quando possível) para determinar se a ação é necessária. Quando uma ação for necessária, comunique-a junto com seu impacto. 

1.  Implemente ferramentas que facilitem a comunicação tática, como chat interno, e-mail e gerenciamento de conhecimentos. 

1.  Implemente mecanismos para medir e verificar se todas as comunicações geram os resultados desejados. 

1.  Estabeleça um ciclo de feedback que avalie a eficácia de todas as comunicações, especialmente quando elas estão relacionadas à resistência a mudanças em toda a organização. 

1.  Para todas as Contas da AWS, estabeleça [contatos alternativos](https://docs.aws.amazon.com/accounts/latest/reference/manage-acct-update-contact-alternate.html) para faturamento, segurança e operações. Idealmente, cada contato deve ser uma distribuição de e-mail em vez de um contato individual específico. 

1.  Estabeleça um plano de comunicação de escalação (inclusive escalação reversa) para interagir com as equipes internas e externas, incluindo suporte da AWS e outros fornecedores terceirizados. 

1.  Inicie e execute estratégias de comunicação de forma consistente ao longo da vida de cada programa de transformação. 

1.  Priorize ações que possam ser repetidas sempre que possível para automatizar com segurança em grande escala. 

1.  Quando a comunicação é necessária em cenários com ações automatizadas, o objetivo da comunicação deve ser informar as equipes para auditoria ou fazer parte do processo de gerenciamento de mudanças. 

1.  Analise as comunicações de seus sistemas de alerta em busca de falsos positivos ou alertas que são criados constantemente. Remova ou altere esses alertas para que eles sejam acionados quando há necessidade de intervenção humana. Se um alerta for acionado, forneça um runbook ou um playbook. 

   1.  Você pode usar os [Documentos do AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/sysman-ssm-docs.html) para criar playbooks e runbooks para alertas. 

1.  Mecanismos estão em vigor para fornecer notificações de riscos ou eventos planejados de maneira clara e acionável com aviso prévio em tempo suficiente para permitir respostas apropriadas. Use listas de e-mails ou canais por chat para enviar notificações antes dos eventos planejados. 

   1.  O [AWS Chatbot](https://docs.aws.amazon.com/chatbot/latest/adminguide/what-is.html) pode ser usado para enviar alertas e responder a eventos na plataforma de mensagens da sua organização. 

1.  Forneça uma fonte de informações acessível em que eventos planejados possam ser descobertos. Forneça notificações de eventos planejados provenientes do mesmo sistema. 

   1.  O [Calendário de Alterações do AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-change-calendar.html) pode ser usado para criar janelas de alteração quando mudanças podem ocorrer. Isso oferece aos membros da equipe um aviso prévio sobre quando eles podem fazer alterações com segurança. 

1.  Monitore notificações de vulnerabilidade e informações de patches para identificar vulnerabilidades nos riscos reais e potenciais associados aos componentes da workload. Forneça uma notificação aos membros da equipe para que eles possam agir. 

   1.  Você pode assinar os [Boletins de Segurança da AWS](https://aws.amazon.com/security/security-bulletins/) para receber notificações de vulnerabilidades na AWS. 

1.  **Busque opiniões e perspectivas diversas:** incentive as contribuições de todos. Ofereça oportunidades de comunicação a grupos sub-representados. Alterne as funções e responsabilidades nas reuniões. 

   1.  **Expanda as funções e responsabilidades:** ofereça oportunidade para que os membros da equipe assumam funções que não poderiam assumir de outra forma. Eles poderão ganhar experiência e perspectiva com a função e com as interações com novos membros da equipe com os quais não interagiriam de outra forma. Eles levarão a experiência e o ponto de vista deles para a nova função e para os membros da equipe com os quais interagirem. À medida que a perspectiva aumenta, identifique oportunidades de negócios emergentes ou novas oportunidades de melhoria. Reveze tarefas comuns entre os membros de uma equipe que outras pessoas normalmente realizam para compreender as demandas e o impacto de realizá-las. 

   1.  **Forneça um ambiente seguro e acolhedor:** estabeleça políticas e controles que protejam a segurança física e mental dos membros da equipe em sua organização. Os membros da equipe devem poder interagir sem medo de sofrer represálias. Quando eles se sentem seguros e bem-vindos, as chances de se envolverem e serem produtivos também aumenta. Quanto mais diversificada sua organização, melhor será o entendimento das pessoas que você apoia, incluindo seus clientes. Quando os membros da equipe estiverem confortáveis, sentirem-se à vontade para falar e tiverem confiança de que serão ouvidos, será mais provável que compartilhem ideias valiosas (por exemplo, oportunidades de marketing, necessidades de acessibilidade, segmentos de mercado não atendidos, riscos não reconhecidos no seu ambiente). 

   1.  **Estimule os membros da equipe a participar:** forneça os recursos necessários para que seus funcionários participem totalmente de todas as atividades relacionadas ao trabalho. Os membros da equipe que enfrentam desafios diários desenvolvem habilidades para contorná-los. Essas habilidades desenvolvidas exclusivamente podem oferecer benefícios significativos para a sua organização. Apoie os membros da equipe com as acomodações necessárias para aumentar os benefícios que você poderá receber das contribuições de cada um. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS03-BP01 Fornecer patrocínio executivo](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_executive_sponsor.html) 
+  [OPS07-BP03 Usar runbooks para realizar procedimentos](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ready_to_support_use_runbooks.html) 
+  [OPS07-BP04 Usar playbooks para investigar problemas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ready_to_support_use_playbooks.html) 

 **Documentos relacionados:** 
+  [Publicação no blog da AWS \$1 Responsabilidade e capacitação são fundamentais para organizações ágeis de alta performance](https://aws.amazon.com/blogs/enterprise-strategy/two-pizza-teams-are-just-the-start-accountability-and-empowerment-are-key-to-high-performing-agile-organizations-part-2/) 
+  [AWS Executive Insights \$1 Aprenda a escalar a inovação, não a complexidade \$1 Líderes de segmento único](https://aws.amazon.com/executive-insights/content/amazon-two-pizza-team/#Single-Threaded_Leaders) 
+  [Boletins de segurança da AWS](https://aws.amazon.com/security/security-bulletins) 
+  [Open CVE](https://www.opencve.io/welcome) 
+  [Aplicação Suporte no Slack para gerenciar casos de suporte](https://aws.amazon.com/blogs/aws/new-aws-support-app-in-slack-to-manage-support-cases/) 
+  [Manage AWS resources in your Slack channels with Amazon Q Developer in chat applications](https://aws.amazon.com/blogs/mt/manage-aws-resources-in-your-slack-channels-with-aws-chatbot/) 

 **Serviços relacionados:** 
+  [Amazon Q Developer em aplicações de chat](https://docs.aws.amazon.com/chatbot/latest/adminguide/what-is.html) 
+  [AWS Calendário de Alterações do Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-change-calendar.html) 
+  [AWS Documentos do Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/sysman-ssm-docs.html) 

# OPS03-BP05 Incentivo à experimentação
<a name="ops_org_culture_team_enc_experiment"></a>

A experimentação é um catalisador para transformar novas ideias em produtos e recursos. Ela acelera o aprendizado e mantém os membros da equipe interessados e envolvidos. Os membros da equipe são incentivados a experimentar com frequência para promover a inovação. Mesmo quando um resultado indesejado ocorre, é importante saber o que não se deve fazer. Os membros da equipe não são punidos por experimentos bem-sucedidos com resultados indesejados. 

 **Resultado desejado:** 
+  Sua organização incentiva a experimentação para promover a inovação. 
+  Os experimentos são usados como oportunidade de aprendizado. 

 **Práticas comuns que devem ser evitadas:** 
+  Você deseja executar um teste A/B, mas não há nenhum mecanismo para conduzir o experimento. Você implanta uma alteração de interface do usuário sem a possibilidade de testá-la. O resultado é uma experiência negativa para o cliente. 
+  Sua empresa tem apenas o ambiente de preparação e produção. Como não há ambiente de sandbox para experimentar novos recursos ou produtos, os experimentos devem ser realizados no ambiente de produção. 

 **Benefícios de implementar esta prática recomendada:** 
+  A experimentação promove a inovação. 
+  É possível reagir mais depressa ao feedback dos usuários por meio da experimentação. 
+  Sua organização desenvolve uma cultura de aprendizado. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Os experimentos devem ser conduzidos de maneira segura. Utilize vários ambientes para experimentar, sem colocar em risco os recursos da produção. Use testes A/B e sinalizadores de recursos para testar experimentos. Ofereça aos membros da equipe a possibilidade de conduzir experimentos em um ambiente de sandbox. 

 **Exemplo de cliente** 

 A AnyCompany Retail estimula a experimentação. Os membros da equipe podem usar 20% da semana de trabalho para experimentar ou aprender novas tecnologias. Eles têm um ambiente de sandbox no qual podem inovar. Testes A/B são usados para novos recursos com o objetivo de validá-los com um feedback de usuário real. 

 **Etapas de implementação** 

1.  Trabalhe com a liderança em toda a sua organização para favorecer a experimentação. Os membros da equipe devem ser incentivados a conduzir experimentos de maneira segura. 

1.  Ofereça aos membros da equipe um ambiente em que eles possa experimentar com segurança. Eles devem ter acesso a um ambiente semelhante ao de produção. 

   1.  Você pode usar uma Conta da AWS separada para criar um ambiente de sandbox para experimentação. O [AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/what-is-control-tower.html)pode ser usado para provisionar essas contas. 

1.  Use sinalizadores de recursos e testes A/B para experimentar com segurança e coletar feedback dos usuários. 

   1.  O [AWS AppConfig Feature Flags](https://docs.aws.amazon.com/appconfig/latest/userguide/what-is-appconfig.html) permite criar sinalizadores de recursos. 

   1.  Você pode usar [versões do AWS Lambda](https://docs.aws.amazon.com/lambda/latest/dg/configuration-versions.html) para implantar uma nova versão de uma função para testes beta. 

 **Nível de esforço do plano de implementação:** Alto. A viabilização de um ambiente para experimentação de maneira segura para os membros da equipe conduzirem experimentos pode exigir um investimento significativo. Você também pode precisar modificar o código da aplicação para usar sinalizadores de recursos ou respaldar testes A/B. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS11-BP02 Executar análise pós-incidente](ops_evolve_ops_perform_rca_process.md): aprender com os incidentes é um fator importante para a inovação junto com a experimentação. 
+  [OPS11-BP03 Implementar loops de feedback](ops_evolve_ops_feedback_loops.md): os ciclos de feedback são uma parte importante da experimentação. 

 **Documentos relacionados:** 
+ [Um olhar interno sobre a cultura da Amazon: experimentação, fracasso e obsessão pelo cliente](https://aws.amazon.com/blogs/industries/an-inside-look-at-the-amazon-culture-experimentation-failure-and-customer-obsession/)
+ [Práticas recomendadas para criar e gerenciar contas de sandbox na AWS](https://aws.amazon.com/blogs/mt/best-practices-creating-managing-sandbox-accounts-aws/)
+ [Criar uma cultura de experimentação viabilizada pela nuvem](https://aws.amazon.com/blogs/enterprise-strategy/create-a-culture-of-experimentation-enabled-by-the-cloud/)
+ [Possibilitar a experimentação e a inovação na nuvem na SulAmérica Seguros](https://aws.amazon.com/blogs/mt/enabling-experimentation-and-innovation-in-the-cloud-at-sulamerica-seguros/)
+ [Experimentar mais, falhar menos](https://aws.amazon.com/blogs/enterprise-strategy/experiment-more-fail-less/)
+ [Organizar seu ambiente da AWS usando várias contas: UO de sandbox](https://docs.aws.amazon.com/whitepapers/latest/organizing-your-aws-environment/sandbox-ou.html)
+ [Usar AWS AppConfig Feature Flags](https://aws.amazon.com/blogs/mt/using-aws-appconfig-feature-flags/)

 **Vídeos relacionados:** 
+ [Destaque da AWS On Air: Amazon CloudWatch Evidently \$1 AWS Eventos ](https://www.youtube.com/watch?v=ydX7lRNKAOo)
+ [Destaque da AWS On Air San Fran Summit 2022: Integração do AWS AppConfig Feature Flags ao Jira](https://www.youtube.com/watch?v=miAkZPtjqHg)
+ [AWS re:Invent 2022: Uma implantação não é uma versão: controle seus lançamentos com sinalizadores de recursos (BOA305-R)](https://www.youtube.com/watch?v=uouw9QxVrE8)
+ [Criar programaticamente uma Conta da AWS com o AWS Control Tower](https://www.youtube.com/watch?v=LxxQTPdSFgw)
+ [Configurar um ambiente da AWS com várias contas que use práticas recomendadas para o AWS Organizations](https://www.youtube.com/watch?v=uOrq8ZUuaAQ)

 **Exemplos relacionados:** 
+ [AWS Innovation Sandbox ](https://aws.amazon.com/solutions/implementations/aws-innovation-sandbox/)
+ [Princípio básico de personalização ponta a ponta para comércio eletrônico](https://catalog.workshops.aws/personalize-101-ecommerce/en-US/labs/ab-testing)

 **Serviços relacionados:** 
+  [Amazon CloudWatch Evidently](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Evidently.html) 
+  [AWS AppConfig](https://docs.aws.amazon.com/appconfig/latest/userguide/what-is-appconfig.html) 
+  [AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/what-is-control-tower.html) 

# OPS03-BP06 Os membros da equipe são incentivados a manter e a aumentar seus conjuntos de habilidades.
<a name="ops_org_culture_team_enc_learn"></a>

 As equipes devem aumentar os conjuntos de habilidades para adotar novas tecnologias e apoiar mudanças na demanda e responsabilidades no apoio às suas workloads. O desenvolvimento das habilidades em novas tecnologias costuma ser uma fonte de satisfação dos membros da equipe e contribui para a inovação. Ofereça apoio aos membros da equipe na busca e atualização de certificações do setor que validem e reconheçam as suas habilidades crescentes. Treine profissionais em diferentes funções para promover a transferência de conhecimento e reduzir o risco de impacto significativo quando você perde membros da equipe qualificados e experientes com conhecimento institucional. Reserve tempo estruturado e dedicado para o aprendizado. 

 A AWS fornece recursos, incluindo o [Centro de recursos de conceitos básicos da AWS](https://aws.amazon.com/getting-started/), [Blogs da AWS](https://aws.amazon.com/blogs/), [AWS Online Tech Talks](https://aws.amazon.com/getting-started/), [Eventos e webinars da AWS](https://aws.amazon.com/events/) e os [Laboratórios do AWS Well-Architected](https://wellarchitectedlabs.com/) que oferecem orientação, exemplos e demonstrações detalhadas para ajudar a treinar suas equipes. 

 Recursos como o [Suporte](https://aws.amazon.com/premiumsupport/programs/), ([AWS re:Post](https://repost.aws/), [Suporte Center](https://console.aws.amazon.com/support/home/)) e [documentação da AWS](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) ajudam a remover obstáculos técnicos e melhorar as operações. Entre em contato com o Suporte por meio do Suporte Center para obter ajuda para suas dúvidas. 

 A AWS também compartilha práticas recomendadas e padrões que aprendemos com a operação da AWS na [Amazon Builders' Library](https://aws.amazon.com/builders-library/) e uma grande variedade de outros materiais educacionais úteis por meio do [Blog da AWS](https://aws.amazon.com/blogs/) e do [Podcast oficial da AWS](https://aws.amazon.com/podcasts/aws-podcast/). 

 A [Treinamento da AWS and Certification](https://aws.amazon.com/training/) inclui treinamento gratuito por meio de cursos digitais individualizados, além de planos de aprendizado por função ou domínio. Você também pode se inscrever em treinamento administrado por instrutor a fim de oferecer suporte adicional às suas equipes para o desenvolvimento de habilidades em serviços da AWS. 

 **Resultado desejado:** sua organização avalia constantemente as lacunas de habilidades e as preenche com orçamento e investimento estruturados. As equipes incentivam os membros com atividades de aprimoramento, como a aquisição de certificações importantes do setor. As equipes aproveitam programas dedicados de compartilhamento cruzado de conhecimentos, como eventos de almoço, dias de imersão, hackathons e game days. Sua organização mantém os sistemas de conhecimento atualizados e relevantes para treinar os membros da equipe, incluindo treinamentos de integração para novos contratados. 

 **Práticas comuns que devem ser evitadas:** 
+  Na ausência de um programa de treinamento e orçamento estruturados, as equipes enfrentam incertezas ao tentar acompanhar a evolução da tecnologia, o que causa maior desgaste. 
+  Como parte da migração para a AWS, sua organização demonstra lacunas de habilidades e fluência variável na nuvem entre as equipes. Sem um esforço para aprimorar as habilidades, as equipes se veem sobrecarregadas com o gerenciamento herdado e ineficiente do ambiente de nuvem, o que causa maior esforço do operador. Esse esgotamento aumenta a insatisfação dos funcionários. 

 **Benefícios de implementar esta prática recomendada:** quando sua organização investe conscientemente no aprimoramento das habilidades de suas equipes, ela também ajuda a acelerar e escalar a adoção e a otimização da nuvem. Programas de aprendizado direcionados promovem a inovação e desenvolvem a capacidade operacional para que as equipes se preparem para lidar com eventos. As equipes investem conscientemente na implementação e na evolução das práticas recomendadas. O moral da equipe é alto e os membros valorizam a contribuição deles para os negócios. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Para adotar novas tecnologias, estimular a inovação e acompanhar as mudanças na demanda e nas responsabilidades para apoiar suas workloads, invista continuamente no crescimento profissional de suas equipes. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  **Use programas estruturados de defesa da nuvem:** o [AWS Skills Guild](https://aws.amazon.com/training/teams/aws-skills-guild/) oferece treinamento consultivo para aumentar a confiança nas habilidades de nuvem e estimular a cultura de aprendizado contínuo. 

1.  **Forneça recursos didáticos:** ofereça tempo estruturado dedicado, acesso a materiais de treinamento, recursos de laboratório e apoio à participação em conferências e organizações profissionais que propiciem oportunidades de aprendizado com educadores e colegas. Forneça aos membros da sua equipe júnior acesso aos membros seniores da equipe como mentores ou permita que os membros da equipe júnior acompanhem o trabalho dos seniores e sejam expostos a seus métodos e habilidades. Incentive o aprendizado sobre conteúdo não diretamente relacionado ao trabalho para ter uma perspectiva mais ampla. 

1.  **Incentive o uso de recursos técnicos especializados:** aproveite recursos como o [AWS re:POST](https://repost.aws/) para ter acesso a conhecimento selecionado e a uma comunidade vibrante. 

1.  **Crie e mantenha um repositório de conhecimento atualizado:** use plataformas de compartilhamento de conhecimento, como wikis e runbooks. Crie sua própria fonte de conhecimento especializado reutilizável com o [AWS re:Post Private](https://aws.amazon.com/repost-private/) para otimizar a colaboração, melhorar a produtividade e acelerar a integração de funcionários. 

1.  **Aprendizado em equipe e engajamento entre equipes:** planeje as necessidades de aprendizado contínuo dos membros da sua equipe. Ofereça oportunidades para que os membros da equipe se juntem a outras equipes (temporária ou permanentemente) para compartilhar habilidades e práticas recomendadas que beneficiam toda a organização. 

1.  **Ofereça suporte à busca e à manutenção de certificações do setor:** forneça apoio aos membros da equipe que conquistam e mantêm certificações do setor que validam o que aprenderam e reconheça as conquistas deles. 

 **Nível de esforço do plano de implementação:** Alto 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS03-BP01 Fornecer patrocínio executivo](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_executive_sponsor.html) 
+  [OPS11-BP04 Gerenciar o conhecimento](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_knowledge_management.html) 

 **Documentos relacionados:** 
+  [Whitepaper da AWS \$1 Framework de adoção da nuvem: perspectiva das pessoas](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-people-perspective/aws-caf-people-perspective.html) 
+  [Investir em aprendizado contínuo para expandir o futuro da sua organização](https://aws.amazon.com/blogs/publicsector/investing-continuous-learning-grow-organizations-future/) 
+  [AWS Skills Guild](https://aws.amazon.com/training/teams/aws-skills-guild/) 
+  [Treinamento da AWS e certificação](https://aws.amazon.com/training/) 
+  [Suporte](https://aws.amazon.com/premiumsupport/programs/) 
+  [AWS re:Post](https://repost.aws/) 
+  [Centro de recursos de conceitos básicos da AWS](https://aws.amazon.com/getting-started/) 
+  [Blogs da AWS](https://aws.amazon.com/blogs/) 
+  [Nuvem AWS Compliance](https://aws.amazon.com/compliance/) 
+  [AWS documentação da](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+  [Podcast oficial da AWS](https://aws.amazon.com/podcasts/aws-podcast/) 
+  [AWS Online Tech Talks](https://aws.amazon.com/getting-started/) 
+  [Eventos e webinars da AWS](https://aws.amazon.com/events/) 
+  [Laboratórios do AWS Well-Architected](https://wellarchitectedlabs.com/) 
+  [Amazon Builders' Library](https://aws.amazon.com/builders-library/) 

 **Vídeos relacionados:** 
+  [AWS re:Invent 2023 \$1 Requalificar na velocidade da nuvem: transformar funcionários em empreendedores](https://www.youtube.com/watch?v=Ax7JqIDIXEY) 
+  [AWS re:Invent 2023 \$1 Construir uma cultura de curiosidade por meio da gamificação](https://www.youtube.com/watch?v=EqWvSBAmD3w) 

# OPS03-BP07 Fornecer recursos adequados às equipes
<a name="ops_org_culture_team_res_appro"></a>

 Forneça a quantidade certa de membros proficientes da equipe, além de ferramentas e recursos para atender às necessidades da workload. Sobrecarregar os membros da equipe aumenta o risco de erro humano. Investimentos em ferramentas e recursos, como automação, podem aumentar a eficácia da equipe e ajudá-la a comportar um número maior de workloads sem exigir capacidade adicional. 

 **Resultado desejado:** 
+  Você contratou adequadamente sua equipe para ter as habilidades necessárias para operar workloads na AWS de acordo com o plano de migração. À medida que sua equipe aumentou ao longo do projeto de migração, ela adquiriu proficiência nas principais tecnologias da AWS que a empresa planeja usar ao migrar ou modernizar as aplicações. 
+  Você alinhou cuidadosamente seu plano de pessoal para fazer uso eficiente dos recursos, utilizando automação e fluxos de trabalho. Agora, uma equipe menor pode gerenciar uma maior infraestrutura em nome das equipes de desenvolvimento de aplicações. 
+  Com a mudança das prioridades operacionais, quaisquer restrições de pessoal são identificadas proativamente para proteger o sucesso das iniciativas de negócios. 
+  As métricas operacionais que relatam o esforço operacional (como fadiga de plantão ou chamadas em excesso) são revisadas para verificar se a equipe não está sobrecarregada. 

 **Práticas comuns que devem ser evitadas:** 
+  Sua equipe não aprimorou as habilidades da AWS ao concluir o plano plurianual de migração para a nuvem, o que arrisca o suporte das workloads e reduz o moral dos funcionários. 
+  Toda a sua organização de TI está adotando formas ágeis de trabalhar. A empresa está priorizando o portfólio de produtos e definindo métricas para quais recursos precisam ser desenvolvidos primeiro. Seu processo ágil não exige que as equipes atribuam “story points” aos planos de trabalho. Como resultado, é impossível saber o nível de capacidade necessário para a próxima quantidade de trabalho ou se você tem as habilidades certas atribuídas a ele. 
+  Um parceiro da AWS está migrando suas workloads e você não tem um plano de transição de suporte para suas equipes depois que o parceiro concluir o projeto de migração. Suas equipes têm dificuldade para oferecer suporte às workloads de forma eficiente. 

 **Benefícios de implementar esta prática recomendada:** você tem membros da equipe devidamente qualificados disponíveis em sua organização para acomodar as workloads. A alocação de recursos pode se adaptar às mudanças de prioridades sem afetar a performance. O resultado é que as equipes são proficientes em oferecer suporte às workloads e, ao mesmo tempo, maximizar o tempo de foco na inovação para os clientes, o que, por sua vez, aumenta a satisfação dos funcionários. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 O planejamento de recursos para sua migração para a nuvem deve ocorrer em um nível organizacional alinhado ao plano de migração, bem como ao modelo operacional desejado que está sendo implementado para comportar o novo ambiente de nuvem. Isso deve incluir a compreensão de quais tecnologias de nuvem são implantadas para as equipes de desenvolvimento de aplicações e negócios. A liderança em infraestrutura e operações deve planejar a análise de lacunas de habilidades, o treinamento e a definição de funções para engenheiros que lideram a adoção da nuvem. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  Defina critérios para o sucesso da equipe com métricas operacionais relevantes, como produtividade da equipe (por exemplo, custo para comportar uma workload ou horas gastas pelo operador durante incidentes). 

1.  Defina mecanismos de planejamento e inspeção da capacidade de recursos para verificar se o equilíbrio certo de capacidade qualificada está disponível quando necessário e pode ser ajustado ao longo do tempo. 

1.  Crie mecanismos (por exemplo, enviar uma pesquisa mensal às equipes) para entender os desafios relacionados ao trabalho que afetam as equipes (como aumento de responsabilidades, mudanças na tecnologia, perda de pessoal ou aumento de clientes atendidos). 

1.  Use esses mecanismos para interagir com equipes e identificar tendências que possam contribuir para os desafios de produtividade dos funcionários. Quando suas equipes forem afetadas por fatores externos, reavalie os objetivos e ajuste as metas conforme apropriado. Identifique os obstáculos que estão impedindo o progresso das equipes. 

1.  Analise regularmente se os recursos atualmente provisionados ainda são suficientes e se são necessários recursos adicionais e, em seguida, faça os ajustes apropriados nas equipes de suporte. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS03-BP06 Os membros da equipe são incentivados a manter e a aumentar seus conjuntos de habilidades](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_team_enc_learn.html) 
+  [OPS09-BP03 Revisar as métricas operacionais e priorizar a melhoria](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_review_ops_metrics_prioritize_improvement.html) 
+  [OPS10-BP01 Usar um processo para gerenciamento de eventos, incidentes e problemas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_event_incident_problem_process.html) 
+  [OPS10-BP07 Automatizar respostas a eventos](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_auto_event_response.html) 

 **Documentos relacionados:** 
+  [Nuvem AWS Adoption Framework: perspectiva das pessoas](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-people-perspective/aws-caf-people-perspective.html) 
+  [Como se tornar uma empresa pronta para o futuro](https://aws.amazon.com/blogs/enterprise-strategy/becoming-a-future-ready-enterprise/) 
+  [Priorizar as capacidades dos funcionários para impulsionar o crescimento dos negócios](https://aws.amazon.com/executive-insights/content/prioritize-your-employees-skills-to-drive-business-growth/) 
+  [Organização de alta performance: a equipe de duas pizzas da Amazon](https://aws.amazon.com/executive-insights/content/amazon-two-pizza-team/) 
+  [Como empresas maduras na nuvem são bem-sucedidas](https://aws.amazon.com/blogs/mt/how-cloud-mature-enterprises-succeed/) 

# Preparar
<a name="a-prepare"></a>

**Topics**
+ [OPS 4. Como implementar a observabilidade em sua workload?](ops-04.md)
+ [OPS 5. Como reduzir defeitos, facilitar a correção e melhorar o fluxo na produção?](ops-05.md)
+ [OPS 6. Como reduzir os riscos de implantação?](ops-06.md)
+ [OPS 7. Como saber se está tudo pronto para oferecer suporte a uma workload?](ops-07.md)

# OPS 4. Como implementar a observabilidade em sua workload?
<a name="ops-04"></a>

Implemente a observabilidade na workload para poder entender seu estado e tomar decisões baseadas em dados com base nos requisitos de negócios.

**Topics**
+ [OPS04-BP01 Identificar indicadores-chave de performance](ops_observability_identify_kpis.md)
+ [OPS04-BP02 Implementar a telemetria de aplicações](ops_observability_application_telemetry.md)
+ [OPS04-BP03 Implementar telemetria da experiência do usuário](ops_observability_customer_telemetry.md)
+ [OPS04-BP04 Implementar a telemetria de dependências](ops_observability_dependency_telemetry.md)
+ [OPS04-BP05 Implementar rastreamento distribuído](ops_observability_dist_trace.md)

# OPS04-BP01 Identificar indicadores-chave de performance
<a name="ops_observability_identify_kpis"></a>

 A implementação da observabilidade em sua workload começa com a compreensão de seu estado e a tomada de decisões baseadas em dados de acordo com os requisitos de negócios. Uma das formas mais eficazes de garantir o alinhamento entre as atividades de monitoramento e os objetivos de negócios é definir e monitorar os indicadores-chave de performance (KPIs). 

 **Resultado desejado:** práticas de observabilidade eficientes que estão estreitamente alinhadas aos objetivos de negócios, garantindo que os esforços de monitoramento estejam sempre a serviço de resultados comerciais tangíveis. 

 **Práticas comuns que devem ser evitadas:** 
+  KPIs indefinidos: trabalhar sem KPIs claros pode levar ao monitoramento excessivo ou insuficiente, fazendo com que sinais vitais possam ser perdidos. 
+  KPIs estáticos: não revisitar ou refinar os KPIs à medida que a workload ou os objetivos de negócios evoluem. 
+  Desalinhamento: foco em métricas técnicas que não se correlacionam diretamente com os resultados comerciais ou são mais difíceis de correlacionar com problemas do mundo real. 

 **Benefícios de implementar esta prática recomendada:** 
+  Facilidade de identificação de problemas: os KPIs de negócios geralmente mostram os problemas com mais clareza do que as métricas técnicas. Uma queda em um KPI comercial pode identificar um problema com mais eficiência do que analisar várias métricas técnicas. 
+  Alinhamento comercial: garante que as atividades de monitoramento apoiem diretamente os objetivos de negócios. 
+  Eficiência: priorize os recursos de monitoramento e a atenção nas métricas que importam. 
+  Proatividade: reconheça e resolva os problemas antes que eles tenham implicações comerciais mais amplas. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Para definir com eficácia os KPIs da workload: 

1.  **Comece com os resultados comerciais:** antes de mergulhar nas métricas, entenda o resultado comercial desejado. É sobre aumento de vendas, maior engajamento do usuário ou tempos de resposta mais rápidos? 

1.  **Correlacione métricas técnicas com objetivos de negócios:** nem todas as métricas técnicas têm impacto direto nos resultados comerciais. Identifique aquelas que têm, mas muitas vezes é mais fácil identificar um problema usando um KPI comercial. 

1.  **Use o [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html):** utilize o CloudWatch para definir e monitorar métricas que representam seus KPIs. 

1.  **Revise e atualize regularmente os KPIs:** à medida que sua workload e seus negócios evoluem, mantenha seus KPIs relevantes. 

1.  **Envolva as partes interessadas:** envolva as equipes técnicas e comerciais na definição e revisão dos KPIs. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+ [OPS04-BP02 Implementar a telemetria de aplicações](ops_observability_application_telemetry.md)
+ [OPS04-BP03 Implementar telemetria da experiência do usuário](ops_observability_customer_telemetry.md)
+ [OPS04-BP04 Implementar a telemetria de dependências](ops_observability_dependency_telemetry.md)
+ [OPS04-BP05 Implementar rastreamento distribuído](ops_observability_dist_trace.md)

 **Documentos relacionados:** 
+ [Práticas recomendadas de observabilidade da AWS](https://aws-observability.github.io/observability-best-practices/)
+ [Guia do usuário do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html)
+ [Curso de desenvolvimento de habilidades de observabilidade da AWS](https://explore.skillbuilder.aws/learn/course/external/view/elearning/14688/aws-observability)

 **Vídeos relacionados:** 
+ [Desenvolver de uma estratégia de observabilidade](https://www.youtube.com/watch?v=Ub3ATriFapQ)

 **Exemplos relacionados:** 
+  [Workshop One Observability](https://catalog.workshops.aws/observability/en-US) 

# OPS04-BP02 Implementar a telemetria de aplicações
<a name="ops_observability_application_telemetry"></a>

 A telemetria de aplicações serve como base para a observabilidade da workload. É fundamental emitir uma telemetria que ofereça informações práticas sobre o estado da sua aplicação e a obtenção de resultados técnicos e comerciais. Da solução de problemas à medição do impacto de um novo recurso ou à garantia do alinhamento com os indicadores-chave de performance (KPIs) de negócios, a telemetria de aplicações informa a maneira como você cria, opera e desenvolve sua workload. 

 Métricas, logs e rastreamentos formam os três pilares principais da observabilidade. Eles servem como ferramentas de diagnóstico que descrevem o estado de sua aplicação. Com o tempo, eles auxiliam na criação de linhas de base e na identificação de anomalias. No entanto, para garantir o alinhamento entre as atividades de monitoramento e os objetivos de negócios, é fundamental definir e monitorar os KPIs. Os KPIs de negócios geralmente facilitam a identificação de problemas em comparação com métricas técnicas isoladas. 

 Outros tipos de telemetria, como monitoramento de usuários reais (RUM) e transações sintéticas, complementam essas fontes de dados primárias. O RUM oferece informações sobre as interações do usuário em tempo real, enquanto as transações sintéticas simulam possíveis comportamentos do usuário, ajudando a detectar gargalos antes que usuários reais os encontrem. 

 **Resultado desejado:** obtenha insights acionáveis sobre a performance da sua workload. Esses insights permitem que você tome decisões proativas sobre otimização de performance, tenha maior estabilidade da workload, simplifique os processos de CI/CD e utilize recursos de forma eficaz. 

 **Práticas comuns que devem ser evitadas:** 
+  **Observabilidade incompleta:** negligência da incorporação da observabilidade em todas as camadas da workload, resultando em pontos cegos que podem obscurecer insights vitais sobre performance e comportamento do sistema. 
+  **Visualização fragmentada dos dados:** quando os dados estão espalhados por várias ferramentas e sistemas, torna-se difícil manter uma visão holística da integridade e da performance da sua workload. 
+  **Problemas relatados pelo usuário:** um sinal de que falta a detecção proativa de problemas por meio da telemetria e do monitoramento de KPI de negócios. 

 **Benefícios de implementar esta prática recomendada:** 
+  **Tomada de decisão informada:** com insights de telemetria e KPIs de negócios, você pode tomar decisões baseadas em dados. 
+  **Eficiência operacional aprimorada:** a utilização de recursos baseada em dados leva à redução de custos. 
+  **Estabilidade aprimorada da workload:** detecção e resolução mais rápidas de problemas, levando a um melhor tempo de atividade. 
+  **Processos racionalizados de CI/CD:** os insights dos dados de telemetria facilitam o refinamento dos processos e a entrega confiável de código. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Para implementar a telemetria de aplicações para sua workload, use serviços da AWS como o [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) e o [AWS X-Ray](https://aws.amazon.com/xray/). O Amazon CloudWatch fornece um conjunto abrangente de ferramentas de monitoramento, permitindo que você observe seus recursos e aplicações em ambientes da AWS e on-premises. Ele coleta, rastreia e analisa métricas, consolida e monitora dados de log e reage às mudanças em seus recursos, aprimorando sua compreensão de como a workload opera. Em conjunto, o AWS X-Ray permite rastrear, analisar e depurar suas aplicações, oferecendo uma compreensão profunda do comportamento da workload. Com recursos como mapas de serviços, distribuições de latência e cronogramas de rastreamento, o AWS X-Ray fornece insights sobre a performance da workload e os gargalos que a afetam. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  **Identifique quais dados coletar:** determine as métricas essenciais, os logs e os rastreamentos essenciais que ofereceriam informações substanciais sobre a integridade, a performance e o comportamento da sua workload. 

1.  **Implante o [agente do CloudWatch](https://aws.amazon.com/cloudwatch/):** o agente do CloudWatch é fundamental na aquisição de métricas do sistema e da aplicação e de logs de sua workload e de sua infraestrutura subjacente. O agente do CloudWatch também pode ser usado para coletar OpenTelemetry ou rastreamentos do X-Ray e enviá-los ao X-Ray. 

1.  **Implemente a detecção de anomalias para logs e métricas:** use a [detecção de anomalias do CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/LogsAnomalyDetection.html) e a [detecção de anomalias do CloudWatch Metrics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) para identificar automaticamente atividades incomuns nas operações da aplicação. Essas ferramentas usam algoritmos de machine learning para detectar e alertar sobre anomalias, o que aprimora os recursos de monitoramento e acelera o tempo de resposta a possíveis interrupções ou ameaças à segurança. Configure esses recursos para gerenciar proativamente a integridade e a segurança das aplicações. 

1.  **Proteja dados de log confidenciais:** use a [proteção de dados do Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/mask-sensitive-log-data.html) para mascarar informações confidenciais em seus logs. Esse recurso ajuda a manter a privacidade e a conformidade por meio da detecção automática e do mascaramento de dados confidenciais antes de serem acessados. Implemente o mascaramento de dados para tratar e proteger com segurança detalhes confidenciais, como informações de identificação pessoal (PII). 

1.  **Defina e monitore os KPIs de negócios:** estabeleça [métricas personalizadas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) que se alinhem aos seus [resultados de negócios](https://aws-observability.github.io/observability-best-practices/guides/operational/business/monitoring-for-business-outcomes/). 

1.  **Instrumente sua aplicação com o AWS X-Ray:** além de implantar o agente CloudWatch, é fundamental [instrumentar sua aplicação](https://docs.aws.amazon.com/xray/latest/devguide/xray-instrumenting-your-app.html) para emitir dados de rastreamento. Esse processo pode fornecer mais insights sobre o comportamento e a performance da workload. 

1.  **Padronize a coleta de dados em toda a sua aplicação:** padronize as práticas de coleta de dados em toda a aplicação. A uniformidade ajuda a correlacionar e analisar dados, fornecendo uma visão abrangente do comportamento da aplicação. 

1.  **Implemente a observabilidade entre contas:** aumente a eficiência do monitoramento entre várias Contas da AWS com a [observabilidade entre contas do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html). Com esse recurso, é possível consolidar métricas, logs e alarmes de contas diferentes em uma única visualização, o que simplifica o gerenciamento e melhora os tempos de resposta para problemas identificados em todo o ambiente da AWS da organização. 

1.  **Analise e aja com base em dados:** quando a coleta e a normalização dos dados estiverem implementadas, use o [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/features/) para análise de métricas e logs e o [AWS X-Ray](https://aws.amazon.com/xray/features/) para análise de rastreamento. Essa análise pode gerar informações cruciais sobre a integridade, a performance e o comportamento da workload, orientando o processo de tomada de decisão. 

 **Nível de esforço do plano de implementação:** Alto 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS04-BP01 Definir KPIs da workload](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_identify_kpis.html) 
+  [OPS04-BP03 Implementar a telemetria de atividades dos usuários](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_customer_telemetry.html) 
+  [OPS04-BP04 Implementar a telemetria de dependências](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_dependency_telemetry.html) 
+  [OPS04-BP05 Implementar a rastreabilidade das transações](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_dist_trace.html) 

 **Documentos relacionados:** 
+  [Práticas recomendadas de observabilidade da AWS](https://aws-observability.github.io/observability-best-practices/) 
+  [Guia do usuário do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 
+  [AWS X-Ray Guia do desenvolvedor](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [Instrumentar sistemas distribuídos para visibilidade operacional](https://aws.amazon.com/builders-library/instrumenting-distributed-systems-for-operational-visibility) 
+  [Curso de desenvolvimento de habilidades de observabilidade da AWS](https://explore.skillbuilder.aws/learn/course/external/view/elearning/14688/aws-observability) 
+  [Novidades do Amazon CloudWatch](https://aws.amazon.com/about-aws/whats-new/management-and-governance/?whats-new-content.sort-by=item.additionalFields.postDateTime&whats-new-content.sort-order=desc&awsf.whats-new-products=general-products%23amazon-cloudwatch) 
+  [Novidades da AWS X-Ray](https://aws.amazon.com/about-aws/whats-new/developer-tools/?whats-new-content.sort-by=item.additionalFields.postDateTime&whats-new-content.sort-order=desc&awsf.whats-new-products=general-products%23aws-x-ray) 

 **Vídeos relacionados:** 
+  [AWS re:Invent 2022: práticas recomendadas de observabilidade na Amazon](https://youtu.be/zZPzXEBW4P8) 
+  [AWS re:Invent 2022: desenvolver uma estratégia de observabilidade](https://youtu.be/Ub3ATriFapQ) 

 **Exemplos relacionados:** 
+  [Workshop One Observability](https://catalog.workshops.aws/observability) 
+  [Biblioteca de soluções da AWS: monitorar aplicações com o Amazon CloudWatch](https://aws.amazon.com/solutions/implementations/application-monitoring-with-cloudwatch) 

# OPS04-BP03 Implementar telemetria da experiência do usuário
<a name="ops_observability_customer_telemetry"></a>

 É essencial obter insights profundos sobre as experiências dos clientes e as interações com sua aplicação. O monitoramento de usuários reais (RUM) e as transações sintéticas servem como ferramentas poderosas para essa finalidade. O RUM fornece dados sobre interações reais do usuário, oferecendo uma perspectiva não filtrada da satisfação do usuário, enquanto as transações sintéticas simulam as interações do usuário, ajudando a detectar possíveis problemas antes mesmo que eles afetem os usuários reais. 

 **Resultado desejado:** uma visão holística da experiência do cliente, detecção proativa de problemas e otimização das interações do usuário para oferecer experiências digitais perfeitas. 

 **Práticas comuns que devem ser evitadas:** 
+  Aplicações sem monitoramento de usuários reais (RUM): 
  +  Detecção atrasada de problemas: sem o RUM, talvez você não fique ciente dos gargalos ou problemas de performance até que os usuários reclamem. Essa abordagem reativa pode levar à insatisfação do cliente. 
  +  Falta de insights sobre a experiência do usuário: não usar o RUM significa perder dados cruciais que mostram como usuários reais interagem com sua aplicação, limitando sua capacidade de otimizar a experiência do usuário. 
+  Aplicações sem transações sintéticas: 
  +  Casos de borda perdidos: transações sintéticas ajudam você a testar caminhos e funções que podem não ser usados com frequência por usuários comuns, mas são essenciais para determinadas funções de negócios. Sem eles, esses caminhos podem ter problemas de funcionamento e passar despercebidos. 
  +  Verificação de problemas quando a aplicação não está sendo usada: testes sintéticos regulares podem simular momentos em que usuários reais não estão interagindo ativamente com sua aplicação, garantindo que o sistema sempre funcione corretamente. 

 **Benefícios de implementar esta prática recomendada:** 
+  Detecção proativa de problemas: identifique e resolva possíveis problemas antes que eles afetem usuários reais. 
+  Experiência otimizada do usuário: o feedback contínuo do RUM ajuda a refinar e aprimorar a experiência geral do usuário. 
+  Informações sobre a performance do dispositivo e do navegador: entenda a performance da sua aplicação em vários dispositivos e navegadores, permitindo uma maior otimização. 
+  Fluxos de trabalho de negócios validados: transações sintéticas regulares garantem que as principais funcionalidades e os caminhos críticos permaneçam operacionais e eficientes. 
+  Performance aprimorada da aplicação: utilize as informações coletadas de dados reais do usuário para melhorar a capacidade de resposta e a confiabilidade da aplicação. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Para aproveitar o RUM e as transações sintéticas na telemetria da atividade do usuário, a AWS oferece serviços como o [Amazon CloudWatch RUM](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html) e o [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html). Métricas, logs e rastreamentos, juntamente com dados de atividades do usuário, fornecem uma visão abrangente do estado operacional da aplicação e da experiência do usuário. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  **Implemente o Amazon CloudWatch RUM:** integre sua aplicação ao CloudWatch RUM para coletar, analisar e apresentar dados reais do usuário. 

   1.  Use a biblioteca [JavaScript RUM do CloudWatch para integrar o RUM](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html) à aplicação. 

   1.  Configure painéis para visualizar e monitorar dados reais do usuário. 

1.  **Configure o CloudWatch Synthetics:** crie canários ou rotinas com script para simular as interações do usuário com sua aplicação. 

   1.  Defina fluxos de trabalho e caminhos de aplicação críticos. 

   1.  Crie canários usando [scripts do CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) para simular as interações do usuário nesses caminhos. 

   1.  Programe e monitore os canários para serem executados em intervalos específicos, garantindo verificações de performance consistentes. 

1.  **Analise e aja sobre os dados:** utilize dados de RUM e transações sintéticas para obter insights e tomar medidas corretivas quando anomalias forem detectadas. Use painéis e alarmes do CloudWatch para se manter informado. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificar indicadores-chave de performance](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementar a telemetria de aplicações](ops_observability_application_telemetry.md) 
+  [OPS04-BP04 Implementar a telemetria de dependências](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 Implementar rastreamento distribuído](ops_observability_dist_trace.md) 

 **Documentos relacionados:** 
+ [Guia do Amazon CloudWatch RUM](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html)
+ [Guia do Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html)

 **Vídeos relacionados:** 
+ [Otimizar aplicações com base em insights do usuário final com o Amazon CloudWatch RUM](https://www.youtube.com/watch?v=NMaeujY9A9Y)
+ [Destaque da AWS On Air: Monitoramento de usuários reais para Amazon CloudWatch ](https://www.youtube.com/watch?v=r6wFtozsiVE)

 **Exemplos relacionados:** 
+ [Workshop One Observability](https://catalog.workshops.aws/observability/en-US/intro)
+ [Repositório do Git para cliente Web do Amazon CloudWatch RUM](https://github.com/aws-observability/aws-rum-web)
+ [Usar o Amazon CloudWatch Synthetics para medir o tempo de carregamento da página](https://github.com/aws-samples/amazon-cloudwatch-synthetics-page-performance)

# OPS04-BP04 Implementar a telemetria de dependências
<a name="ops_observability_dependency_telemetry"></a>

 A telemetria de dependências é essencial para monitorar a integridade e a performance dos serviços e componentes externos dos quais a workload depende. Ela fornece insights valiosos sobre acessibilidade, tempos limite e outros eventos críticos relacionados a dependências, como DNS, bancos de dados ou APIs de terceiros. Ao instrumentar sua aplicação para emitir métricas, logs e rastreamentos sobre essas dependências, você adquire uma compreensão mais clara dos possíveis gargalos, problemas de performance ou falhas que podem afetar a workload. 

 **Resultado desejado:** as dependências das quais a workload depende estão funcionando conforme o esperado, permitindo que você resolva problemas de forma proativa e garanta a performance ideal da workload. 

 **Práticas comuns que devem ser evitadas:** 
+  **Negligenciar as dependências externas:** focar apenas nas métricas internas da aplicação e negligenciar as métricas relacionadas às dependências externas. 
+  **Ausência de monitoramento proativo**: aguardar o surgimento de problemas em vez de monitorar continuamente a integridade e a performance da dependência. 
+  **Monitoramento em silos:** usar várias ferramentas de monitoramento diferentes, o que pode resultar em visualizações fragmentadas e inconsistentes da integridade da dependência. 

 **Benefícios de implementar esta prática recomendada:** 
+  **Maior confiabilidade da workload:** garantia de que as dependências externas estejam consistentemente disponíveis e tenham uma performance ideal. 
+  **Detecção e resolução mais rápidas de problemas:** identificação e resolução proativa de problemas com dependências antes que elas afetem a workload. 
+  **Visão abrangente:** obtenção de uma visão holística dos componentes internos e externos que influenciam a integridade da workload. 
+  **Escalabilidade aprimorada da workload:** compreensão dos limites de escalabilidade e das características de performance das dependências externas. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Implemente a telemetria de dependências começando com a identificação dos serviços, da infraestrutura e dos processos dos quais a workload depende. Quantifique quais são as boas condições quando essas dependências estão funcionando conforme o esperado e determine quais dados serão necessários para medi-las. Com essas informações, você pode criar painéis e alertas que forneçam insights para suas equipes de operações sobre o estado dessas dependências. Use ferramentas da AWS para descobrir e quantificar os impactos quando as dependências não tiverem a performance necessária. Revise continuamente sua estratégia para considerar as mudanças nas prioridades, metas e insights obtidos. 

### Etapas de implementação
<a name="implementation-steps"></a>

 Para implementar a telemetria de dependências de forma eficaz: 

1.  **Identifique dependências externas:** colabore com as partes interessadas para identificar as dependências externas das quais a workload depende. As dependências externas podem abranger serviços como bancos de dados externos, APIs de terceiros, rotas de conectividade de rede para outros ambientes e serviços de DNS. O primeiro passo para uma telemetria de dependências eficaz é entender de forma abrangente quais são essas dependências. 

1.  **Desenvolver uma estratégia de monitoramento:** depois de obter uma visão clara de suas dependências externas, elabore uma estratégia de monitoramento personalizada para elas. Isso envolve entender a importância de cada dependência, seu comportamento esperado e quaisquer contratos ou metas de nível de serviço associados (SLA ou SLTs). Configure alertas proativos para receber notificações sobre mudanças de status ou desvios de performance. 

1.  **Use o [monitoramento de rede](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Network-Monitoring-Sections.html):** use o [Internet Monitor](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-InternetMonitor.html) e o [Network Monitor](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/what-is-network-monitor.html) para obter informações abrangentes sobre as condições globais da Internet e da rede. Essas ferramentas ajudam você a entender e reagir a interrupções ou degradações de performance que afetam as dependências externas. 

1.  **Mantenha-se a par do [AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health/):** o AWS Health é a fonte de informações confiável sobre a integridade dos seus recursos da Nuvem AWS. Use o AWS Health para visualizar e receber notificações sobre quaisquer eventos de serviço atuais e alterações futuras, como eventos planejados de ciclo de vida, a fim de que possa tomar medidas para mitigar os impactos. 

   1.  [Crie notificações de eventos do AWS Health ajustados à finalidade](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) para canais de e-mail e chat por meio do [Notificações de Usuários da AWS](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) e integre-as programaticamente às [suas ferramentas de monitoramento e alerta por meio do Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) ou da [API do AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Para planejar e acompanhar o progresso de eventos de integridade que exijam ações, utilize o Amazon EventBridge ou a API do AWS Health para fazer a integração com ferramentas de gerenciamento de alterações ou de ITSM que você já esteja usando (como [Jira](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) ou [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)). 

   1.  Se você usar o AWS Organizations, habilite a [visualização da organização para o AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html) a fim de agregar eventos do AWS Health em todas as contas. 

1.  **Instrumente sua aplicação com o [AWS X-Ray](https://aws.amazon.com/xray/):** o AWS X-Ray fornece informações sobre a performance das aplicações e de suas respectivas dependências subjacentes. Ao rastrear as solicitações do início ao fim, você pode identificar gargalos ou falhas nos serviços ou componentes externos dos quais sua aplicação depende. 

1.  **Use o [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/):** esse serviço orientado por machine learning identifica problemas operacionais, prevê quando problemas críticos podem ocorrer e recomenda ações específicas a serem tomadas. Ele é inestimável para ter informações sobre dependências e determinar que elas não são a fonte dos problemas operacionais. 

1.  **Monitore regularmente:** monitore continuamente métricas e logs relacionados a dependências externas. Configure alertas para comportamento inesperado ou diminuição de performance. 

1.  **Valide após as alterações:** sempre que houver uma atualização ou alteração em qualquer uma das dependências externas, valide sua performance e verifique o alinhamento com os requisitos da sua aplicação. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS04-BP01 Definir KPIs da workload](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_identify_kpis.html) 
+  [OPS04-BP02 Implementar a telemetria de aplicações](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_application_telemetry.html) 
+  [OPS04-BP03 Implementar a telemetria de atividades dos usuários](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_customer_telemetry.html) 
+  [OPS04-BP05 Implementar a rastreabilidade das transações](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_dist_trace.html) 
+  [OP08-BP04 Criar alertas acionáveis](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_workload_observability_create_alerts.html) 

 **Documentos relacionados:** 
+  [Guia do usuário do Amazon Personal Health Dashboard](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) 
+  [Guia do usuário do AWS Internet Monitor](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-InternetMonitor.html) 
+  [AWS X-Ray Guia do desenvolvedor](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [Guia do usuário do AWS DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 

 **Vídeos relacionados:** 
+  [Visibilidade sobre como as questões da Internet afetam a performance de aplicações](https://www.youtube.com/watch?v=Kuc_SG_aBgQ) 
+  [Introdução ao Amazon DevOps Guru](https://www.youtube.com/watch?v=2uA8q-8mTZY) 
+  [Gerenciar eventos do ciclo de vida dos recursos em grande escala com o AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA) 

 **Exemplos relacionados:** 
+  [AWS Health Aware](https://github.com/aws-samples/aws-health-aware/) 
+  [Usar a filtragem baseada em tags para gerenciar o monitoramento e os alertas do AWS Health em grande escala](https://aws.amazon.com/blogs/mt/using-tag-based-filtering-to-manage-health-monitoring-and-alerting-at-scale/) 

# OPS04-BP05 Implementar rastreamento distribuído
<a name="ops_observability_dist_trace"></a>

 O rastreamento distribuído oferece uma maneira de monitorar e visualizar solicitações à medida que elas percorrem vários componentes de um sistema distribuído. Ao capturar dados de rastreamento de várias fontes e analisá-los em uma visão unificada, as equipes podem entender melhor como as solicitações fluem, onde existem gargalos e onde os esforços de otimização devem se concentrar. 

 **Resultado desejado:** obtenha uma visão holística das solicitações que fluem pelo seu sistema distribuído, permitindo depuração precisa, performance otimizada e experiências de usuário aprimoradas. 

 **Práticas comuns que devem ser evitadas:** 
+  Instrumentação inconsistente: nem todos os serviços em um sistema distribuído são instrumentados para rastreamento. 
+  Ignorar a latência: foco apenas nos erros e sem considerar a latência ou as degradações graduais da performance. 

 **Benefícios de implementar esta prática recomendada:** 
+ Visão geral abrangente do sistema: visualização de todo o caminho das solicitações, da entrada à saída.
+  Depuração aprimorada: identificação rápida de onde ocorrem falhas ou problemas de performance. 
+  Experiência de usuário aprimorada: monitoramento e otimização com base nos dados reais do usuário, garantindo que o sistema atenda às demandas do mundo real. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Comece identificando todos os elementos da workload que exigem instrumentação. Depois que todos os componentes forem contabilizados, utilize ferramentas como o AWS X-Ray e o OpenTelemetry para coletar dados de rastreamento para análise com ferramentas como o X-Ray e o Amazon CloudWatch ServiceLens Map. Faça avaliações regulares com desenvolvedores e complemente essas discussões com ferramentas como o Amazon DevOps Guru, o X-Ray Analytics e o X-Ray Insights para ajudar a fazer descobertas mais profundas. Estabeleça alertas a partir de dados de rastreamento para notificar quando os resultados, conforme definido no plano de monitoramento da workload, estiverem em risco. 

### Etapas de implementação
<a name="implementation-steps"></a>

 Para implementar o rastreamento distribuído de forma eficaz: 

1.  **Adote o [AWS X-Ray](https://aws.amazon.com/xray/):** integre o X-Ray à sua aplicação para obter informações sobre seu comportamento, entender sua performance e identificar gargalos. Utilize o X-Ray Insights para análise automática de rastreamento. 

1.  **Instrumente seus serviços:** verifique se cada serviço, de uma função do [AWS Lambda](https://aws.amazon.com/lambda/) a uma [instância do EC2](https://aws.amazon.com/ec2/), envia dados de rastreamento. Quanto mais serviços você instrumentar, mais clara será a visão completa. 

1.  **Incorpore o [monitoramento de usuários reais do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html) e o [monitoramento sintético](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html):** integre o monitoramento de usuários reais (RUM) e o monitoramento sintético com o X-Ray. Isso permite capturar experiências reais do usuário e simular as interações do usuário para identificar possíveis problemas. 

1.  **Use o [agente do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html):** o agente pode enviar rastreamentos a partir do X-Ray ou do OpenTelemetry, aumentando a profundidade dos insights obtidos. 

1.  **Use o [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/):** o DevOps Guru usa dados do X-Ray, CloudWatch, AWS Config e AWS CloudTrail para fornecer recomendações práticas. 

1.  **Analise os rastreamentos:** revise regularmente os dados de rastreamento para discernir padrões, anomalias ou gargalos que possam afetar a performance da sua aplicação. 

1.  **Configure alertas:** configure alarmes no [CloudWatch](https://aws.amazon.com/cloudwatch/) para padrões incomuns ou latências estendidas, permitindo o tratamento proativo de problemas. 

1.  **Aprimoramento contínuo:** revise sua estratégia de rastreamento à medida que os serviços são adicionados ou modificados para capturar todos os pontos de dados relevantes. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificar indicadores-chave de performance](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementar a telemetria de aplicações](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 Implementar telemetria da experiência do usuário](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 Implementar a telemetria de dependências](ops_observability_dependency_telemetry.md) 

 **Documentos relacionados:** 
+ [Guia do desenvolvedor do AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html)
+ [Guia do usuário do agente do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html)
+ [Guia do usuário do Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html)

 **Vídeos relacionados:** 
+ [Usar o AWS X-Ray Insights](https://www.youtube.com/watch?v=tl8OWHl6jxw)
+ [Destaque da AWS On Air: Observabilidade: Amazon CloudWatch e AWS X-Ray](https://www.youtube.com/watch?v=qBDBnPkZ-KI)

 **Exemplos relacionados:** 
+ [Instrumentar sua aplicação para o AWS X-Ray](https://aws.amazon.com/xray/latest/devguide/xray-instrumenting-your-app.html)

# OPS 5. Como reduzir defeitos, facilitar a correção e melhorar o fluxo na produção?
<a name="ops-05"></a>

 Adote abordagens que melhoram o fluxo de alterações na produção, que acionem refatoração, feedback rápido sobre a qualidade e correção de erros. Isso acelera as alterações benéficas que entram na produção, limita os problemas implantados e alcança a rápida identificação e correção dos problemas introduzidos pelas atividades de implantação. 

**Topics**
+ [OPS05-BP01 Usar controle de versão](ops_dev_integ_version_control.md)
+ [OPS05-BP02 Testar e validar alterações](ops_dev_integ_test_val_chg.md)
+ [OPS05-BP03 Usar sistemas de gerenciamento de configuração](ops_dev_integ_conf_mgmt_sys.md)
+ [OPS05-BP04 Usar sistemas de gerenciamento de compilação e de implantação](ops_dev_integ_build_mgmt_sys.md)
+ [OPS05-BP05 Executar o gerenciamento de patches](ops_dev_integ_patch_mgmt.md)
+ [OPS05-BP06 Compartilhar padrões de design](ops_dev_integ_share_design_stds.md)
+ [OPS05-BP07 Implementar práticas para aprimorar a qualidade do código](ops_dev_integ_code_quality.md)
+ [OPS05-BP08 Usar vários ambientes](ops_dev_integ_multi_env.md)
+ [OPS05-BP09 Fazer alterações frequentes, pequenas e reversíveis](ops_dev_integ_freq_sm_rev_chg.md)
+ [OPS05-BP10 Automatizar totalmente a integração e a implantação](ops_dev_integ_auto_integ_deploy.md)

# OPS05-BP01 Usar controle de versão
<a name="ops_dev_integ_version_control"></a>

 Use o controle de versão para ativar o rastreamento de alterações e liberações. 

 Muitos serviços da AWS oferecem recursos de controle de versão. Use um sistema de revisão ou de [controle de código-fonte](https://aws.amazon.com/devops/source-control/) como o [Git](https://aws.amazon.com/devops/source-control/git/) para gerenciar código e outros artefatos, como modelos do [AWS CloudFormation](https://aws.amazon.com/cloudformation/) com controle de versão da infraestrutura. 

 **Resultado desejado:** suas equipes colaboram no código. Quando mesclado, o código é consistente e nenhuma alteração é perdida. Os erros são facilmente revertidos por meio do versionamento correto. 

 **Práticas comuns que devem ser evitadas:** 
+  Você está desenvolvendo e armazenando seu código na estação de trabalho. Você teve uma falha de armazenamento irrecuperável na estação de trabalho e seu código foi perdido. 
+  Depois de substituir o código existente pelas alterações, você reinicia a aplicação e ela deixa de ser operável. Não é possível reverter a alteração. 
+  Você tem um bloqueio de gravação em um arquivo de relatório que outra pessoa precisa editar. Ela entra em contato com você solicitando que você interrompa o trabalho para que ela possa concluir as tarefas. 
+  Sua equipe de pesquisa tem trabalhado em uma análise detalhada que moldará seu trabalho futuro. Alguém salvou acidentalmente a lista de compras sobre o relatório final. Não é possível reverter a alteração e você terá que recriar o relatório. 

 **Benefícios de implementar esta prática recomendada:** ao usar recursos de controle de versão, você pode reverter facilmente para estados e versões anteriores reconhecidamente bons e limitar o risco de perda de ativos. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Mantenha ativos em repositórios controlados por versão. Fazer isso oferece suporte ao rastreamento de alterações, à implantação de novas versões, à detecção de alterações nas versões existentes e à reversão para versões anteriores (por exemplo, a reversão para um estado reconhecidamente bom no caso de uma falha). Integre os recursos de controle de versão dos sistemas de gerenciamento de configurações aos seus procedimentos. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS05-BP04 Usar sistemas de gerenciamento de compilação e de implantação](ops_dev_integ_build_mgmt_sys.md) 

 **Vídeos relacionados:** 
+ [AWS re:Invent 2023 - How Lockheed Martin builds software faster, powered by DevSecOps ](https://www.youtube.com/watch?v=Q1OSyxYkl5w)
+ [AWS re:Invent 2023 - How GitHub operationalizes AI for team collaboration and productivity ](https://www.youtube.com/watch?v=cOVvGaiusOI)

# OPS05-BP02 Testar e validar alterações
<a name="ops_dev_integ_test_val_chg"></a>

 Cada alteração implantada deve ser testada para evitar erros na produção. A prática recomendada concentra-se em testar alterações do controle de versão na build de artefato. Além das alterações do código da aplicação, o teste deve incluir infraestrutura, configuração, controles de segurança e procedimentos de operações. O teste assume muitas formas, desde testes de unidade à análise dos componentes do software (SCA). Mova os testes mais para a esquerda na integração do software e o processo de entrega resultará em maior certeza da qualidade do artefato. 

 Sua organização deve desenvolver padrões de teste para todos os artefatos de software. Os testes automatizados reduzem o trabalho e evitam erros de testes manuais. Os testes manuais podem ser necessários em alguns casos. Os desenvolvedores precisam ter acesso aos resultados dos testes automatizados para criar loops de feedback que melhorem a qualidade do software. 

 **Resultado desejado:** as alterações do software são testadas antes de serem entregues. Os desenvolvedores têm acesso aos resultados e às validações dos testes. Sua organização tem um padrão de testes que se aplica a todas as alterações do software. 

 **Práticas comuns que devem ser evitadas:** 
+  Você implanta uma nova alteração do software sem nenhum teste. Ele não é executado na produção, o que ocasiona uma interrupção. 
+  Novos grupos de segurança são implantados com o AWS CloudFormation sem serem testados em um ambiente de pré-produção. Os grupos de segurança tornam sua aplicação inacessível para seus clientes. 
+  Um método é modificado, mas não há testes de unidade. O software falha quando é implantado em produção. 

 **Benefícios de implementar esta prática recomendada:** a taxa de falhas em alterações nas implantações de software é reduzida. A qualidade do software é aprimorada. Os desenvolvedores aumentaram a conscientização sobre a viabilidade do código deles. As políticas de segurança podem ser distribuídas com confiança para apoiar a conformidade da organização. Alterações da infraestrutura, como atualizações da política de ajuste de escala automático, são testadas com antecedência para atender às necessidades de tráfego. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Testes são realizados em todas as alterações, desde o código da aplicação à infraestrutura, como parte de sua prática de integração contínua. Os resultados dos testes são publicados para que os desenvolvedores tenham feedback rápido. Sua organização tem um padrão de testes de que todas as alterações devem ser aprovadas. 

 Use o poder da IA generativa com o Amazon Q Developer para melhorar a produtividade do desenvolvedor e a qualidade do código. O Amazon Q Developer inclui a geração de sugestões de código (com base em grandes modelos de linguagem), produção de testes unitários (incluindo condições de limite) e aprimoramentos de segurança de código por meio da detecção e correção de vulnerabilidades de segurança. 

 **Exemplo de cliente** 

 Como parte do pipeline de integração contínua, a AnyCompany Retail realiza alguns tipos de teste em todos os artefatos de software. Eles praticam desenvolvimento orientado a testes para que todo o software tenha testes de unidade. Depois que o artefato é criado, eles executam testes completos. Depois que a primeira etapa de testes é concluída, eles executam uma verificação de segurança da aplicação estática, que procura vulnerabilidades conhecidas. Os desenvolvedores recebem mensagens à medida que cada gate de testes é aprovado. Depois que todos os testes são concluídos, o artefato de software é armazenado em um repositório de artefatos. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  Trabalhe com partes interessadas em sua organização para desenvolver um padrão de testes para artefatos de software. Em quais testes padrão todos os artefatos devem ser aprovados? Há requisitos de conformidade ou governança que devem ser incluídos na cobertura de testes? Você precisa realizar testes de qualidade de código? Quando os testes são concluídos, quem precisa saber? 

   1.  A [Arquitetura de referência do pipeline de implantação da AWS](https://pipelines.devops.aws.dev/) contém uma lista confiável de tipos de testes que podem ser conduzidos em artefatos de software como parte de um pipeline de integração. 

1.  Instrumente sua aplicação com os testes necessários com base em seu padrão de testes de software. Cada conjunto de testes deve ser concluído em menos de dez minutos. Os testes devem ser executados como parte de um pipeline de integração. 

   1.  Use o [Amazon Q Developer](https://docs.aws.amazon.com/amazonq/latest/qdeveloper-ug/what-is.html), uma ferramenta generativa de IA que pode ajudar a criar casos de teste unitários (incluindo condições de limite), gerar funções usando código e comentários e implementar algoritmos conhecidos. 

   1.  Use o [Amazon CodeGuru Reviewer](https://docs.aws.amazon.com/codeguru/latest/reviewer-ug/welcome.html) para testar defeitos no código da sua aplicação. 

   1.  Você pode usar o [AWS CodeBuild](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) para realizar testes em artefatos de software. 

   1.  O [AWS CodePipeline](https://docs.aws.amazon.com/codepipeline/latest/userguide/welcome.html) pode orquestrar seus testes de software em um pipeline. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS05-BP01 Usar controle de versão](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_version_control.html) 
+  [OPS05-BP06 Compartilhar padrões de design](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_share_design_stds.html) 
+  [OPS05-BP07 Implementar práticas para aprimorar a qualidade do código](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_code_quality.html) 
+  [OPS05-BP10 Automatizar totalmente a integração e a implantação](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_auto_integ_deploy.html) 

 **Documentos relacionados:** 
+  [Adote uma abordagem de desenvolvimento orientado por testes](https://docs.aws.amazon.com/prescriptive-guidance/latest/best-practices-cdk-typescript-iac/development-best-practices.html) 
+  [Acelerar seu ciclo de vida de desenvolvimento de software com o Amazon Q](https://aws.amazon.com/blogs/devops/accelerate-your-software-development-lifecycle-with-amazon-q/) 
+  [O Amazon Q Developer, agora disponível ao público em geral, inclui visualizações de novos recursos para reimaginar a experiência do desenvolvedor](https://aws.amazon.com/blogs/aws/amazon-q-developer-now-generally-available-includes-new-capabilities-to-reimagine-developer-experience/) 
+  [A folha de dicas definitiva para usar o Amazon Q Developer em seu IDE](https://community.aws/content/2eYoqeFRqaVnk900emsknDfzhfW/the-ultimate-cheat-sheet-for-using-amazon-q-developer-in-your-ide) 
+  [workload Shift-Left: aproveitando a IA para a criação de testes](https://community.aws/content/2gBZtC94gPzaCQRnt4P0rIYWuBx/shift-left-workload-leveraging-ai-for-test-creation) 
+  [Amazon Q Developer Center](https://aws.amazon.com/developer/generative-ai/amazon-q/) 
+  [Dez maneiras de criar aplicações mais rapidamente com o Amazon CodeWhisperer](https://aws.amazon.com/blogs/devops/10-ways-to-build-applications-faster-with-amazon-codewhisperer/) 
+  [Olhar além da cobertura de código com o Amazon CodeWhisperer](https://aws.amazon.com/blogs/devops/looking-beyond-code-coverage-with-amazon-codewhisperer/) 
+  [Práticas recomendadas para engenharia rápida com o Amazon CodeWhisperer](https://aws.amazon.com/blogs/devops/best-practices-for-prompt-engineering-with-amazon-codewhisperer/) 
+  [Pipeline de teste do AWS CloudFormation automatizado com TaskCat e CodePipeline](https://aws.amazon.com/blogs/devops/automated-cloudformation-testing-pipeline-with-taskcat-and-codepipeline/) 
+  [Criar um pipeline de CI/CD completo do AWS DevSecOps com ferramentas de código aberto SCA, SAST e DAST](https://aws.amazon.com/blogs/devops/building-end-to-end-aws-devsecops-ci-cd-pipeline-with-open-source-sca-sast-and-dast-tools/) 
+  [Conceitos básicos de testes de aplicações com tecnologia sem servidor)](https://aws.amazon.com/blogs/compute/getting-started-with-testing-serverless-applications/) 
+  [Meu pipeline de CI/CD é meu capitão de lançamentos](https://aws.amazon.com/builders-library/cicd-pipeline/) 
+  [Whitepaper Praticar a integração e entrega contínuas na AWS](https://docs.aws.amazon.com/whitepapers/latest/practicing-continuous-integration-continuous-delivery/welcome.html) 

 **Vídeos relacionados:** 
+  [Implementar uma API com o Amazon Q Developer Agent para desenvolvimento de software](https://www.youtube.com/watch?v=U4XEvJUvff4) 
+  [Instalar, configurar e usar o Amazon Q Developer com os IDEs da JetBrains (instruções)](https://www.youtube.com/watch?v=-iQfIhTA4J0) 
+  [Dominar a arte do Amazon CodeWhisperer: playlist do YouTube](https://www.youtube.com/playlist?list=PLDqi6CuDzubxzL-yIqgQb9UbbceYdKhpK) 
+  [AWS re:Invent 2020: Infraestrutura testável: teste de integração na AWS](https://www.youtube.com/watch?v=KJC380Juo2w) 
+  [AWS Summit ANZ 2021: Conduzir uma estratégia de primeiro teste com o CDK e desenvolvimento orientado a testes](https://www.youtube.com/watch?v=1R7G_wcyd3s) 
+  [Testar sua infraestrutura como código com o AWS CDK CDK](https://www.youtube.com/watch?v=fWtuwGSoSOU) 

 **Recursos relacionados:** 
+  [Arquitetura de referência do pipeline de implantação da AWS: aplicação](https://pipelines.devops.aws.dev/application-pipeline/index.html) 
+  [Pipeline de DevSecOps de Kubernetes da AWS](https://github.com/aws-samples/devsecops-cicd-containers) 
+  [Executar testes de unidade para uma aplicação Node.js do GitHub usando o AWS CodeBuild](https://docs.aws.amazon.com/prescriptive-guidance/latest/patterns/run-unit-tests-for-a-node-js-application-from-github-by-using-aws-codebuild.html) 
+  [Usar o Serverspec para o desenvolvimento orientado por testes de código de infraestrutura](https://docs.aws.amazon.com/prescriptive-guidance/latest/patterns/use-serverspec-for-test-driven-development-of-infrastructure-code.html) 

 **Serviços relacionados:** 
+  [Amazon Q Developer](https://aws.amazon.com/q/developer/) 
+  [Amazon CodeGuru Reviewer](https://docs.aws.amazon.com/codeguru/latest/reviewer-ug/welcome.html) 
+  [AWS CodeBuild](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) 
+  [AWS CodePipeline](https://docs.aws.amazon.com/codepipeline/latest/userguide/welcome.html) 

# OPS05-BP03 Usar sistemas de gerenciamento de configuração
<a name="ops_dev_integ_conf_mgmt_sys"></a>

 Use os sistemas de gerenciamento de configuração para fazer e rastrear alterações nas configurações. Esses sistemas reduzem os erros causados pelos processos manuais e o nível de esforço para implantar as alterações. 

O gerenciamento da configuração estática define valores ao inicializar um recurso que deve permanecer consistente durante todo o tempo de vida do recurso. O gerenciamento da configuração dinâmica define valores na inicialização que podem ou devem ser alterados durante o tempo de vida de um recurso. Por exemplo, é possível definir um recurso para ativar a funcionalidade em seu código por meio de uma alteração na configuração ou alterar o nível de detalhes do registro durante um incidente.

As configurações devem ser implantadas em um estado conhecido e consistente. Recomenda-se usar a inspeção automatizada para monitorar continuamente as configurações de recursos em todos os ambientes e regiões. Esses controles devem ser definidos como código e gerenciamento automatizados para garantir que as regras sejam aplicadas de forma consistente em todos os ambientes. As alterações nas configurações devem ser atualizadas por meio de procedimentos de controle de alterações acordados e aplicadas de forma consistente, respeitando o controle de versão. A configuração da aplicação deve ser gerenciada independentemente do código da aplicação e da infraestrutura. Isso permite uma implantação consistente em vários ambientes. As alterações na configuração não resultam na reconstrução ou reimplantação da aplicação. 

 **Resultado desejado:** você configura, valida e implanta como parte de seu pipeline de integração contínua e entrega contínua (CI/CD). Você monitora para validar se as configurações estão corretas. Isso minimiza qualquer impacto para usuários finais e clientes. 

 **Práticas comuns que devem ser evitadas:** 
+  Você atualiza manualmente a configuração do servidor Web em toda a frota e vários servidores não respondem devido a erros de atualização. 
+  Você atualiza manualmente a frota do servidor de aplicações ao longo de muitas horas. A inconsistência na configuração durante a alteração causa comportamentos inesperados. 
+  Alguém atualizou seus grupos de segurança e seus servidores Web não estão mais acessíveis. Sem saber o que foi alterado, você gasta muito tempo investigando o problema, ampliando o tempo de recuperação. 
+  Você coloca uma configuração de pré-produção em produção por meio de CI/CD sem validação. Você expõe usuários e clientes a dados e serviços incorretos. 

 **Benefícios de implementar esta prática recomendada:** a adoção de sistemas de gerenciamento de configurações reduz o nível de esforço para fazer e rastrear alterações, bem como a frequência de erros causados por procedimentos manuais. Os sistemas de gerenciamento de configuração fornecem garantias com relação aos requisitos regulatórios, de conformidade e de governança. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Os sistemas de gerenciamento de configuração são usados para rastrear e implementar alterações nas configurações de aplicações e ambientes. Os sistemas de gerenciamento de configuração também são usados para reduzir erros causados por processos manuais, tornar as alterações de configuração repetíveis e auditáveis e reduzir o nível de esforço. 

 Na AWS, é possível usar o [AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html) para monitorar continuamente suas configurações de recursos da AWS em [todas as contas e regiões](https://docs.aws.amazon.com/config/latest/developerguide/aggregate-data.html). Isso ajuda a rastrear o histórico da configuração, compreender como a alteração de uma configuração afeta outros recursos e auditá-la em relação a configurações esperadas ou desejadas, usando o [Regras do AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/evaluate-config.html) e o [AWS Config Conformance Packs](https://docs.aws.amazon.com/config/latest/developerguide/conformance-packs.html). 

 Para configurações dinâmicas em suas aplicações executadas em instâncias do Amazon EC2, AWS Lambda, contêineres, aplicações móveis ou dispositivos de IoT do Amazon EC2, você pode usar o [AWS AppConfig](https://docs.aws.amazon.com/appconfig/latest/userguide/what-is-appconfig.html)para configurá-los, valida-los, implantá-los e monitorá-los em seus ambientes. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  Identifique os proprietários da configuração. 

   1.  Informe os proprietários das configurações sobre quaisquer necessidades regulatórias, de conformidade ou de controle. 

1.  Identifique os itens de configuração e os resultados. 

   1.  Os itens de configuração são todas as configurações de aplicações e ambientes afetadas por uma implantação em seu pipeline de CI/CD. 

   1.  Os resultados incluem critérios de sucesso, validação e o que monitorar. 

1.  Selecione ferramentas para gerenciamento de configuração com base nos requisitos de seus negócios e no pipeline de entrega. 

1.  Considere implantações ponderadas, como implantações canário, para alterações significativas na configuração, a fim de minimizar o impacto de configurações incorretas. 

1.  Integre seu gerenciamento de configuração ao seu pipeline de CI/CD. 

1.  Valide todas as alterações enviadas. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS06-BP01 Preparar-se para alterações malsucedidas](ops_mit_deploy_risks_plan_for_unsucessful_changes.md) 
+  [OPS06-BP02 Testar implantações](ops_mit_deploy_risks_test_val_chg.md) 
+  [OPS06-BP03 Utilizar estratégias de implantação seguras](ops_mit_deploy_risks_deploy_mgmt_sys.md) 
+  [OPS06-BP04 Automatizar os testes e a reversão](ops_mit_deploy_risks_auto_testing_and_rollback.md) 

 **Documentos relacionados:** 
+ [AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/what-is-control-tower.html)
+ [Acelerador de zona de pouso da AWS](https://aws.amazon.com/solutions/implementations/landing-zone-accelerator-on-aws/)
+ [AWS Config](https://aws.amazon.com/config/)
+ [O que é o AWS Config?](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html)
+  [AWS AppConfig](https://docs.aws.amazon.com/appconfig/latest/userguide/what-is-appconfig.html) 
+ [O que é o AWS CloudFormation?](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/Welcome.html)
+  [Ferramentas de desenvolvedor AWS](https://aws.amazon.com/products/developer-tools/) 
+ [AWS CodeBuild](https://aws.amazon.com/codebuild/)
+ [AWS CodePipeline](https://aws.amazon.com/codepipeline/)
+ [AWS CodeDeploy](https://aws.amazon.com/codedeploy/)

 **Vídeos relacionados:** 
+ [AWS re:Invent 2022: governança e conformidade proativas para workloads da AWS](https://youtu.be/PpUnH9Y52X0?si=82wff87KHXcc6nbT)
+ [AWS re:Invent 2020: Alcançar a conformidade como código usando o AWS Config](https://youtu.be/m8vTwvbzOfw?si=my4DP0FLq1zwKjho)
+ [Gerenciar e implantar configurações de aplicações com o AWS AppConfig](https://youtu.be/ztIxMY3IIu0?si=ovYGsxWOBysyQrg0)

# OPS05-BP04 Usar sistemas de gerenciamento de compilação e de implantação
<a name="ops_dev_integ_build_mgmt_sys"></a>

 Use sistemas de gerenciamento de compilação e implantação. Esses sistemas reduzem os erros causados pelos processos manuais e o nível de esforço para implantar as alterações. 

 Na AWS, é possível criar pipelines de integração contínua/implantação contínua (CI/CD) usando serviços como as [Ferramentas de desenvolvedor da AWS](https://aws.amazon.com/products/developer-tools/) (por exemplo, [AWS CodeBuild](https://aws.amazon.com/codebuild/), [AWS CodePipeline](https://aws.amazon.com/codepipeline/) e [AWS CodeDeploy](https://aws.amazon.com/codedeploy/)). 

 **Resultado desejado:** seus sistemas de gerenciamento de compilação e implantação oferecem suporte ao sistema de integração contínua (CI/CD) de sua organização, que fornece recursos para automatizar implementações seguras com as configurações corretas. 

 **Práticas comuns que devem ser evitadas:** 
+  Depois de compilar o código no sistema de desenvolvimento e copiar o executável nos sistemas de produção, há uma falha na inicialização. Os arquivos de log locais indicam que a falha ocorreu devido à ausência de dependências. 
+  Você cria a aplicação com êxito com os novos recursos em seu ambiente de desenvolvimento e fornece o código à garantia de qualidade (QA). Ele falha no QA porque não há ativos estáticos. 
+  Na sexta-feira, após muito esforço, você consegue criar a aplicação manualmente em seu ambiente de desenvolvimento, incluindo os recursos recém-codificados. Na segunda-feira, você não consegue repetir as etapas que permitiram criar a aplicação com êxito. 
+  Você executa os testes que criou para a nova versão. Então você passa a próxima semana configurando um ambiente de teste e executando todos os testes de integração existentes, seguidos pelos testes de performance. O novo código tem um impacto inaceitável na performance e deve ser desenvolvido e testado novamente. 

 **Benefícios de implementar esta prática recomendada:** ao fornecer mecanismos para gerenciar atividades de criação e implantação, você reduz o nível de esforço para executar tarefas repetitivas, libera os membros da equipe para se concentrarem em tarefas criativas de alto valor e limita o surgimento de erros provenientes de procedimentos manuais. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Os sistemas de gerenciamento de compilação e implantação são usados para rastrear e implementar mudanças, reduzir erros causados por processos manuais e reduzir o nível de esforço necessário para implantações seguras. Automatize totalmente o pipeline de integração e implantação desde o check-in do código até a compilação, o teste, a implantação e a validação. Isso reduz o tempo de espera, diminui os custos, incentiva o aumento da frequência de mudanças, reduz o nível de esforço e aumenta a colaboração. 

### Etapas de implementação
<a name="implementation-steps"></a>

![\[Diagrama que mostra um pipeline de CI/CD usando o AWS CodePipeline e serviços relacionados\]](http://docs.aws.amazon.com/pt_br/wellarchitected/latest/framework/images/deployment-pipeline-tooling.png)


1.  Use um sistema de controle de versão para armazenar e gerenciar ativos (como documentos, código-fonte e arquivos binários). 

1.  Use o CodeBuild para compilar código-fonte, executar testes de unidade e produzir artefatos prontos para implantação. 

1.  Use o CodeDeploy como um serviço de implantação que automatiza implantações de aplicações em instâncias do [Amazon EC2](https://aws.amazon.com/ec2/), instâncias on-premises, [funções AWS Lambda com tecnologia sem servidor](https://docs.aws.amazon.com/lambda/latest/dg/welcome.html) ou [Amazon ECS](https://aws.amazon.com/ecs/). 

1.  Monitore suas implantações. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS06-BP04 Automatizar os testes e a reversão](ops_mit_deploy_risks_auto_testing_and_rollback.md) 

 **Documentos relacionados:** 
+  [Ferramentas de desenvolvedor AWS](https://aws.amazon.com/products/developer-tools/) 
+  [O que é AWS CodeBuild?](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) 
+ [AWS CodeBuild](https://aws.amazon.com/codebuild/)
+  [O que é AWS CodeDeploy?](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html) 

 **Vídeos relacionados:** 
+ [AWS re:Invent 2022: Práticas recomendadas do AWS Well-Architected para DevOps na AWS](https://youtu.be/hfXokRAyorA)

# OPS05-BP05 Executar o gerenciamento de patches
<a name="ops_dev_integ_patch_mgmt"></a>

 Execute o gerenciamento de patches para obter recursos, solucionar problemas e manter a conformidade com a governança. Automatize o gerenciamento de patches para reduzir erros causados por processos manuais, escalar e facilitar a realização de patches. 

 O gerenciamento de patches e vulnerabilidades faz parte de suas atividades de gerenciamento de benefícios e riscos. É preferível ter infraestruturas imutáveis e implantar workloads em bons estados verificados e conhecidos. Quando isso não é viável, a aplicação de patches é a opção restante. 

 O [AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health/) é a fonte confiável de informações sobre eventos planejados do ciclo de vida e outros eventos que requerem ações e afetam a integridade de dos recursos da Nuvem AWS. Você deve estar ciente das próximas alterações e atualizações que devem ser realizadas. Os principais eventos planejados do ciclo de vida são enviados com pelo menos seis meses de antecedência. 

 O [Amazon EC2 Image Builder](https://aws.amazon.com/image-builder/) fornece pipelines para atualizar imagens de máquinas. Como parte do gerenciamento de patches, considere utilizar [imagens de máquina da Amazon](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/AMIs.html       ) (AMIs) com um [pipeline de imagens de AMI](https://docs.aws.amazon.com/imagebuilder/latest/userguide/start-build-image-pipeline.html) ou imagens de contêiner com um [pipeline de imagem Docker](https://docs.aws.amazon.com/imagebuilder/latest/userguide/start-build-container-pipeline.html). Ao mesmo tempo, o AWS Lambda fornece padrões para [runtimes personalizados e bibliotecas adicionais](https://docs.aws.amazon.com/lambda/latest/dg/runtimes-custom.html) para remover vulnerabilidades. 

 Você deve gerenciar as atualizações das [imagens de máquina da Amazon](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/AMIs.html) para Linux ou Windows Server usando o [Amazon EC2 Image Builder](https://aws.amazon.com/image-builder/). É possível usar o [Amazon Elastic Container Registry (Amazon ECR](https://docs.aws.amazon.com/AmazonECR/latest/userguide/what-is-ecr.html)) com seu pipeline existente para gerenciar imagens do Amazon ECS e gerenciar imagens do Amazon EKS. O Lambda inclui [recursos de gerenciamento de versões](https://docs.aws.amazon.com/lambda/latest/dg/configuration-versions.html). 

 A aplicação de patches não deve ser realizada em sistemas de produção sem antes testá-los em um ambiente seguro. Os patches só deverão ser aplicados se forem compatíveis com um resultado operacional ou comercial. Na AWS, é possível usar o [AWS Systems Manager Patch Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-patch.html) para automatizar o processo de aplicação de patches em sistemas gerenciados e programar a atividade usando as [Janelas de manutenção do Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-maintenance.html). 

 **Resultado desejado:** suas imagens de AMI e contêiner receberam os patches e estão atualizadas e prontas para o lançamento. É possível rastrear o status de todas as imagens implantadas e conhecer a conformidade do patch. Você também pode emitir relatórios do status atual e ter um processo para atender às suas necessidades de conformidade. 

 **Práticas comuns que devem ser evitadas:** 
+  Você recebe uma ordem para aplicar todos os novos patches de segurança em até duas horas, resultando em várias interrupções devido à incompatibilidade da aplicação com os patches. 
+  Uma biblioteca sem patches resulta em consequências indesejadas, pois partes desconhecidas usam vulnerabilidades dentro dela para acessar a workload. 
+  Você aplica patches nos ambientes do desenvolvedor automaticamente, sem notificar os desenvolvedores. Você recebe várias reclamações dos desenvolvedores afirmando que o ambiente deles não está funcionando conforme o esperado. 
+  Você não aplicou patches no software pronto para uso comercial em uma instância persistente. Quando você tiver um problema com o software e entrar em contato com o fornecedor, ele informará que a versão não é compatível e será necessário aplicar patches a um nível específico para receber assistência. 
+  Um patch lançado recentemente para o software de criptografia que você usou tem melhorias significativas de performance. Seu sistema sem patches tem problemas de performance que permanecem enquanto a aplicação de patches não é feita. 
+  Você é notificado sobre uma vulnerabilidade de dia zero que exige uma correção de emergência e precisa fazer isso em todos os seus ambientes manualmente. 
+  Você não está ciente das ações básicas necessárias para manter seus recursos, como atualizações obrigatórias de versão, porque não analisa os próximos eventos planejados do ciclo de vida e outras informações. Você perde um tempo significativo para planejar e executar, o que resulta em alterações emergenciais para suas equipes e em possíveis impactos ou tempo de inatividade inesperado. 

 **Benefícios de implementar esta prática recomendada:** ao estabelecer um processo de gerenciamento de patches, incluindo seus critérios de aplicação de patches e metodologia para distribuição em seus ambientes, você pode escalar e gerar relatórios sobre os níveis de patch. Isso fornece garantias sobre a aplicação de patches de segurança e garante uma visibilidade clara do status das correções conhecidas em vigor. Isso permite a adoção de recursos e capacidades desejados, a remoção rápida de problemas e a conformidade contínua com a governança. Implemente sistemas de gerenciamento de patches e automação para reduzir o nível de esforço na implantação de patches e limitar erros causados por processos manuais. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Aplique patches nos sistemas para corrigir problemas, obter os recursos ou capacidades desejados e permanecer em conformidade com a política de governança e os requisitos de suporte do fornecedor. Em sistemas imutáveis, implante com o conjunto de patches adequado para alcançar o resultado desejado. Automatize o mecanismo de gerenciamento de patches para reduzir o tempo decorrido na aplicação de patches, reduzir erros causados por processos manuais e reduzir o nível de esforço para corrigir. 

### Etapas de implementação
<a name="implementation-steps"></a>

 Para Amazon EC2 Image Builder: 

1.  Usando o Amazon EC2 Image Builder, especifique os detalhes do pipeline: 

   1.  Crie um pipeline de imagens e atribua um nome a ele 

   1.  Defina a programação e o fuso horário do pipeline 

   1.  Configure todas as dependências 

1.  Escolha uma fórmula: 

   1.  Selecione a fórmula existente ou crie uma nova. 

   1.  Selecione o tipo de imagem 

   1.  Nomeie e crie a versão da sua fórmula 

   1.  Selecione sua imagem base 

   1.  Adicione componentes de compilação e adicione ao registro de destino 

1.  Opcional: defina sua configuração de infraestrutura. 

1.  Opcional: defina as configurações. 

1.  Revise as configurações. 

1.  Mantenha a higiene da fórmula regularmente. 

 Para o Gerenciador de patches do Systems Manager: 

1.  Crie uma lista de referência de patches. 

1.  Selecione um método de operações de patch. 

1.  Habilite relatórios e verificações de conformidade. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS06-BP04 Automatizar os testes e a reversão](ops_mit_deploy_risks_auto_testing_and_rollback.md) 

 **Documentos relacionados:** 
+ [O que é o Amazon EC2 Image Builder](https://docs.aws.amazon.com/imagebuilder/latest/userguide/what-is-image-builder.html)
+ [Criar um pipeline de imagens usando o Amazon EC2 Image Builder](https://docs.aws.amazon.com/imagebuilder/latest/userguide/start-build-image-pipeline.html)
+ [Criar um pipeline de imagens de contêiner](https://docs.aws.amazon.com/imagebuilder/latest/userguide/start-build-container-pipeline.html)
+  [Gerenciador de patches do AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-patch.html) 
+ [Trabalhar com o Patch Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/patch-manager-console.html)
+ [Trabalhar com relatórios de conformidade de patches](https://docs.aws.amazon.com/systems-manager/latest/userguide/patch-manager-compliance-reports.html)
+ [Ferramentas de desenvolvedor da AWS](https://aws.amazon.com/products/developer-tools)

 **Vídeos relacionados:** 
+  [CI/CD para aplicações de tecnologia sem servidor na AWS](https://www.youtube.com/watch?v=tEpx5VaW4WE) 
+  [Design com Ops em mente](https://youtu.be/uh19jfW7hw4) 

   **Exemplos relacionados:** 
+ [Tutoriais do Gerenciador de patches do AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/patch-manager-tutorials.html)

# OPS05-BP06 Compartilhar padrões de design
<a name="ops_dev_integ_share_design_stds"></a>

 Compartilhe práticas recomendadas entre equipes para aumentar a conscientização e maximizar os benefícios dos esforços de desenvolvimento. Documente-as e mantenha-as atualizadas à medida que sua arquitetura evolui. Se padrões compartilhados forem aplicados na sua organização, será fundamental que existam mecanismos para solicitar adições, alterações e exceções para os padrões. Sem essa opção, os padrões se tornam uma restrição à inovação. 

 **Resultado desejado:** os padrões de design são compartilhados entre as equipes nas organizações. Eles são documentados e mantidos atualizados de acordo com a evolução das práticas recomendadas. 

 **Práticas comuns que devem ser evitadas:** 
+ Cada uma das duas equipes de desenvolvimento criou um serviço de autenticação de usuários. Os usuários devem manter um conjunto separado de credenciais para cada parte do sistema que desejam acessar. 
+ Cada equipe gerencia sua própria infraestrutura. Um novo requisito de conformidade força uma alteração na infraestrutura e cada equipe o implementa de maneira diferente.

 **Benefícios de implementar esta prática recomendada:** usar padrões compartilhados contribui para a adoção das práticas recomendadas e maximiza os benefícios dos esforços de desenvolvimento. A documentação e atualização dos padrões de design mantém a organização atualizada com relação às práticas recomendadas e aos requisitos de segurança e conformidade. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Compartilhe as práticas recomendadas, os padrões de design, as listas de verificação, os procedimentos operacionais, as orientações e os requisitos de governança entre equipes. Adote procedimentos para solicitar alterações, adições e exceções para padrões de design a fim de apoiar a melhoria e a inovação. As equipes devem estar cientes do conteúdo publicado. Adote um mecanismo para manter os padrões de design atualizados à medida que surgem novas práticas recomendadas. 

 **Exemplo de cliente** 

 A AnyCompany Retail tem uma equipe de arquitetura multifuncional que cria padrões de arquitetura de software. Essa equipe cria a arquitetura com conformidade e governança integradas. As equipes que adotam esses padrões compartilhados recebem os benefícios de ter a conformidade e governança integradas. Elas podem criar rapidamente com base no padrão de design. A equipe de arquitetura se reúne trimestralmente para avaliar os padrões de arquitetura e atualizá-los, se necessário. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  Identifique uma equipe multifuncional que seja responsável pelo desenvolvimento e pela atualização dos padrões de design. Essa equipe deverá trabalhar com as partes interessadas na organização para desenvolver os padrões de design, os procedimentos operacionais, as listas de verificações, as orientações e os requisitos de governança. Documente os padrões de design e compartilhe-os na organização. 

   1.  O [AWS Service Catalog](https://docs.aws.amazon.com/servicecatalog/latest/adminguide/introduction.html) pode ser usado para criar portfólios representando os padrões de design usando infraestrutura como código. É possível compartilhar portfólios entre contas. 

1.  Tenha um mecanismo em vigor para manter os padrões de design atualizados à medida que novas práticas recomendadas são identificadas. 

1.  Se os padrões de design forem aplicados centralmente, tenha um processo para solicitar alterações, atualizações e isenções. 

 **Nível de esforço do plano de implementação:** Médio. O desenvolvimento de um processo para criar e compartilhar padrões de design pode exigir coordenação e cooperação com as partes interessadas na organização. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS01-BP03 Avaliar os requisitos de governança](ops_priorities_governance_reqs.md): os requisitos de governança influenciam os padrões de design. 
+  [OPS01-BP04 Avaliar os requisitos de conformidade](ops_priorities_compliance_reqs.md): a conformidade é um fator fundamental na criação dos padrões de design. 
+  [OPS07-BP02 Garantir uma revisão consistente da prontidão operacional](ops_ready_to_support_const_orr.md): as listas de verificação de prontidão operacional são um mecanismo para implementar os padrões de design ao projetar a workload. 
+  [OPS11-BP01 Adotar um processo para melhoria contínua](ops_evolve_ops_process_cont_imp.md): a atualização dos padrões de design faz parte da melhoria contínua. 
+  [OPS11-BP04 Gerenciar o conhecimento](ops_evolve_ops_knowledge_management.md): como parte da sua prática de gerenciamento de conhecimento, documente e compartilhe os padrões de design. 

 **Documentos relacionados:** 
+ [Automatizar AWS Backups com o AWS Service Catalog](https://aws.amazon.com/blogs/mt/automate-aws-backups-with-aws-service-catalog/)
+ [Conta do AWS Service Catalog aprimorada de fábrica](https://aws.amazon.com/blogs/mt/aws-service-catalog-account-factory-enhanced/)
+ [Como o Expedia Group criou uma oferta de banco de dados como serviço (DBaaS) usando o AWS Service Catalog](https://aws.amazon.com/blogs/mt/how-expedia-group-built-database-as-a-service-dbaas-offering-using-aws-service-catalog/)
+ [Manter a visibilidade sobre o uso dos padrões de arquitetura de nuvem](https://aws.amazon.com/blogs/architecture/maintain-visibility-over-the-use-of-cloud-architecture-patterns/)
+ [Simplifique o compartilhamento de seus portfólios do AWS Service Catalog em uma configuração do AWS Organizations](https://aws.amazon.com/blogs/mt/simplify-sharing-your-aws-service-catalog-portfolios-in-an-aws-organizations-setup/)

 **Vídeos relacionados:** 
+ [Conceitos básicos do AWS Service Catalog](https://www.youtube.com/watch?v=A9kKy6WhqVA)
+ [AWS re:Invent 2020: gerenciar seus portfólios do AWS Service Catalog como um especialista](https://www.youtube.com/watch?v=lVfXkWHAtR8)

 **Exemplos relacionados:** 
+ [Arquitetura de referência do AWS Service Catalog](https://github.com/aws-samples/aws-service-catalog-reference-architectures)
+ [Workshop do AWS Service Catalog](https://catalog.us-east-1.prod.workshops.aws/workshops/d40750d7-a330-49be-9945-cde864610de9/en-US)

 **Serviços relacionados:** 
+  [AWS Service Catalog](https://docs.aws.amazon.com/servicecatalog/latest/adminguide/introduction.html) 

# OPS05-BP07 Implementar práticas para aprimorar a qualidade do código
<a name="ops_dev_integ_code_quality"></a>

 Implemente práticas para aprimorar a qualidade do código e minimizar os defeitos. Alguns exemplos incluem desenvolvimento orientado por testes, análises de código, adoção de padrões e programação de pares. Incorpore essas práticas em seu processo de entrega e integração contínua. 

 **Resultado desejado:** sua organização usa práticas recomendadas como análises de código ou programação de pares para melhorar a qualidade do código. Os desenvolvedores e os operadores adotam práticas recomendadas de qualidade do código como parte do ciclo de vida de desenvolvimento de software. 

 **Práticas comuns que devem ser evitadas:** 
+  Você confirma o código para a ramificação principal da aplicação sem uma análise de código. A alteração é implantada automaticamente na produção e causa uma interrupção. 
+  Uma nova aplicação é desenvolvida sem nenhum teste de integração, completo ou de unidade. Não há como testar a aplicação antes da implantação. 
+  Sua equipe faz alterações manuais na produção para solucionar os defeitos. As alterações não passam por testes nem análises de código e não são capturadas nem registradas por processos contínuos de entrega e integração. 

 **Benefícios de implementar esta prática recomendada:** ao adotar práticas para melhorar a qualidade do código, é possível reduzir os problemas introduzidos na produção. As práticas recomendadas de qualidade do código incluem programação de pares, análises de código e implementação de ferramentas de produtividade de IA. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Implemente práticas para melhorar a qualidade do código visando a minimizar os defeitos antes que eles sejam implantados. Use práticas como desenvolvimento orientado por testes, análises de código e programação de pares para aumentar a qualidade do desenvolvimento. 

 Use o poder da IA generativa com o Amazon Q Developer para melhorar a produtividade do desenvolvedor e a qualidade do código. O Amazon Q Developer inclui a geração de sugestões de código (com base em grandes modelos de linguagem), produção de testes unitários (incluindo condições de limite) e aprimoramentos de segurança de código por meio da detecção e correção de vulnerabilidades de segurança. 

 **Exemplo de cliente** 

 A AnyCompany Retail adota várias práticas para melhorar a qualidade do código. O desenvolvimento orientado por testes foi adotado com o padrão para escrever aplicações. Para alguns recursos novos, os desenvolvedores farão a programação de pares em conjunto durante um sprint. Cada pull request passa por uma análise de código feita por um desenvolvedor sênior antes de ser integrada e implantada. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  Adote práticas de qualidade de código como desenvolvimento orientado por testes, análises de código e programação de pares em seu processo de entrega e integração contínua. Use essas técnicas para melhorar a qualidade do software. 

   1.  Use o [Amazon Q Developer](https://docs.aws.amazon.com/amazonq/latest/qdeveloper-ug/what-is.html), uma ferramenta de IA generativa que pode ajudar a criar casos de teste unitários (incluindo condições de limite), gerar funções usando código e comentários, implementar algoritmos conhecidos, detectar violações de políticas de segurança e vulnerabilidades em seu código, detectar segredos, examinar infraestrutura como código (IaC) e código de documentos e aprender bibliotecas de código de terceiros mais rapidamente. 

   1.  O [Amazon CodeGuru Reviewer](https://docs.aws.amazon.com/codeguru/latest/reviewer-ug/welcome.html) pode fornecer recomendações de programação para código Java e Python usando machine learning. 

 **Nível de esforço do plano de implementação:** Médio. Há muitas maneiras de implementar essa prática recomendada, mas pode ser difícil garantir a adesão organizacional. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS05-BP02 Testar e validar alterações](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_test_val_chg.html) 
+  [OPS05-BP06 Compartilhar padrões de design](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_share_design_stds.html) 

 **Documentos relacionados:** 
+  [Adote uma abordagem de desenvolvimento orientado por testes](https://docs.aws.amazon.com/prescriptive-guidance/latest/best-practices-cdk-typescript-iac/development-best-practices.html) 
+  [Acelerar seu ciclo de vida de desenvolvimento de software com o Amazon Q](https://aws.amazon.com/blogs/devops/accelerate-your-software-development-lifecycle-with-amazon-q/) 
+  [O Amazon Q Developer, agora disponível ao público em geral, inclui visualizações de novos recursos para reimaginar a experiência do desenvolvedor](https://aws.amazon.com/blogs/aws/amazon-q-developer-now-generally-available-includes-new-capabilities-to-reimagine-developer-experience/) 
+  [A folha de dicas definitiva para usar o Amazon Q Developer em seu IDE](https://community.aws/content/2eYoqeFRqaVnk900emsknDfzhfW/the-ultimate-cheat-sheet-for-using-amazon-q-developer-in-your-ide) 
+  [workload Shift-Left: aproveitando a IA para a criação de testes](https://community.aws/content/2gBZtC94gPzaCQRnt4P0rIYWuBx/shift-left-workload-leveraging-ai-for-test-creation) 
+  [Amazon Q Developer Center](https://aws.amazon.com/developer/generative-ai/amazon-q/) 
+  [Dez maneiras de criar aplicações mais rapidamente com o Amazon CodeWhisperer](https://aws.amazon.com/blogs/devops/10-ways-to-build-applications-faster-with-amazon-codewhisperer/) 
+  [Olhar além da cobertura de código com o Amazon CodeWhisperer](https://aws.amazon.com/blogs/devops/looking-beyond-code-coverage-with-amazon-codewhisperer/) 
+  [Práticas recomendadas para engenharia rápida com o Amazon CodeWhisperer](https://aws.amazon.com/blogs/devops/best-practices-for-prompt-engineering-with-amazon-codewhisperer/) 
+  [Guia do software Agile](https://martinfowler.com/agile.html) 
+  [Meu pipeline de CI/CD é meu capitão de lançamentos](https://aws.amazon.com/builders-library/cicd-pipeline/) 
+  [Automatizar as revisões de código com o Amazon CodeGuru Reviewer](https://aws.amazon.com/blogs/devops/automate-code-reviews-with-amazon-codeguru-reviewer/) 
+  [Adote uma abordagem de desenvolvimento orientado por testes](https://docs.aws.amazon.com/prescriptive-guidance/latest/best-practices-cdk-typescript-iac/development-best-practices.html) 
+  [Como o DevFactory cria melhores aplicações com o Amazon CodeGuru](https://aws.amazon.com/blogs/machine-learning/how-devfactory-builds-better-applications-with-amazon-codeguru/) 
+  [Sobre a programação de pares](https://martinfowler.com/articles/on-pair-programming.html) 
+  [RENGA Inc. automatiza as revisões de código com o Amazon CodeGuru)](https://aws.amazon.com/blogs/machine-learning/renga-inc-automates-code-reviews-with-amazon-codeguru/) 
+  [A arte do desenvolvimento ágil: desenvolvimento orientado por testes](http://www.jamesshore.com/v2/books/aoad1/test_driven_development) 
+  [Por que as revisões de código são importantes (e economizam tempo\$1)](https://www.atlassian.com/agile/software-development/code-reviews) 

 **Vídeos relacionados:** 
+  [Implementar uma API com o Amazon Q Developer Agent para desenvolvimento de software](https://www.youtube.com/watch?v=U4XEvJUvff4) 
+  [Instalar, configurar e usar o Amazon Q Developer com os IDEs da JetBrains (instruções)](https://www.youtube.com/watch?v=-iQfIhTA4J0) 
+  [Dominar a arte do Amazon CodeWhisperer: playlist do YouTube](https://www.youtube.com/playlist?list=PLDqi6CuDzubxzL-yIqgQb9UbbceYdKhpK) 
+  [AWS re:Invent 2020: Melhoria contínua da qualidade do código com o Amazon CodeGuru](https://www.youtube.com/watch?v=iX1i35H1OVw) 
+  [AWS Summit ANZ 2021: Conduzir uma estratégia de primeiro teste com o CDK e desenvolvimento orientado a testes](https://www.youtube.com/watch?v=1R7G_wcyd3s) 

 **Serviços relacionados:** 
+  [Amazon Q Developer](https://aws.amazon.com/q/developer/) 
+  [Amazon CodeGuru Reviewer](https://docs.aws.amazon.com/codeguru/latest/reviewer-ug/welcome.html) 
+  [Amazon CodeGuru Profiler](https://docs.aws.amazon.com/codeguru/latest/profiler-ug/what-is-codeguru-profiler.html) 

# OPS05-BP08 Usar vários ambientes
<a name="ops_dev_integ_multi_env"></a>

 Use vários ambientes para experimentar, desenvolver e testar a workload. Use níveis crescentes de controles à medida que os ambientes se aproximam da produção para adquirir confiança de que sua workload operará conforme pretendido quando implantada. 

 **Resultado desejado:** você tem vários ambientes que refletem suas necessidades de conformidade e governança. Você testa e promove o código por meio de ambientes em seu caminho para a produção. 

1.  Sua organização faz isso por meio do estabelecimento de uma zona de pouso, que fornece governança, controles, automações de contas, rede, segurança e observabilidade operacional. Gerencie esses recursos da zona de pouso usando vários ambientes. Um exemplo comum é uma organização de sandbox para desenvolver e testar mudanças em uma zona de pouso baseada no [AWS Control Tower](https://aws.amazon.com/controltower/), que inclui [Centro de Identidade do AWS IAM](https://aws.amazon.com/iam/identity-center/) e políticas como [políticas de controle de serviços (SCPs)](https://docs.aws.amazon.com/organizations/latest/userguide/orgs_manage_policies_scps.html). Todos esses elementos podem impactar significativamente o acesso e a operação das Contas da AWS dentro da zona de pouso. 

1.  Além desses serviços, as equipes ampliam as capacidades das zonas de pouso com soluções publicadas pela AWS ou por parceiros da AWS, ou na forma de soluções personalizadas desenvolvidas na sua organização. Exemplos de soluções publicadas pela AWS incluem [Personalizações para AWS Control Tower (CfCT)](https://aws.amazon.com/solutions/implementations/customizations-for-aws-control-tower/) e [AWS Control Tower Account Factory for Terraform (AFT)](https://docs.aws.amazon.com/controltower/latest/userguide/aft-overview.html). 

1.  Sua organização aplica os mesmos princípios de teste, promoção de código e mudanças de políticas para a zona de pouso por meio de ambientes no caminho para a produção. Essa estratégia fornece um ambiente de zona de pouso estável e seguro para as equipes de aplicações e workloads. 

 **Práticas comuns que devem ser evitadas:** 
+  Você está trabalhando em um desenvolvimento em um ambiente de desenvolvimento compartilhado e outro desenvolvedor substitui suas alterações de código. 
+  Os controles de segurança restritivos em seu ambiente de desenvolvimento compartilhado estão impedindo que você experimente novos serviços e recursos. 
+  Você realiza testes de carga em seus sistemas de produção e causa uma interrupção para seus usuários. 
+  Ocorreu um erro crítico na produção que resulta na perda de dados. No ambiente de produção, você tenta recriar as condições que levaram à perda de dados para identificar como isso aconteceu e impedir a recorrência. Para evitar mais perda de dados durante o teste, você é forçado a tornar indisponível a aplicação para seus usuários. 
+  Você está operando um serviço multilocatário e não consegue oferecer suporte a uma solicitação do cliente para um ambiente dedicado. 
+  Nem sempre você testa, mas, quando o faz, o teste acontece em seu ambiente de produção. 
+  Você acredita que a simplicidade de um único ambiente substitui o escopo do impacto das alterações dentro do ambiente. 
+  Você atualiza um recurso importante da zona de pouso, mas a mudança prejudica a capacidade da equipe de vender contas para novos projetos ou para workloads existentes. 
+  Você aplica novos controles às Contas da AWS, mas a mudança afeta a capacidade da sua equipe de workload de implantar mudanças dentro das Contas da AWS dela. 

 **Benefícios de implementar essa prática recomendada:** ao implantar vários ambientes, é possível oferecer suporte a vários ambientes simultâneos de desenvolvimento, teste e produção sem criar conflitos entre desenvolvedores ou comunidades de usuários. Para recursos complexos, como zonas de pouso, isso reduz significativamente o risco de mudanças, simplifica o processo de melhoria e reduz o risco de atualizações críticas no ambiente. Organizações que usam zonas de pouso naturalmente se beneficiam de várias contas no ambiente da AWS delas, com configurações de estrutura de contas, governança, rede e segurança. Com o tempo, à medida que a organização cresce, a zona de pouso pode evoluir para proteger e organizar as workloads e recursos. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Use vários ambientes e forneça aos desenvolvedores ambientes de sandbox com controles minimizados para permitir a experimentação. Forneça ambientes de desenvolvimento individuais para ajudar o trabalho em paralelo, aumentando a agilidade do desenvolvimento. Implemente controles mais rigorosos nos ambientes ao se aproximar da produção para permitir que os desenvolvedores inovem. Use a infraestrutura como sistemas de gerenciamento de código e configuração para implantar ambientes que são configurados de maneira consistente com os controles presentes na produção para garantir que os sistemas operem conforme o esperado quando implantados. Quando os ambientes não estiverem em uso, desligue-os para evitar custos associados a recursos inativos (por exemplo, sistemas de desenvolvimento à noite e fins de semana). Implante ambientes equivalentes de produção ao carregar o teste para melhorar resultados válidos. 

 Equipes como engenharia de plataforma, redes e operações de segurança geralmente gerenciam recursos no nível da organização com requisitos distintos. A separação de contas por si só é insuficiente para fornecer e manter ambientes separados para experimentação, desenvolvimento e teste. Nesses casos, crie instâncias separadas do AWS Organizations. 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+ [Agendador de instâncias na AWS](https://aws.amazon.com/solutions/implementations/instance-scheduler-on-aws/)
+  [O que é AWS CloudFormation?](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/Welcome.html) 
+ [Organizing Your AWS Environment Using Multiple Accounts - Multiple organizations - Test changes to your overall AWS environment](https://docs.aws.amazon.com/whitepapers/latest/organizing-your-aws-environment/multiple-organizations.html#test-changes-to-your-overall-aws-environment)
+ [Guia do AWS Control Tower](https://catalog.workshops.aws/control-tower)

# OPS05-BP09 Fazer alterações frequentes, pequenas e reversíveis
<a name="ops_dev_integ_freq_sm_rev_chg"></a>

 Alterações frequentes, pequenas e reversíveis reduzem o escopo e o impacto de uma alteração. Quando usadas em conjunto com sistemas de gerenciamento de alterações, sistemas de gerenciamento de configuração e sistemas de compilação e entrega, alterações frequentes, pequenas e reversíveis reduzem o escopo e o impacto de uma mudança. Isso resulta em solução de problemas mais eficaz e correção mais rápida, com a opção de reverter alterações. 

 **Práticas comuns que devem ser evitadas:** 
+  Você implanta uma nova versão de sua aplicação trimestralmente com uma janela de alteração que significa que um serviço principal está desativado. 
+  Você frequentemente faz alterações no esquema do banco de dados sem rastrear as alterações nos sistemas de gerenciamento. 
+  Você realiza atualizações manuais no local, substituindo as instalações e configurações existentes e não tem um plano claro de reversão. 

 **Benefícios de implantar esta prática recomendada:** os esforços de desenvolvimento são mais rápidos com a implantação frequente de pequenas alterações. Quando as alterações são pequenas, é muito mais fácil identificar se elas têm consequências indesejadas e são mais fáceis de serem revertidas. Quando as alterações são reversíveis, há menos risco de implementar a alteração à medida que a recuperação é simplificada. O processo de mudança tem um risco reduzido e o impacto de uma alteração malsucedida é reduzido. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Baixo 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Use alterações frequentes, pequenas e reversíveis para reduzir o escopo e o impacto de uma mudança. Isso facilita a solução de problemas, ajuda a fazer uma correção mais rápida e oferece a opção de reverter uma alteração. Além disso, aumenta a taxa na qual você pode agregar valor aos negócios. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS05-BP03 Usar sistemas de gerenciamento de configuração](ops_dev_integ_conf_mgmt_sys.md) 
+  [OPS05-BP04 Usar sistemas de gerenciamento de compilação e de implantação](ops_dev_integ_build_mgmt_sys.md) 
+  [OPS06-BP04 Automatizar os testes e a reversão](ops_mit_deploy_risks_auto_testing_and_rollback.md) 

 **Documentos relacionados:** 
+ [Implementar microsserviços na AWS](https://docs.aws.amazon.com/whitepapers/latest/microservices-on-aws/microservices-on-aws.html)
+ [Microservices: observabilidade](https://docs.aws.amazon.com/whitepapers/latest/microservices-on-aws/observability.html)

# OPS05-BP10 Automatizar totalmente a integração e a implantação
<a name="ops_dev_integ_auto_integ_deploy"></a>

 Automatize a construção, a implantação e o teste da workload. Isso reduz os erros causados pelos processos manuais e reduz o esforço para implantar alterações. 

 Aplique metadados usando [tags de recursos](https://docs.aws.amazon.com/general/latest/gr/aws_tagging.html) e [AWS Resource Groups](https://docs.aws.amazon.com/ARG/latest/APIReference/Welcome.html) seguindo uma estratégia consistente de [marcação com tags](https://aws.amazon.com/answers/account-management/aws-tagging-strategies/) para identificar seus recursos. Marque com tags seus recursos de organização, contabilidade de custos, controles de acesso pensando na execução de atividades operacionais automatizadas. 

 **Resultado desejado:** os desenvolvedores usam ferramentas para entregar códigos e levá-los até a produção. Os desenvolvedores não precisam fazer login no Console de gerenciamento da AWS para fazer atualizações. Há uma trilha de auditoria completa de alterações e configurações, o que atende às necessidades de governança e conformidade. Os processos são repetíveis e padronizados entre as equipes. Os desenvolvedores podem se concentrar no desenvolvimento e na introdução de código, aumentando a produtividade. 

 **Práticas comuns que devem ser evitadas:** 
+  Na sexta-feira, você conclui a criação do novo código para a ramificação do recurso. Na segunda-feira, depois de executar os scripts de teste de qualidade de código e cada um dos scripts de teste de unidade, você registra seu código para a próxima versão agendada. 
+  Você tem a tarefa de codificar uma correção para um problema crítico que afeta um grande número de clientes em produção. Depois de testar a correção, você confirma o gerenciamento de alterações de e-mail e código para solicitar aprovação para implantá-lo na produção. 
+  Como desenvolvedor, você faz login no Console de gerenciamento da AWS para criar um novo ambiente de desenvolvimento usando métodos e sistemas que não são padrão. 

 **Benefícios de implementar esta prática recomendada:**: ao implementar sistemas automatizados de gerenciamento de criação e implantação, você reduz os erros causados por processos manuais e o esforço para implantar alterações, ajudando os membros da equipe a se concentrarem na entrega de valor para a empresa. Você aumenta a velocidade de entrega à medida que avança até a produção. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Baixo 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Você usa sistemas de gerenciamento de criação e implantação para rastrear e implementar alterações, reduzir erros causados por processos manuais e reduzir o nível de esforço. Automatize totalmente o pipeline de integração e implantação desde o check-in do código até a compilação, o teste, a implantação e a validação. Isso reduz o tempo de espera, aumenta a frequência de alterações, reduz o nível de esforço, aumenta a velocidade de entrada no mercado, resulta em maior produtividade e aumenta a segurança do seu código à medida que você o leva até a produção. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS05-BP03 Usar sistemas de gerenciamento de configuração](ops_dev_integ_conf_mgmt_sys.md) 
+  [OPS05-BP04 Usar sistemas de gerenciamento de compilação e de implantação](ops_dev_integ_build_mgmt_sys.md) 

 **Documentos relacionados:** 
+  [O que é AWS CodeBuild?](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) 
+  [O que é AWS CodeDeploy?](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html) 

 **Vídeos relacionados:** 
+ [AWS re:Invent 2022: Práticas recomendadas do AWS Well-Architected para DevOps na AWS](https://youtu.be/hfXokRAyorA)

# OPS 6. Como reduzir os riscos de implantação?
<a name="ops-06"></a>

 Adote abordagens que forneçam feedback rápido sobre a qualidade e alcancem recuperação rápida de alterações que não têm os resultados desejados. O uso dessas práticas reduz o impacto dos problemas introduzidos pela implantação de mudanças. 

**Topics**
+ [OPS06-BP01 Preparar-se para alterações malsucedidas](ops_mit_deploy_risks_plan_for_unsucessful_changes.md)
+ [OPS06-BP02 Testar implantações](ops_mit_deploy_risks_test_val_chg.md)
+ [OPS06-BP03 Utilizar estratégias de implantação seguras](ops_mit_deploy_risks_deploy_mgmt_sys.md)
+ [OPS06-BP04 Automatizar os testes e a reversão](ops_mit_deploy_risks_auto_testing_and_rollback.md)

# OPS06-BP01 Preparar-se para alterações malsucedidas
<a name="ops_mit_deploy_risks_plan_for_unsucessful_changes"></a>

Planeje reverter para um bom estado anterior ou realize reparos no ambiente de produção se a implantação causar um resultado indesejado. Ter uma política para estabelecer esse plano ajuda todas as equipes a desenvolver estratégias para se recuperar de alterações com falha. Alguns exemplos de estratégias são etapas de implantação e reversão, políticas de alteração, sinalizadores de atributos, isolamento de tráfego e mudança de tráfego. Uma única versão pode incluir várias alterações de componentes relacionadas. A estratégia deve fornecer a possibilidade de resistir ou se recuperar de uma falha de qualquer alteração de componente.

 **Resultado desejado:** você preparou um plano de recuperação detalhado para a alteração, caso ela não tenha êxito. Além disso, você reduziu o tamanho da sua versão para minimizar o impacto potencial em outros componentes da workload. Como resultado, você reduziu o impacto nos negócios ao diminuir o possível tempo de inatividade decorrente de uma alteração malsucedida e aumentou a flexibilidade e a eficiência dos tempos de recuperação. 

 **Práticas comuns que devem ser evitadas:** 
+  Você executou uma implantação e sua aplicação se tornou instável, mas parece haver usuários ativos no sistema. Você precisa decidir se deseja reverter a alteração e afetar os usuários ativos ou esperar para reverter a alteração sabendo que, mesmo assim, os usuários podem ser afetados. 
+  Depois de fazer uma alteração de rotina, os novos ambientes ficam acessíveis, mas uma de suas sub-redes se tornou inacessível. Você precisa decidir se deseja reverter tudo ou tentar corrigir a sub-rede inacessível. Enquanto você estiver fazendo essa determinação, a sub-rede permanecerá inacessível. 
+  Seus sistemas não são arquitetados de uma forma que permita que sejam atualizados com versões menores. Como resultado, você tem dificuldade em reverter essas alterações em massa durante uma implantação com falha. 
+  Você não usa infraestrutura como código (IaC) e atualizações manuais foram feitas em sua infraestrutura que resultaram em uma configuração indesejada. Você não consegue rastrear e reverter com eficácia as alterações manuais. 
+  Como você não mediu o aumento da frequência das implantações, sua equipe não é incentivada a reduzir o tamanho das mudanças e melhorar seus planos de reversão para cada uma delas, gerando mais riscos e maiores taxas de falha. 
+  Você não mede a duração total de uma interrupção causada por alterações malsucedidas. A equipe não consegue priorizar e melhorar a eficácia do processo de implantação e do plano de recuperação. 

 **Benefícios de implementar esta prática recomendada:** ter um plano para se recuperar de mudanças malsucedidas minimiza o tempo médio de recuperação (MTTR) e reduz o impacto nos negócios. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 A adoção de uma política e prática documentadas e consistentes por parte das equipes de lançamento permitem que a organização planeje o que deve ocorrer se houver mudanças malsucedidas. A política deve permitir a correção em circunstâncias específicas. Seja qual for a situação, um plano de correção antecipada ou reversão deve ser bem documentado e testado antes da implantação na produção em tempo real, a fim de que o tempo necessário para reverter uma alteração seja minimizado. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  Documente as políticas que exigem que as equipes tenham planos efetivos para reverter as mudanças dentro de um período especificado. 

   1.  As políticas devem especificar quando uma situação de correção antecipada é permitida. 

   1.  Exija que um plano de reversão documentado seja acessível a todos os envolvidos. 

   1.  Especifique os requisitos de reversão (por exemplo, quando for constatado que foram implantadas alterações não autorizadas). 

1.  Analise o nível de impacto de todas as mudanças relacionadas a cada componente de uma workload. 

   1.  Permita que alterações repetíveis sejam padronizadas, modeladas e pré-autorizadas se seguirem um fluxo de trabalho consistente que imponha políticas de mudança. 

   1.  Reduza o impacto potencial de qualquer alteração diminuindo o tamanho dela para que a recuperação leve menos tempo e cause um impacto menor nos negócios. 

   1.  Garanta que os procedimentos de reversão revertam o código para um bom estado conhecido a fim de evitar incidentes sempre que possível. 

1.  Integre ferramentas e fluxos de trabalho para aplicar suas políticas de forma programática. 

1.  Torne os dados sobre as alterações visíveis para outros proprietários da workload a fim de melhorar a velocidade do diagnóstico de qualquer alteração malsucedida que não possa ser revertida. 

   1.  Avalie o sucesso dessa prática usando dados de mudança visíveis e identifique melhorias iterativas. 

1.  Use ferramentas de monitoramento para verificar o sucesso ou a falha de uma implantação a fim de acelerar a tomada de decisões sobre a reversão. 

1.  Meça a duração da interrupção durante uma alteração malsucedida para melhorar continuamente seus planos de recuperação. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS06-BP04 Automatizar os testes e a reversão](ops_mit_deploy_risks_auto_testing_and_rollback.md) 

 **Documentos relacionados:** 
+ [AWS Builders Library \$1 Garantir a segurança das reversões durante implantações](https://aws.amazon.com/builders-library/ensuring-rollback-safety-during-deployments/)
+ [Whitepaper da AWS \$1 Gerenciamento de alterações na nuvem](https://docs.aws.amazon.com/whitepapers/latest/change-management-in-the-cloud/change-management-in-the-cloud.html)

 **Vídeos relacionados:** 
+ [re:Invent 2019 \$1 A abordagem da Amazon a implantações de alta disponibilidade](https://aws.amazon.com/builders-library/amazon-approach-to-high-availability-deployment/)

# OPS06-BP02 Testar implantações
<a name="ops_mit_deploy_risks_test_val_chg"></a>

 Teste os procedimentos de lançamento na pré-produção usando a mesma configuração de implantação, controles de segurança, etapas e procedimentos da produção. Valide se todas as etapas implantadas foram concluídas conforme o esperado, como inspecionar arquivos, configurações e serviços. Teste mais detalhadamente todas as alterações com testes funcionais, de integração e de carga, além de qualquer monitoramento, como verificações de integridade. Ao fazer esses testes, você pode identificar problemas de implantação com antecedência, podendo planejá-los e mitigá-los antes da produção. 

 Você pode criar ambientes paralelos temporários para testar cada alteração. Automatize a implantação dos ambientes de teste usando a infraestrutura como código (IaC) para ajudar a reduzir a quantidade de trabalho envolvido e garantir estabilidade, consistência e entrega mais rápida de atributos. 

 **Resultado desejado:** a organização adota uma cultura de desenvolvimento orientada a testes que inclui testes de implantações. Isso garante que as equipes se concentrem em oferecer valor empresarial em vez de gerenciar lançamentos. As equipes são engajadas desde o início após a identificação dos riscos de implantação para determinar o curso apropriado da mitigação. 

 **Práticas comuns que devem ser evitadas:** 
+  Durante as versões de produção, implantações não testadas causam problemas frequentes que exigem soluções e encaminhamento. 
+  Sua versão contém infraestrutura como código (IaC) que atualiza os recursos existentes. Você não tem certeza se a IaC será executada com êxito ou causará impacto nos recursos. 
+  Você implanta um novo recurso na aplicação. Ele não funciona conforme o esperado e não há visibilidade até que o problema seja relatado pelos usuários afetados. 
+  Você atualiza seus certificados. Você instala acidentalmente os certificados nos componentes errados, o que não é detectado e afeta os visitantes do site porque não é possível estabelecer uma conexão segura. 

 **Benefícios de implementar esta prática recomendada:** testes extensivos na pré-produção dos procedimentos de implantação, considerando-se que as mudanças introduzidas por eles minimizam o impacto potencial na produção causado pelas etapas de implantação. Isso aumenta a confiança durante o lançamento para produção e minimiza o suporte operacional sem diminuir a velocidade das alterações que estão sendo entregues. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Testar seu processo de implantação é tão importante quanto testar as alterações resultantes da implantação. Isso poderá ser realizado testando-se suas etapas de implantação em um ambiente de pré-produção que se assemelhe o máximo possível à produção. Problemas comuns, como etapas de implantação incompletas ou incorretas, ou configurações incorretas, podem ser detectados como resultado antes da produção. Além disso, você pode testar suas etapas de recuperação. 

 **Exemplo de cliente** 

 Como parte do pipeline de integração e entrega contínuas (CI/CD), a AnyCompany Retail executa as etapas definidas necessárias para lançar atualizações de infraestrutura e software para seus clientes em um ambiente semelhante ao de produção. O pipeline é composto por pré-verificações para detectar desvios (detecção de alterações nos recursos executados fora da IaC) nos recursos antes da implantação, bem como validar as ações que a IaC realiza após seu início. Ele valida as etapas de implantação, como verificar se determinados arquivos e configurações estão em vigor e se os serviços estão em execução e respondendo corretamente às verificações de integridade no host local antes de serem registrados novamente no balanceador de carga. Além disso, todas as alterações sinalizam vários testes automatizados, como testes funcionais e de segurança, regressão, integração e carga. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  Execute verificações de pré-instalação para espelhar o ambiente de pré-produção na produção. 

   1.  Use a [detecção de desvios](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/using-cfn-stack-drift.html) para detectar quando os recursos foram alterados fora do CloudFormation. 

   1.  Use [conjuntos de alterações](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/using-cfn-updating-stacks-changesets.html) para validar se a intenção da atualização da pilha corresponde às ações que o CloudFormation realiza quando o conjunto de alterações é iniciado. 

1.  Isso aciona uma etapa de aprovação manual ao [AWS CodePipeline](https://docs.aws.amazon.com/codepipeline/latest/userguide/approvals.html) para autorizar a implantação no ambiente de pré-produção. 

1.  Use configurações de implantação, como arquivos [AppSpec do AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/application-specification-files.html), para definir as etapas de implantação e validação. 

1.  Quando aplicável, [integre o AWS CodeDeploy a outros serviços da AWS](https://docs.aws.amazon.com/codedeploy/latest/userguide/integrations-aws.html) ou [integre o AWS CodeDeploy a produtos e serviços de parceiros](https://docs.aws.amazon.com/codedeploy/latest/userguide/integrations-partners.html). 

1.  [Monitore implantações](https://docs.aws.amazon.com/codedeploy/latest/userguide/monitoring.html) usando o Amazon CloudWatch, o AWS CloudTrail e as notificações de eventos do Amazon SNS. 

1.  Execute testes automatizados pós-implantação, incluindo testes funcionais, de segurança, regressão, integração e carga. 

1.  [Solucione](https://docs.aws.amazon.com/codedeploy/latest/userguide/troubleshooting.html) problemas de implantação. 

1.  A validação bem-sucedida das etapas anteriores deve iniciar um fluxo de trabalho de aprovação manual para autorizar a implantação na produção. 

 **Nível de esforço do plano de implementação:** Alto 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS05-BP02 Testar e validar alterações](ops_dev_integ_test_val_chg.md) 

 **Documentos relacionados:** 
+ [AWS Builders' Library \$1 Automatizar implantações autônomas e seguras \$1 Testar implantações ](https://aws.amazon.com/builders-library/automating-safe-hands-off-deployments/#Test_deployments_in_pre-production_environments)
+ [Whitepaper da AWS \$1 Praticar a integração e entrega contínuas na AWS](https://docs.aws.amazon.com/whitepapers/latest/practicing-continuous-integration-continuous-delivery/testing-stages-in-continuous-integration-and-continuous-delivery.html)
+ [A história da Apollo: o mecanismo de implantação da Amazon](https://www.allthingsdistributed.com/2014/11/apollo-amazon-deployment-engine.html)
+  [Como testar e depurar o AWS CodeDeploy localmente antes de enviar seu código](https://aws.amazon.com/blogs/devops/how-to-test-and-debug-aws-codedeploy-locally-before-you-ship-your-code/) 
+ [Integrar testes de conectividade de rede com implantação da infraestrutura](https://aws.amazon.com/blogs/networking-and-content-delivery/integrating-network-connectivity-testing-with-infrastructure-deployment/)

 **Vídeos relacionados:** 
+ [re:Invent 2020 \$1 Testar software e sistemas na Amazon](https://www.youtube.com/watch?v=o1sc3cK9bMU)

 **Exemplos relacionados:** 
+ [Tutorial \$1 Implantar um serviço do Amazon ECS com um teste de validação](https://docs.aws.amazon.com/codedeploy/latest/userguide/tutorial-ecs-deployment-with-hooks.html)

# OPS06-BP03 Utilizar estratégias de implantação seguras
<a name="ops_mit_deploy_risks_deploy_mgmt_sys"></a>

 Implantações seguras de produção controlam o fluxo de mudanças benéficas com o objetivo de minimizar qualquer impacto percebido dessas alterações para os clientes. Os controles de segurança fornecem mecanismos de inspeção para validar os resultados desejados e limitar o escopo do impacto dos defeitos introduzidos pelas alterações ou das falhas de implantação. As implementações seguras podem incluir estratégias como sinalizadores de atributos e implantações one-box, contínuas (versões canário), imutáveis, de divisão de tráfego e azuis/verdes. 

 **Resultado desejado:** sua organização usa um sistema de integração e entrega contínuas (CI/CD) que fornece recursos para automatizar implementações seguras. As equipes devem usar estratégias apropriadas de implantação seguras. 

 **Práticas comuns que devem ser evitadas:** 
+  Você implanta uma alteração malsucedida em toda a produção de uma só vez. Como resultado, todos os clientes são afetados simultaneamente. 
+  Um defeito introduzido em uma implantação simultânea em todos os sistemas requer um lançamento de emergência. A correção para todos os clientes leva vários dias. 
+  O gerenciamento da versão de produção requer planejamento e participação de várias equipes. Isso restringe sua capacidade de atualizar atributos com frequência para seus clientes. 
+  Você executa uma implantação mutável modificando os sistemas existentes. Depois de descobrir que a alteração não foi bem-sucedida, você será forçado a modificar os sistemas novamente para restaurar a versão antiga, aumentando o seu tempo de recuperação. 

 **Benefícios de implementar esta prática recomendada:** as implantações automatizadas equilibram a velocidade das implementações com a entrega consistente de mudanças benéficas para os clientes. Limitar o impacto evita falhas de implantação dispendiosas e maximiza a capacidade das equipes de responder às falhas de forma eficiente. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Falhas na entrega contínua podem levar à redução da disponibilidade do serviço e a uma experiência ruim para o cliente. Para maximizar a taxa de implantações bem-sucedidas, implemente controles de segurança no processo de lançamento de ponta a ponta para minimizar os erros de implantação e eliminar as falhas. 

 **Exemplo de cliente** 

 A AnyCompany Retail tem a missão de alcançar implantações com tempo de inatividade entre mínimo e zero, ou seja, sem impacto perceptível para seus usuários durante as implantações. Para fazer isso, a empresa estabeleceu padrões de implantação (consulte o diagrama de fluxo de trabalho a seguir), como implantações azuis/verdes e contínuas. Todas as equipes adotam um ou mais desses padrões no pipeline de CI/CD. 


| Fluxo de trabalho do CodeDeploy para Amazon EC2 | Fluxo de trabalho do CodeDeploy para Amazon ECS | Fluxo de trabalho do CodeDeploy para Lambda | 
| --- | --- | --- | 
|  ![\[Fluxo do processo de implantação para Amazon EC2\]](http://docs.aws.amazon.com/pt_br/wellarchitected/latest/framework/images/deployment-process-ec2.png)  |  ![\[Fluxo do processo de implantação para Amazon ECZ\]](http://docs.aws.amazon.com/pt_br/wellarchitected/latest/framework/images/deployment-process-ecs.png)  |  ![\[Fluxo do processo de implantação para Lambda\]](http://docs.aws.amazon.com/pt_br/wellarchitected/latest/framework/images/deployment-process-lambda.png)  | 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  Use um fluxo de trabalho de aprovação para iniciar a sequência das etapas de implantação na promoção para implantação. 

1.  Use um sistema de implantação automatizado, como o [AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html). As as [opções de implantação do AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/deployment-steps.html) incluem implantações no local para EC2/on-premises e implantações azuis/verdes para EC2/on-premises, AWS Lambda e Amazon ECS (consulte o diagrama do fluxo de trabalho anterior). 

   1.  Quando aplicável, [integre o AWS CodeDeploy a outros serviços da AWS](https://docs.aws.amazon.com/codedeploy/latest/userguide/integrations-aws.html) ou [integre o AWS CodeDeploy a produtos e serviços de parceiros](https://docs.aws.amazon.com/codedeploy/latest/userguide/integrations-partners.html). 

1.  Use implantações azuis/verdes para bancos de dados como [Amazon Aurora](https://docs.aws.amazon.com/AmazonRDS/latest/AuroraUserGuide/blue-green-deployments.html) e [Amazon RDS](https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/blue-green-deployments.html). 

1.  [Monitore implantações](https://docs.aws.amazon.com/codedeploy/latest/userguide/monitoring.html) usando o Amazon CloudWatch, o AWS CloudTrail e as notificações de eventos do Amazon Simple Notiﬁcation Service (Amazon SNS). 

1.  Realize testes automatizados pós-implantação, incluindo testes funcionais, de segurança, regressão, integração e testes de carga. 

1.  [Solucione](https://docs.aws.amazon.com/codedeploy/latest/userguide/troubleshooting.html) problemas de implantação. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS05-BP02 Testar e validar alterações](ops_dev_integ_test_val_chg.md) 
+  [OPS05-BP09 Fazer alterações frequentes, pequenas e reversíveis](ops_dev_integ_freq_sm_rev_chg.md) 
+  [OPS05-BP10 Automatizar totalmente a integração e a implantação](ops_dev_integ_auto_integ_deploy.md) 

 **Documentos relacionados:** 
+ [AWS Builders' Library \$1 Automatizar implantações seguras e sem intervenção manual \$1 Implantações de produção](https://aws.amazon.com/builders-library/automating-safe-hands-off-deployments/?did=ba_card&trk=ba_card#Production_deployments)
+ [AWS Builders Library \$1 Meu pipeline de CI/CD é meu capitão de lançamentos \$1 Lançamentos de produção seguros e automáticos](https://aws.amazon.com//builders-library/cicd-pipeline/#Safe.2C_automatic_production_releases)
+ [Whitepaper da AWS \$1 Praticar integração e entrega contínuas na AWS \$1 Métodos de implantação](https://docs.aws.amazon.com/whitepapers/latest/practicing-continuous-integration-continuous-delivery/deployment-methods.html)
+ [AWS CodeDeploy Guia do usuário do](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html)
+ [Trabalhar com configurações de implantação no AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/deployment-configurations.html)
+ [Configurar uma implantação de versão canário do API Gateway](https://docs.aws.amazon.com/apigateway/latest/developerguide/canary-release.html)
+ [Tipos de implantação do Amazon ECS](https://docs.aws.amazon.com/)
+ [Implantações azuis/verdes totalmente gerenciadas no Amazon Aurora e no Amazon RDS](https://aws.amazon.com/blogs/aws/new-fully-managed-blue-green-deployments-in-amazon-aurora-and-amazon-rds/)
+ [Implantações azuis/verdes com o AWS Elastic Beanstalk](https://docs.aws.amazon.com/elasticbeanstalk/latest/dg/using-features.CNAMESwap.html)

 **Vídeos relacionados:** 
+ [re:Invent 2020 \$1 Sem intervenção manual: como automatizar os pipelines de entrega contínua na Amazon](https://www.youtube.com/watch?v=ngnMj1zbMPY)
+ [re:Invent 2019 \$1 A abordagem da Amazon a implantações de alta disponibilidade](https://www.youtube.com/watch?v=bCgD2bX1LI4)

 **Exemplos relacionados:** 
+ [Testar uma implantação azul/verde de exemplo no AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/applications-create-blue-green.html)
+ [ Workshop \$1 Building CI/CD pipelines for Lambda canary deployments using AWS CDK](https://catalog.workshops.aws/cdk-cicd-for-lambda-canary-deployment/en-US) 
+ [ Workshop \$1 Building your first DevOps Blue/Green pipeline with Amazon ECS ](https://catalog.us-east-1.prod.workshops.aws/workshops/4b59b9fb-48b6-461c-9377-907b2e33c9df/en-US)
+ [ Workshop \$1 Building your first DevOps Blue/Green pipeline with Amazon EKS ](https://catalog.us-east-1.prod.workshops.aws/workshops/4eab6682-09b2-43e5-93d4-1f58fd6cff6e/en-US)
+ [ Workshop \$1 EKS GitOps with ArgoCD ](https://catalog.workshops.aws/eksgitops-argocd-githubactions)
+ [ Workshop \$1 CI/CD on AWS Workshop ](https://catalog.workshops.aws/cicdonaws/en-US)
+ [Implementar CI/CD entre contas com AWS SAM para funções do Lambda baseadas em contêineres ](https://aws.amazon.com/blogs/compute/implementing-cross-account-cicd-with-aws-sam-for-container-based-lambda/)

# OPS06-BP04 Automatizar os testes e a reversão
<a name="ops_mit_deploy_risks_auto_testing_and_rollback"></a>

 Para aumentar a velocidade, a confiabilidade e a confiança do seu processo de implantação, tenha uma estratégia para testes automatizados e recursos de reversão em ambientes de pré-produção e produção. Automatize os testes ao implantar na produção para simular interações entre humanos e sistemas que verifiquem as alterações que estão sendo implantadas. Automatize a reversão para voltar rapidamente a um estado anterior em boas condições. A reversão deve ser iniciada automaticamente em condições predefinidas, como quando o resultado desejado da alteração não é alcançado ou quando o teste automatizado falha. A automação dessas duas atividades melhora a taxa de sucesso das implantações, minimiza o tempo de recuperação e reduz o impacto potencial nos negócios. 

 **Resultado desejado:** os testes automatizados e as estratégias de reversão são integrados ao pipeline de integração e entrega contínuas (CI/CD). O monitoramento é capaz de validar seus critérios de sucesso e iniciar a reversão automática em caso de falha. Isso minimiza qualquer impacto para usuários finais e clientes. Por exemplo, quando todos os resultados do teste são satisfatórios, você promove seu código no ambiente de produção em que o teste de regressão automatizado é iniciado, utilizando os mesmos casos de teste. Se os resultados do teste de regressão não corresponderem às expectativas, a reversão automática será iniciada no fluxo de trabalho do pipeline. 

 **Práticas comuns que devem ser evitadas:** 
+  Seus sistemas não são arquitetados de uma forma que permita que sejam atualizados com versões menores. Como resultado, você tem dificuldade em reverter essas alterações em massa durante uma implantação com falha. 
+  O processo de implantação consiste em uma série de etapas manuais. Depois de implantar as alterações na workload, você inicia os testes pós-implantação. Após o teste, você percebe que a workload está inoperante e os clientes estão desconectados. Em seguida, você começa a reverter para a versão anterior. Todas essas etapas manuais atrasam a recuperação geral do sistema e causam um impacto prolongado para os clientes. 
+  Você dedicou tempo para desenvolver casos de teste automatizados para funcionalidades que não são usadas com frequência na aplicação, minimizando o retorno sobre o investimento no recurso de teste automatizado. 
+  Sua versão é composta de atualizações de aplicações, infraestrutura, patches e configuração que são independentes umas das outras. No entanto, você tem um único pipeline de CI/CD que fornece todas as alterações de uma só vez. Uma falha em um componente força você a reverter todas as alterações, tornando a reversão complexa e ineficiente. 
+  A equipe conclui o trabalho de codificação no primeiro sprint e inicia o trabalho no segundo sprint, mas seu plano não incluiu testes até o terceiro sprint. Como resultado, os testes automatizados revelaram defeitos do primeiro sprint que precisavam ser resolvidos antes que o teste dos resultados do segundo sprint pudesse ser iniciado, adiando todo o lançamento e desvalorizando seus testes automatizados. 
+  Seus casos de teste de regressão automatizados para a versão de produção estão completos, mas você não está monitorando a integridade da workload. Como você não tem visibilidade sobre se o serviço foi reiniciado, você não tem certeza se a reversão é necessária ou se ela já ocorreu. 

 **Benefícios de implementar esta prática recomendada:** o teste automatizado aumenta a transparência do processo de teste e a capacidade de abranger mais atributos em um período mais curto. Ao testar e validar as mudanças na produção, é possível identificar problemas imediatamente. A melhoria na consistência com ferramentas de teste automatizadas permite uma melhor detecção de defeitos. Ao reverter automaticamente para a versão anterior, o impacto sobre seus clientes é minimizado. A reversão automatizada acaba inspirando mais confiança em seus recursos de implantação ao reduzir o impacto nos negócios. No geral, esses recursos reduzem o tempo de entrega e, ao mesmo tempo, garantem a qualidade. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Automatize os testes dos ambientes implantados para confirmar os resultados desejados mais rapidamente. Automatize a reversão para um bom estado anterior conhecido quando os resultados predefinidos não forem alcançados, para minimizar o tempo de recuperação e reduzir os erros causados por processos manuais. Integre ferramentas de teste com seu fluxo de trabalho de pipeline para testar e minimizar as entradas manuais de forma consistente. Priorize a automação de casos de teste, como aqueles que mitigam os maiores riscos e precisam ser testados com frequência a cada alteração. Além disso, automatize a reversão com base em condições específicas predefinidas no plano de teste. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  Estabeleça um ciclo de vida de teste para o ciclo de vida de desenvolvimento que defina cada estágio do processo de teste, desde o planejamento dos requisitos até o desenvolvimento do caso de teste, a configuração da ferramenta, o teste automatizado e o encerramento do caso de teste. 

   1.  Crie uma abordagem de teste específica para workloads com base em sua estratégia geral de teste. 

   1.  Considere uma estratégia de teste contínuo, quando apropriado, durante o ciclo de vida do desenvolvimento. 

1.  Selecione ferramentas automatizadas para testes e reversões com base em seus requisitos de negócios e investimentos em pipeline. 

1.  Decida quais casos de teste você deseja automatizar e quais deverão ser executados manualmente. Eles podem ser definidos com base na prioridade do valor comercial do atributo que está sendo testado. Alinhe todos os membros da equipe a esse plano e verifique a responsabilidade pela realização de testes manuais. 

   1.  Aplique recursos de teste automatizados a casos de teste específicos que façam sentido para automação, como casos repetíveis ou executados com frequência, aqueles que exigem tarefas repetitivas ou aqueles que são necessários em várias configurações. 

   1.  Defina scripts de automação de testes, bem como os critérios de sucesso na ferramenta de automação, para que a automação contínua do fluxo de trabalho possa ser iniciada quando casos específicos falharem. 

   1.  Defina critérios de falha específicos para a reversão automatizada. 

1.  Priorize a automação de testes para gerar resultados consistentes com o desenvolvimento completo de casos de teste em que a complexidade e a interação humana têm um risco maior de falha. 

1.  Integre as ferramentas automatizadas de teste e reversão no pipeline de CI/CD. 

   1.  Desenvolva critérios claros de sucesso para as alterações. 

   1.  Monitore e observe para detectar esses critérios e reverter automaticamente as alterações quando critérios específicos de reversão forem atendidos. 

1.  Execute diferentes tipos de teste de produção automatizados, como: 

   1.  Teste A/B para mostrar resultados em comparação com a versão atual entre dois grupos de teste de usuários. 

   1.  Teste canário, que permite implantar a alteração em um subconjunto de usuários antes de lançá-la para todos. 

   1.  Teste de sinalização de atributos, que permite que a sinalização de um único atributo da nova versão seja ativada e desativada de fora da aplicação para que cada novo atributo possa ser validado individualmente. 

   1.  Teste de regressão para verificar novas funcionalidades com componentes inter-relacionados existentes. 

1.  Monitore os aspectos operacionais da aplicação, das transações e das interações com outras aplicações e componentes. Desenvolva relatórios para mostrar o sucesso das alterações por workload e identificar quais partes da automação e do fluxo de trabalho podem ser otimizadas ainda mais. 

   1.  Desenvolva relatórios de resultados de testes que ajudem você a tomar decisões rápidas sobre se os procedimentos de reversão devem ou não ser invocados. 

   1.  Implemente uma estratégia que permita a reversão automatizada com base em condições de falha predefinidas que resultam de um ou mais de seus métodos de teste. 

1.  Desenvolva seus casos de teste automatizados para permitir a reutilização em futuras alterações repetíveis. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS06-BP01 Preparar-se para alterações malsucedidas](ops_mit_deploy_risks_plan_for_unsucessful_changes.md) 
+  [OPS06-BP02 Testar implantações](ops_mit_deploy_risks_test_val_chg.md) 

 **Documentos relacionados:** 
+ [AWS Builders Library \$1 Garantir a segurança das reversões durante implantações](https://aws.amazon.com/builders-library/ensuring-rollback-safety-during-deployments/)
+  [Reimplantar e reverter uma implantação com a AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/deployments-rollback-and-redeploy.html) 
+ [Oito práticas recomendadas para automatizar suas implantações com o AWS CloudFormation](https://aws.amazon.com/blogs/infrastructure-and-automation/best-practices-automating-deployments-with-aws-cloudformation/)

 **Exemplos relacionados:** 
+ [Teste de interface do usuário sem servidor usando Selenium, AWS Lambda, AWS Fargate e as Ferramentas de desenvolvedor da AWS](https://aws.amazon.com/blogs/devops/using-aws-codepipeline-aws-codebuild-and-aws-lambda-for-serverless-automated-ui-testing/)

 **Vídeos relacionados:** 
+ [re:Invent 2020 \$1 Sem intervenção manual: como automatizar os pipelines de entrega contínua na Amazon](https://www.youtube.com/watch?v=ngnMj1zbMPY)
+ [re:Invent 2019 \$1 A abordagem da Amazon a implantações de alta disponibilidade](https://www.youtube.com/watch?v=bCgD2bX1LI4)

# OPS 7. Como saber se está tudo pronto para oferecer suporte a uma workload?
<a name="ops-07"></a>

 Avalie a prontidão operacional de sua workload, processos/procedimentos e pessoal para entender os riscos operacionais relacionados. 

**Topics**
+ [OPS07-BP01 Garantir a capacidade da equipe](ops_ready_to_support_personnel_capability.md)
+ [OPS07-BP02 Garantir uma revisão consistente da prontidão operacional](ops_ready_to_support_const_orr.md)
+ [OPS07-BP03 Usar runbooks para realizar procedimentos](ops_ready_to_support_use_runbooks.md)
+ [OPS07-BP04 Usar playbooks para investigar problemas](ops_ready_to_support_use_playbooks.md)
+ [OPS07-BP05 Tomar decisões embasadas para implantar sistemas e alterações](ops_ready_to_support_informed_deploy_decisions.md)
+ [OPS07-BP06 Criar planos de suporte para workloads de produção](ops_ready_to_support_enable_support_plans.md)

# OPS07-BP01 Garantir a capacidade da equipe
<a name="ops_ready_to_support_personnel_capability"></a>

Adote um mecanismo para validar que você tem o número adequado de funcionários treinados para fornecer suporte à workload. Eles devem ter treinamento para a plataforma e os serviços que compõem sua workload. Forneça a eles o conhecimento necessário para operar a workload. É necessário ter o número suficiente de funcionários treinados para oferecer suporte à operação da workload e solucionar os incidentes que ocorrerem. Tenha funcionários suficientes para que seja possível fazer uma rotação durante plantões e férias a fim de evitar a exaustão. 

 **Resultado desejado:** 
+  Há um número suficiente de funcionários treinados para oferecer suporte à workload quando ela estiver disponível. 
+  Você fornece treinamento para seus funcionários sobre software e serviços que compõem a workload. 

 **Práticas comuns que devem ser evitadas:** 
+ Implantar uma workload sem membros da equipe treinados para operar a plataforma e os serviços em uso. 
+  Não ter funcionários suficientes para oferecer suporte à rotaçõ\$1es de plantão ou folga de funcionários. 

 **Benefícios de implementar esta prática recomendada:** 
+  Ter membros da equipe qualificados possibilita o suporte eficaz da sua workload. 
+  Com um número suficiente de membros na equipe, é possível dar conta da workload e das rotações de plantão, reduzindo o risco de exaustão. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Valide se há um número suficiente de funcionários treinados para oferecer suporte à workload. Verifique se você tem membros da equipe suficientes para cobrir as atividades operacionais normais, incluindo rotações de plantão. 

 **Exemplo de cliente** 

 A AnyCompany Retail garante que as equipes que oferecem suporte à workload estejam completas e treinadas. Há engenheiros suficientes para oferecer suporte a uma rotação de plantão. Os funcionários têm treinamento referente ao software e à plataforma na qual a workload é criada e são incentivados a obter certificações. Há funcionários suficientes para que as pessoas possam tirar folgas enquanto mantêm o suporte à workload e à rotação de plantões. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  Atribua um número adequado de funcionários para operar e fornecer suporte à sua workload, incluindo tarefas de plantão, questões de segurança e eventos de ciclo de vida, como fim do suporte e tarefas de alternância de certificados. 

1.  Treine seus funcionários referente ao software e às plataformas que compõem a workload. 

   1.  A [AWS Training and Certification](https://aws.amazon.com/training/) oferece uma biblioteca de cursos sobre a AWS. Cursos pagos e gratuitos, online e presenciais, estão disponíveis. 

   1.  A [AWS organiza eventos e webinars](https://aws.amazon.com/events/) nos quais você aprende com especialistas da AWS. 

1. Realize o seguinte regularmente: 
   +  Avalie o tamanho e as habilidades da equipe à medida que as condições operacionais e a workload mudam. 
   +  Ajuste o tamanho e as habilidades da equipe para corresponderem aos requisitos operacionais. 
   +  Verifique a habilidade e a capacidade de lidar com [eventos planejados do ciclo de vida](https://docs.aws.amazon.com/health/latest/ug/aws-health-planned-lifecycle-events.html), segurança não planejada e notificações operacionais por meio do AWS Health. 

 **Nível de esforço do plano de implementação:** Alto. Contratar e treinar uma equipe para fornecer suporte a uma workload pode exigir um esforço significativo, mas traz benefícios substanciais de longo prazo. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS11-BP04 Gerenciar o conhecimento](ops_evolve_ops_knowledge_management.md): os membros da equipe devem ter as informações necessárias para operar e fornecer suporte à workload. O gerenciamento de conhecimento é fundamental para isso. 

 **Documentos relacionados:** 
+  [Eventos e webinars da AWS](https://aws.amazon.com/events/) 
+  [AWS Training and Certification](https://aws.amazon.com/training/) 

# OPS07-BP02 Garantir uma revisão consistente da prontidão operacional
<a name="ops_ready_to_support_const_orr"></a>

Use revisões de prontidão operacional (ORRs) para validar que você pode operar sua workload. A ORR é um mecanismo desenvolvido na Amazon para validar que as equipes podem operar as workloads com segurança. Uma ORR é um processo de análise e inspeção que usa uma lista de verificação de requisitos. Uma ORR é uma experiência de autoatendimento que as equipes usam para certificar suas workloads. As ORRs incluem práticas recomendadas de lições aprendidas de nossos anos de experiência na criação de software. 

 Uma lista de verificação de ORR é composta de recomendações de arquitetura, processo operacional, gerenciamento de evento e qualidade de lançamento. Nosso processo de Correção de erros (CoE) é um motivador principal desses itens. Sua própria análise pós-incidente deve impulsionar a evolução de sua própria ORR. Uma ORR não é apenas sobre seguir as práticas recomendadas, mas evitar a recorrência de eventos que você já viu. Por fim, os requisitos de segurança, governança e conformidade também podem ser incluídos em uma ORR. 

 Execute ORRs antes do lançamento de uma workload para disponibilidade geral e por todo o ciclo de vida de desenvolvimento do software. A execução da ORR antes do lançamento aumenta a capacidade de operar a workload com segurança. Execute a ORR periodicamente na workload para identificar qualquer desvio das práticas recomendadas. Você pode ter listas de verificação da ORR para o lançamento de outros serviços e ORRs para avaliações periódicas. Isso ajuda a manter você em dia com as novas práticas recomendadas que surgem e incorporar as lições aprendidas da análise pós-incidente. À medida que seu uso da nuvem amadurece, é possível criar requisitos de ORR em sua arquitetura como padrões. 

 **Resultado desejado:** você tem uma lista de verificação da ORR com as práticas recomendadas para sua organização. As ORRs são realizadas antes do lançamento das workloads. As ORRs são executadas periodicamente ao longo do ciclo de vida da workload. 

 **Práticas comuns que devem ser evitadas:** 
+ Você lança uma workload sem saber se pode operá-la. 
+ Os requisitos de governança e segurança não estão incluídos na certificação de uma workload para o lançamento. 
+ As workloads não são reavaliadas periodicamente. 
+ As workloads são lançadas sem a aplicação dos procedimentos exigidos. 
+ Você vê a repetição das mesmas falhas da causa-raiz em várias workloads. 

 **Benefícios de implementar esta prática recomendada:** 
+  Suas workloads incluem práticas recomendadas de arquitetura, processo e gerenciamento. 
+  As lições aprendidas são incorporadas em seu processo de ORR. 
+  Os procedimentos exigidos estão em vigor no lançamento das workloads. 
+  As ORRs são executadas durante todo o ciclo de vida do software das workloads. 

 **Nível de risco se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Uma ORR é composta por dois elementos: um processo e uma lista de verificação. O processo da ORR deve ser adotado pela organização e ter o apoio de um patrocinador executivo. No mínimo, as ORRs devem ser realizadas antes do lançamento da workload para disponibilidade geral. Execute a ORR ao longo de todo o ciclo de vida de desenvolvimento do software para mantê-la atualizada com as práticas recomendadas ou os novos requisitos. A lista de verificação da ORR deve incluir itens de configuração, requisitos de segurança e governança e práticas recomendadas de sua organização. Com o tempo, você pode usar serviços como [AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html), [AWS Security Hub CSPM](https://docs.aws.amazon.com/securityhub/latest/userguide/what-is-securityhub.html) e [AWS Control Tower Guardrails](https://docs.aws.amazon.com/controltower/latest/userguide/guardrails.html) para criar as práticas recomendadas do ORR em grades de proteção para a detecção automática de práticas recomendadas. 

 **Exemplo de cliente** 

 Depois de vários incidentes na produção, a AnyCompany Retail decidiu implementar um processo de ORR. Ela criou uma lista de verificação composta de práticas recomendadas, requisitos de governança e conformidade e lições aprendidas de interrupções. As novas workloads passam pelo processo de ORR antes do lançamento. Uma ORR é realizada anualmente para cada workload com um subconjunto de práticas recomendadas para incorporar novas práticas recomendadas e requisitos que são adicionados à lista de verificação da ORR. A AnyCompany Retail usava o [AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html) para detectar algumas das práticas recomendadas, acelerando o processo de ORR. 

 **Etapas de implementação** 

 Para saber mais sobre ORRs, leia o whitepaper [Revisões de prontidão operacional (ORR](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/wa-operational-readiness-reviews.html)). Ele fornece informações detalhadas sobre o histórico do processo de ORR, como criar sua própria prática de ORR e como desenvolver sua lista de verificação da ORR. As etapas a seguir são uma versão resumida desse documento. Para uma compreensão aprofundada do que são as ORRs e de como criar sua própria revisão, recomendamos a leitura desse whitepaper. 

1. Reúna as principais partes interessadas, incluindo os representantes de segurança, operações e desenvolvimento. 

1. Peça para cada parte interessada fornecer pelo menos um requisito. Para a primeira iteração, tente limitar o número de itens para trinta ou menos. 
   +  O [Apêndice B: Perguntas de exemplo sobre ORR](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/appendix-b-example-orr-questions.html) do whitepaper Revisões de prontidão operacional (ORR) contém exemplos de perguntas que você pode usar para começar. 

1. Reúna seus requisitos em uma planilha. 
   + Você pode usar [lentes personalizadas](https://docs.aws.amazon.com/wellarchitected/latest/userguide/lenses-custom.html) no [AWS Well-Architected Tool](https://console.aws.amazon.com/wellarchiected/) para desenvolver sua ORR e compartilhá-la entre suas contas e sua organização da AWS. 

1. Identifique uma workload na qual realizar a ORR. O ideal seria em uma workload em pré-lançamento ou uma workload interna. 

1. Execute a lista de verificação completa da ORR e anote as descobertas feitas. As descobertas poderão ser aceitáveis caso esteja ocorrendo uma mitigação. Para descobertas que não tenham uma mitigação, acrescente-as à sua lista de pendências e implemente-as antes do lançamento. 

1. Continue a adicionar práticas recomendadas e requisitos à sua lista de verificação de ORR ao longo do tempo. 

 Os clientes do Suporte com Enterprise Support podem solicitar o [workshop Revisões de prontidão operacional](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/) a seus gerentes técnicos de conta. O workshop é uma sessão de *trabalho retroativo* interativa que permite desenvolver sua própria lista de verificação de ORR. 

 **Nível de esforço do plano de implementação:** Alto. Adotar uma prática de ORR em sua organização exige a adesão de um patrocinador executivo e das partes interessadas. Crie e atualize a lista de verificação com as opiniões de toda a sua organização. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+ [OPS01-BP03 Avaliar os requisitos de governança](ops_priorities_governance_reqs.md): os requisitos de governança são uma opção natural para uma lista de verificação de ORR. 
+ [OPS01-BP04 Avaliar os requisitos de conformidade](ops_priorities_compliance_reqs.md): os requisitos de conformidade algumas vezes são incluídos em uma lista de verificação de ORR. Em outras, eles constituem um processo separado. 
+ [OPS03-BP07 Fornecer recursos adequados às equipes](ops_org_culture_team_res_appro.md): a capacidade da equipe é uma boa candidata para um requisito de ORR. 
+ [OPS06-BP01 Preparar-se para alterações malsucedidas](ops_mit_deploy_risks_plan_for_unsucessful_changes.md): um plano de reversão ou avanço deve ser estabelecido antes do lançamento da workload. 
+ [OPS07-BP01 Garantir a capacidade da equipe](ops_ready_to_support_personnel_capability.md): para acomodar uma workload, você deve ter o pessoal necessário. 
+ [SEC01-BP03 Identificar e validar objetivos de controle](https://docs.aws.amazon.com/wellarchitected/latest/framework/sec_securely_operate_control_objectives.html): os objetivos de controle de segurança são excelentes requisitos de ORR. 
+ [REL13-BP01 Definir objetivos de recuperação tempo de inatividade e perda de dados](https://docs.aws.amazon.com/wellarchitected/latest/framework/rel_planning_for_recovery_objective_defined_recovery.html): planos de recuperação de desastres são um bom requisito de ORR. 
+ [COST02-BP01 Desenvolver políticas com base nos requisitos da sua organização](https://docs.aws.amazon.com/wellarchitected/latest/framework/cost_govern_usage_policies.html): políticas de gerenciamento de custos podem ser incluídas em sua lista de verificação de ORR. 

 **Documentos relacionados:** 
+  [AWS Control Tower: barreiras de proteção no AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/guardrails.html) 
+  [AWS Well-Architected Tool: perspectivas personalizadas](https://docs.aws.amazon.com/wellarchitected/latest/userguide/lenses-custom.html) 
+  [Modelo de revisão de prontidão operacional, por Adrian Hornsby](https://medium.com/the-cloud-architect/operational-readiness-review-template-e23a4bfd8d79) 
+  [Whitepaper Revisões de prontidão operacional (ORR)](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/wa-operational-readiness-reviews.html) 

 **Vídeos relacionados:** 
+  [AWS Supports You \$1 Criar uma Revisão de prontidão operacional (ORR) eficaz](https://www.youtube.com/watch?v=Keo6zWMQqS8) 

 **Exemplos relacionados:** 
+  [Exemplo da perspectiva da Revisão de prontidão operacional (ORR)](https://github.com/aws-samples/custom-lens-wa-sample/tree/main/ORR-Lens) 

 **Serviços relacionados:** 
+  [AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html) 
+  [AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/what-is-control-tower.html) 
+  [AWS Security Hub CSPM](https://docs.aws.amazon.com/securityhub/latest/userguide/what-is-securityhub.html) 
+  [AWS Well-Architected Tool](https://docs.aws.amazon.com/wellarchitected/latest/userguide/intro.html) 

# OPS07-BP03 Usar runbooks para realizar procedimentos
<a name="ops_ready_to_support_use_runbooks"></a>

 Um *runbook* é um processo documentado para alcançar um resultado específico. Os runbooks consistem em uma série de etapas seguidas por alguém para realizar alguma coisa. Os runbooks são usados em operações desde os primórdios da aviação. Nas operações na nuvem, usamos runbooks para reduzir riscos e alcançar os resultados desejados. Simplificando ao máximo, um runbook é uma lista de verificação para concluir uma tarefa. 

 Os runbooks são fundamentais para a operação de uma workload. Da integração de um novo membro da equipe à implantação de um lançamento importante, os runbooks são os processos codificados que fornecem resultados consistentes independentemente de quem os usa. Os runbooks devem ser publicados em um local central e ser atualizados à medida que o processo evolui, uma vez que a atualização dos runbooks é um aspecto fundamental de um processo de gerenciamento de mudanças. Eles também devem incluir orientação sobre tratamento de erros, ferramentas, permissões, exceções e encaminhamentos em caso de problema. 

 À medida que sua organização amadurece, comece a automatizar os runbooks. Comece com runbooks que sejam curtos e usados com frequência. Use linguagens de scripts para automatizar as etapas ou facilitar a realização delas. À medida que você automatiza os primeiros runbooks, você dedicará tempo à automação de runbooks mais complexos. Com o tempo, a maioria dos seus runbooks deverá ter algum nível de automação. 

 **Resultado desejado:** sua equipe tem um conjunto de guias detalhados para realizar tarefas de workload. Os runbooks contêm o resultado desejado, as ferramentas e as permissões necessárias e instruções para tratamento de erros. Eles são armazenados em um local central (sistema de controle de versão) e atualizados com frequência. Por exemplo, seus runbooks fornecem recursos para que suas equipes monitorem, se comuniquem e reajam a eventos do AWS Health para contas críticas durante alarmes de aplicações, problemas operacionais e eventos planejados do ciclo de vida. 

 **Práticas comuns que devem ser evitadas:** 
+  Depender da memória para concluir cada etapa de um processo. 
+  Implantar mudanças manualmente sem uma lista de verificação. 
+  Diferentes membros da equipe realizando o mesmo processo, mas com etapas ou resultados diferentes. 
+  Deixar que os runbooks fiquem desatualizados em relação às alterações no sistema e à automação. 

 **Benefícios de implementar esta prática recomendada:** 
+  Redução das taxas de erros em tarefas manuais. 
+  Operações realizadas de maneira consistente. 
+  Novos membros da equipe podem começar a realizar as tarefas mais cedo. 
+  Os runbooks podem ser automatizados para reduzir o esforço. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Os runbooks podem assumir diversos formatos dependendo do nível de maturidade da sua organização. No mínimo, devem consistir em um documento de texto detalhado. O resultado desejado deve estar claramente identificado. Documente claramente as permissões ou ferramentas especiais necessárias. Forneça orientação detalhada sobre tratamento de erros e encaminhamentos em caso de problema. Liste o proprietário do runbook e publique-o em um local central. Depois que o runbook estiver documentado, valide-o pedindo que outro membro da equipe o execute. À medida que os procedimentos evoluem, atualize os runbooks de acordo com seu processo de gerenciamento de mudanças. 

 Os runbooks em texto devem ser automatizados à medida que a organização amadurece. Ao usar serviços como o [AWS Systems Manager Automations](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html), é possível transformar texto plano em automações que podem ser executadas na workload. Essas automações podem ser executadas em resposta a eventos, reduzindo a sobrecarga operacional de manutenção da workload. AWS O Systems Manager Automation também fornece uma [experiência de design visual](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-visual-designer.html) com código simples para criar runbooks de automação com mais facilidade. 

 **Exemplo de cliente** 

 A AnyCompany Retail precisa realizar atualizações no esquema de banco de dados durante as implantações de software. A equipe de operações na nuvem trabalhou com a equipe de administração do banco de dados para criar um runbook para implantação manual dessas alterações. O runbook lista cada etapa do processo em um formato de lista de verificação. Ele inclui uma seção sobre tratamento de erros em caso de problema. A equipe de operações na nuvem publicou o runbook na wiki interna junto com outros runbooks. Ela planeja automatizar o runbook em um sprint futuro. 

### Etapas de implementação
<a name="implementation-steps"></a>

 Se você não tem um repositório de documentos, um repositório de controle de versão é um ótimo lugar para começar a criar a biblioteca de runbooks. Você pode criar runbooks usando Markdown. Disponibilizamos um modelo de runbook que pode ser usado para começar a criar runbooks. 

```
# Runbook Title
## Runbook Info
| Runbook ID | Description | Tools Used | Special Permissions | Runbook Author | Last Updated | Escalation POC | 
|-------|-------|-------|-------|-------|-------|-------|
| RUN001 | What is this runbook for? What is the desired outcome? | Tools | Permissions | Your Name | 2022-09-21 | Escalation Name |
## Steps
1. Step one
2. Step two
```

1.  Se você não tiver um repositório de documentação ou uma wiki, crie um repositório de controle de versão no sistema de controle de versão. 

1.  Identifique um processo que não tenha um runbook. Um processo ideal é um que seja realizado quase regularmente, que tenha poucas etapas e que tenha falhas de baixo impacto. 

1.  No repositório de documentos, crie um rascunho de documento em Markdown usando o modelo. Preencha o Título do runbook e os campos obrigatórios em Informações do runbook. 

1.  Começando com a primeira etapa, preencha a parte Etapas do runbook. 

1.  Dê o runbook para um membro da equipe. Peça que ele use o runbook para validar as etapas. Se algo estiver faltando ou não estiver claro, atualize o runbook. 

1.  Disponibilize o runbook em seu armazenamento interno de documentos. Depois, informe sua equipe e outras partes interessadas. 

1.  Com o passar do tempo, você terá uma biblioteca de runbooks. À medida que essa biblioteca cresce, comece a trabalhar na automatização dos runbooks. 

 **Nível de esforço do plano de implementação:** Baixo. O padrão mínimo para um runbook é um guia de texto detalhado. A automatização dos runbooks pode aumentar o esforço de implementação. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS02-BP02 Processos e procedimentos com proprietários identificados](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_proc_owners.html) 
+  [OPS07-BP04 Usar playbooks para investigar problemas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ready_to_support_use_playbooks.html) 
+  [OPS10-BP01 Usar um processo para gerenciamento de eventos, incidentes e problemas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_event_incident_problem_process.html) 
+  [OPS10-BP02 Adotar um processo por alerta](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_process_per_alert.html) 
+  [OPS11-BP04 Gerenciar o conhecimento](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_knowledge_management.html) 

 **Documentos relacionados:** 
+  [Como alcançar excelência operacional usando playbooks e runbooks automatizados](https://aws.amazon.com/blogs/mt/achieving-operational-excellence-using-automated-playbook-and-runbook/) 
+  [AWS Systems Manager: trabalhar com runbooks](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html) 
+  [Playbook de migração para grandes migrações da AWS – Tarefa 4: como melhorar runbooks de migração](https://docs.aws.amazon.com/prescriptive-guidance/latest/large-migration-migration-playbook/task-four-migration-runbooks.html) 
+  [Como usar runbooks do AWS Systems Manager Automation para resolver tarefas operacionais](https://aws.amazon.com/blogs/mt/use-aws-systems-manager-automation-runbooks-to-resolve-operational-tasks/) 

 **Vídeos relacionados:** 
+  [AWS re:Invent 2019: Guia de faça você mesmo para runbooks, relatórios de incidentes e resposta a incidentes](https://www.youtube.com/watch?v=E1NaYN_fJUo) 
+  [Como automatizar as operações de TI na AWS \$1 Amazon Web Services](https://www.youtube.com/watch?v=GuWj_mlyTug) 
+  [Integrar scripts ao AWS Systems Manager](https://www.youtube.com/watch?v=Seh1RbnF-uE) 

 **Exemplos relacionados:** 
+  [Laboratórios do Well-Architected: Automatização de operações com playbooks e runbooks](https://wellarchitectedlabs.com/operational-excellence/200_labs/200_automating_operations_with_playbooks_and_runbooks/) 
+  [AWS Publicação no blog da : Criar uma prática de automação de nuvem para excelência operacional: práticas recomendadas do AWS Managed Services](https://aws.amazon.com/blogs/mt/build-a-cloud-automation-practice-for-operational-excellence-best-practices-from-aws-managed-services/) 
+  [AWS Systems Manager: orientações sobre automação](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk.html) 
+  [AWS Systems Manager: runbook para restauração de um volume raiz usando o snapshot mais recente](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-document-sample-restore.html) 
+  [Criar um runbook de resposta a incidentes da AWS usando cadernos Jupyter e o CloudTrail Lake](https://catalog.us-east-1.prod.workshops.aws/workshops/a5801f0c-7bd6-4282-91ae-4dfeb926a035/en-US) 
+  [Gitlab: runbooks](https://gitlab.com/gitlab-com/runbooks) 
+  [Rubix: uma biblioteca de Python para criação de runbooks em cadernos Jupyter](https://github.com/Nurtch/rubix) 
+  [Usar o Document Builder para criar um runbook personalizado](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk-document-builder.html) 

 **Serviços relacionados:** 
+  [AWS Systems Manager Automation](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html) 

# OPS07-BP04 Usar playbooks para investigar problemas
<a name="ops_ready_to_support_use_playbooks"></a>

 Os *playbooks* são guias detalhados usados para investigar incidentes. Quando incidentes ocorrem, os playbooks são usados para investigar, definir o escopo do impacto e identificar a causa-raiz. Os playbooks são usados em diversos cenários, desde falhas em implantações até incidentes de segurança. Em muitos casos, os playbooks identificam a causa-raiz que um runbook costuma mitigar. Os playbooks são essenciais aos planos de resposta a incidentes de sua organização. 

 Um bom playbook abrange vários aspectos importantes. Ele guia o usuário, detalhadamente, ao longo do processo de descoberta. Considerando várias perspectivas, quais etapas devem ser seguidas para diagnosticar um incidente? Defina claramente no playbook se ferramentas especiais ou permissões elevadas são necessárias. Ter um plano de comunicação para atualizar as partes interessadas sobre o status da investigação é essencial. Em situações em que a causa-raiz ainda não foi identificada, o playbook deve ter um plano de escalação. Se a causa-raiz tiver sido identificada, o playbook deverá indicar um runbook que descreva como resolvê-la. Os playbooks devem ser armazenados em um local central e atualizados com frequência. Caso os playbooks sejam usados para alertas específicos, forneça às equipes indicadores para o playbook no alerta. 

 À medida que sua organização continuar amadurecendo, automatize seus playbooks. Comece com playbooks para abordar incidentes de baixo risco. Use scripts para automatizar as etapas de descoberta. Tenha runbooks complementares para mitigar as causas-raiz comuns. 

 **Resultado desejado:** sua organização tem playbooks para incidentes comuns. Os playbooks são armazenados em um local central e estão disponíveis para os membros da equipe. Os playbooks são atualizados com frequência. Runbooks complementares são criados para todas as causas-raiz conhecidas. 

 **Práticas comuns que devem ser evitadas:** 
+  Não há uma maneira padrão de investigar um incidente. 
+  Os membros da equipe precisam confiar na própria memória ou no conhecimento institucional para solucionar uma falha na implantação. 
+  Os novos membros da equipe aprendem a investigar os problemas por meio de tentativa e erro. 
+  As práticas recomendadas para a investigação dos problemas não são compartilhadas entre as equipes. 

 **Benefícios de implementar esta prática recomendada:** 
+  Os playbooks impulsionam seus esforços para mitigar os incidentes. 
+  Diferentes membros da equipe podem usar o mesmo playbook para identificar uma causa-raiz de maneira consistente. 
+  As causas-raiz conhecidas podem ter runbooks desenvolvidos para elas, diminuindo o tempo de recuperação. 
+  Os playbooks permitem que os membros da equipe comecem a contribuir o quanto antes. 
+  As equipes podem escalar seus processos com playbooks repetíveis. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 A maneira que você cria e usa os playbooks depende da maturidade da sua organização. Se você é iniciante na nuvem, crie playbooks no formato de texto em um repositório central de documentos. À medida que sua organização amadurecer, os playbooks poderão passar a ser semiautomatizados com linguagens de script, como Python. Esses scripts podem ser executados em um caderno Jupyter para acelerar a descoberta. As organizações avançadas têm playbooks totalmente automatizados para problemas comuns que são corrigidos automaticamente com runbooks. 

 Comece a criar seus playbooks listando incidentes comuns que ocorrem com sua workload. Para começar, escolha playbooks para incidentes com baixo risco e nos quais a causa-raiz tenha sido restrita a poucos problemas. Quando já tiver playbooks para os cenários mais simples, passe para cenários de alto risco ou cenários em que a causa-raiz não é bem conhecida. 

 Seus playbooks em texto deverão ser automatizados à medida que sua organização amadurecer. Usando serviços como o [AWS Systems Manager Automations](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html), o texto simples pode ser transformado em automações. Essas automações podem ser executadas na workload para acelerar as investigações. Elas podem ser ativadas em resposta a eventos, o que reduz o tempo necessário para descobrir e resolver incidentes. 

 Os clientes podem usar o [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) para responder a incidentes. Esse serviço fornece uma interface única para fazer a triagem de incidentes, informar as partes interessadas durante a descoberta e a mitigação e permitir a colaboração durante todo o incidente. Ele usa o AWS Automations para acelerar a detecção e a recuperação. 

 **Exemplo de cliente** 

 Um incidente na produção afetou a AnyCompany Retail. O engenheiro de plantão usou um playbook para investigar o problema. À medida que foi avançando pelas etapas, ele manteve as principais partes interessadas informadas, as quais estão identificadas no playbook. O engenheiro identificou a causa-raiz como uma condição de corrida em um serviço de backend. Usando um runbook, o engenheiro reiniciou o serviço, colocando a AnyCompany Retail online novamente. 

### Etapas de implementação
<a name="implementation-steps"></a>

 Se você não tem um repositório de documentos, sugerimos criar um repositório de controle de versão para a biblioteca de playbooks. É possível criar os playbooks usando o Markdown, que é compatível com a maioria dos sistemas de automação de playbooks. Se você estiver iniciando do zero, use o modelo de exemplo de playbook a seguir. 

```
# Playbook Title
## Playbook Info
| Playbook ID | Description | Tools Used | Special Permissions | Playbook Author | Last Updated | Escalation POC | Stakeholders | Communication Plan |
|-------|-------|-------|-------|-------|-------|-------|-------|-------|
| RUN001 | What is this playbook for? What incident is it used for? | Tools | Permissions | Your Name | 2022-09-21 | Escalation Name | Stakeholder Name | How will updates be communicated during the investigation? |
## Steps
1. Step one
2. Step two
```

1.  Se você não tiver um repositório de documentos ou uma wiki, crie um repositório de controle de versão para seus playbooks no sistema de controle de versão. 

1.  Identifique um problema comum que requer investigação. Ele deve ser um cenário em que a causa-raiz está limitada a poucos problemas e a resolução é de baixo risco. 

1.  Usando o modelo Markdown, preencha a seção Nome do playbook e os campos em Informações do playbook. 

1.  Preencha as etapas de resolução de problemas. Seja o mais claro possível sobre quais ações devem ser executadas ou quais áreas devem ser investigadas. 

1.  Dê o playbook a um membro da equipe e peça para essa pessoa analisá-lo a fim de validá-lo. Caso algo esteja faltando ou não esteja claro, atualize o playbook. 

1.  Publique o playbook no repositório de documentos e informe sua equipe e as partes interessadas. 

1.  Essa biblioteca de playbooks crescerá à medida que você adicionar outros playbooks. Quando tiver vários playbooks, comece a automatizá-los usando ferramentas como o AWS Systems Manager Automations a fim de manter a automação e os playbooks sincronizados. 

 **Nível de esforço do plano de implementação:** Baixo. Os playbooks devem ser documentos de texto armazenados em um local central. Organizações mais consolidadas passarão a automatizar os respectivos playbooks. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS02-BP02 Processos e procedimentos com proprietários identificados](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_proc_owners.html) 
+  [OPS07-BP03 Usar runbooks para realizar procedimentos](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ready_to_support_use_runbooks.html) 
+  [OPS10-BP01 Usar um processo para gerenciamento de eventos, incidentes e problemas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_event_incident_problem_process.html) 
+  [OPS10-BP02 Adotar um processo por alerta](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_process_per_alert.html) 
+  [OPS11-BP04 Gerenciar o conhecimento](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_knowledge_management.html) 

 **Documentos relacionados:** 
+  [Como alcançar excelência operacional usando playbooks e runbooks automatizados](https://aws.amazon.com/blogs/mt/achieving-operational-excellence-using-automated-playbook-and-runbook/) 
+  [AWS Systems Manager: trabalhar com runbooks](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html) 
+  [Como usar runbooks do AWS Systems Manager Automation para resolver tarefas operacionais](https://aws.amazon.com/blogs/mt/use-aws-systems-manager-automation-runbooks-to-resolve-operational-tasks/) 

 **Vídeos relacionados:** 
+  [AWS re:Invent 2019: Guia de faça você mesmo para runbooks, relatórios de incidentes e resposta a incidentes (SEC318-R1)](https://www.youtube.com/watch?v=E1NaYN_fJUo) 
+  [AWS Systems Manager Incident Manager: workshops virtuais da AWS](https://www.youtube.com/watch?v=KNOc0DxuBSY) 
+  [Integrar scripts ao AWS Systems Manager](https://www.youtube.com/watch?v=Seh1RbnF-uE) 

 **Exemplos relacionados:** 
+  [AWS Framework do playbook do cliente da](https://github.com/aws-samples/aws-customer-playbook-framework) 
+  [AWS Systems Manager: orientações sobre automação](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk.html) 
+  [Criar um runbook de resposta a incidentes da AWS usando cadernos Jupyter e o CloudTrail Lake](https://catalog.workshops.aws/workshops/a5801f0c-7bd6-4282-91ae-4dfeb926a035/en-US) 
+  [Rubix: uma biblioteca Python para criação de runbooks em cadernos Jupyter](https://github.com/Nurtch/rubix) 
+  [Usar o Document Builder para criar um runbook personalizado](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk-document-builder.html) 

 **Serviços relacionados:** 
+  [AWS Systems Manager Automation](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html) 
+  [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) 

# OPS07-BP05 Tomar decisões embasadas para implantar sistemas e alterações
<a name="ops_ready_to_support_informed_deploy_decisions"></a>

Adote processos para lidar com as alterações com e sem êxito feitas na workload. Uma estratégia pre-mortem é um exercício em que uma equipe simula uma falha para desenvolver estratégias de mitigação. Use as estratégias pre-mortem para antecipar falhas e criar procedimentos, quando apropriado. Avalie os benefícios e os riscos de implantar alterações na workload. Verifique se todas as alterações estão em conformidade com a governança. 

 **Resultado desejado:** 
+  Você toma decisões embasadas ao implantar alterações na workload. 
+  As alterações estão em conformidade com a governança. 

 **Práticas comuns que devem ser evitadas:** 
+ Implantar uma alteração em nossa workload sem um processo para lidar com uma implantação com falha.
+ Fazer alterações no ambiente de produção que estão fora da conformidade com os requisitos de governança.
+ Implantar uma nova versão da workload sem estabelecer uma referência para a utilização de recursos.

 **Benefícios de implementar esta prática recomendada:** 
+  Você está preparado para alterações sem êxito na workload. 
+  As alterações na workload estão em conformidade com as políticas de governança. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Baixo 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Use estratégias pre-mortem para desenvolver processos para lidar com alterações sem êxito. Documente os processos de alterações sem êxito. Garanta que todas as alterações estejam em conformidade com a governança. Avalie os benefícios e os riscos de implantar alterações na workload. 

 **Exemplo de cliente** 

 A AnyCompany Retail realiza estratégias pre-mortem regularmente para validar seus processos de alterações sem êxito. Os processos são documentados em uma Wiki compartilhada e atualizados regularmente. Todas as alterações estão em conformidade com os requisitos de governança. 

 **Etapas de implementação** 

1.  Tome decisões embasadas ao implantar alterações na workload. Estabeleça e revise os critérios de uma implantação bem-sucedida. Desenvolva cenários ou critérios que acionariam a reversão de uma alteração. Pondere os benefícios de implantar alterações considerando os riscos de uma alteração sem êxito. 

1.  Verifique se todas as alterações estão em conformidade com as políticas de governança. 

1.  Use estratégias pre-mortem para alterações sem êxito e documente as estratégias de migração. Realize um exercício de simulação para modelar uma alteração sem êxito e validar os procedimentos de reversão. 

 **Nível de esforço do plano de implementação:** Moderado. Implementar uma prática de estratégias pre-mortem requer coordenação e esforço das partes interessadas na organização 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS01-BP03 Avaliar os requisitos de governança](ops_priorities_governance_reqs.md): os requisitos de governança são um fator fundamental para determinar se uma alteração deve ser implementada. 
+  [OPS06-BP01 Preparar-se para alterações malsucedidas](ops_mit_deploy_risks_plan_for_unsucessful_changes.md): estabeleça planos para mitigar uma implantação sem êxito e use estratégias pre-mortem para validá-los. 
+  [OPS06-BP02 Testar implantações](ops_mit_deploy_risks_test_val_chg.md): toda alteração de software deve ser testada adequadamente antes da implantação para reduzir os defeitos na produção. 
+  [OPS07-BP01 Garantir a capacidade da equipe](ops_ready_to_support_personnel_capability.md): ter um número suficiente de funcionários treinados para fornecer suporte à workload é essencial para tomar uma decisão embasada quanto à implantação de uma alteração no sistema. 

 **Documentos relacionados:** 
+ [Amazon Web Services: risco e conformidade](https://docs.aws.amazon.com/whitepapers/latest/aws-risk-and-compliance/welcome.html)
+ [Modelo de responsabilidade compartilhada da AWS](https://aws.amazon.com/compliance/shared-responsibility-model/)
+ [Governança na Nuvem AWS: o equilíbrio certo entre agilidade e segurança](https://aws.amazon.com/blogs/apn/governance-in-the-aws-cloud-the-right-balance-between-agility-and-safety/)

# OPS07-BP06 Criar planos de suporte para workloads de produção
<a name="ops_ready_to_support_enable_support_plans"></a>

 Habilite o suporte para qualquer software e quaisquer serviços dos quais sua workload de produção dependa. Selecione um nível de suporte apropriado para atender às necessidades de nível de serviço da produção. Planos de suporte para essas dependências são necessários no caso de interrupção de um serviço ou de um problema de software. Documente os planos de suporte e como solicitar suporte para todos os fornecedores de serviços e software. Implemente mecanismos que verifiquem se os pontos de contato do suporte são mantidos atualizados. 

 **Resultado desejado:** 
+  Implemente planos de suporte para software e serviços dos quais as workloads de produção dependem. 
+  Escolha um plano de suporte apropriado com base nas necessidades de nível de serviço. 
+  Documente os planos de suporte, os níveis de suporte e como solicitar suporte. 

 **Práticas comuns que devem ser evitadas:** 
+  Você não tem nenhum plano de suporte junto a um fornecedor de software essencial. Sua workload é afetada por isso e você não pode fazer nada para agilizar a correção ou obter atualizações em tempo hábil do fornecedor. 
+  Um desenvolvedor que era o principal ponto de contato com um fornecedor de software deixou a empresa. Você não consegue entrar em contato com o suporte do fornecedor diretamente. Você precisa despender tempo pesquisando e navegando por sistemas de contato genéricos, aumentando o tempo requerido para responder quando necessário. 
+  Uma interrupção ocorre na produção relacionada a um fornecedor de software. Não há nenhuma documentação sobre como abrir um caso de suporte. 

 **Benefícios de implementar esta prática recomendada:** 
+  Com o nível de suporte apropriado, você é capaz de obter uma resposta no espaço de tempo requerido para atender às necessidades de nível de serviço. 
+  Como um cliente com suporte, você pode encaminhar a questão se houver problemas na produção. 
+  Os fornecedores de software e serviços podem ajudar na resolução de problemas durante um incidente. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Baixo 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Habilite planos de suporte para qualquer software e quaisquer serviços dos quais sua workload de produção dependa. Estabeleça planos de suporte apropriados para atender a necessidades de nível de serviço. Para clientes da AWS, isso significa habilitar o AWS Business Support ou superior em quaisquer contas em que você tenha workloads de produção. Entre em contato regularmente com os fornecedores de suporte para obter atualizações sobre ofertas, processos e contatos de suporte. Documente como solicitar suporte de fornecedores de software e serviços e sobre como encaminhar problemas se houver uma interrupção. Implemente mecanismos para manter os contatos de suporte atualizados. 

 **Exemplo de cliente** 

 Na AnyCompany Retail, todas dependências de software e serviços comerciais contam com planos de suporte. Por exemplo, eles têm o AWS Enterprise Support ativado em todas as contas com workloads de produção. Qualquer desenvolvedor pode abrir um caso de suporte quando há um problema. Há uma página de wiki com informações sobre como solicitar suporte, a quem notificar e as práticas recomendadas para agilizar um caso. 

 **Etapas de implementação** 

1.  Trabalhe com as partes interessadas em sua organização para identificar fornecedores de software e serviços dos quais sua workload dependa. Documente essas dependências. 

1.  Determine as necessidades de nível de serviço para sua workload. Selecione um plano de suporte alinhado a elas. 

1.  Para software e serviços comerciais, estabeleça um plano de suporte com os fornecedores. 

   1.  A assinatura do AWS Business Support ou superior para todas as contas de produção fornece um tempo de resposta rápido do AWS Support e é altamente recomendada. Se você não tiver suporte premium, precisará de um plano de ação para lidar com os problemas, o que requer a ajuda do AWS Support. O AWS Supportoferece ferramentas e tecnologias, pessoas e programas projetados para ajudar você de forma proativa a otimizar o desempenho, reduzir os custos e inovar mais depressa. Além disso, o AWS Business Support oferece benefícios adicionais, como acesso à API para o AWS Trusted Advisor e o AWS Health para integração programática com seus sistemas, além de outros métodos de acesso, como o Console de gerenciamento da AWS e os canais do Amazon EventBridge. 

1.  Documente o plano de suporte em sua ferramenta de gerenciamentos de conhecimentos. Inclua como solicitar suporte, a quem notificar se for aberto um caso de suporte e como encaminhar o problema durante um incidente. Uma wiki é um bom mecanismo para possibilitar que todos façam as atualizações necessárias na documentação quando forem informados sobre alterações em processos ou contatos de suporte. 

 **Nível de esforço do plano de implementação:** Baixo. A maioria dos fornecedores de software e serviços oferece planos de suporte que requerem adesão. Documentar e compartilhar práticas recomendadas no sistema de gerenciamento de conhecimentos garante que sua equipe saiba o que fazer quando houver um problema na produção. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS02-BP02 Processos e procedimentos com proprietários identificados](ops_ops_model_def_proc_owners.md) 

 **Documentos relacionados:** 
+ [Planos do AWS Support](https://docs.aws.amazon.com/awssupport/latest/user/aws-support-plans.html)

 **Serviços relacionados:** 
+ [AWS Business Support ](https://aws.amazon.com/premiumsupport/plans/business/)
+ [AWS Enterprise Support ](https://aws.amazon.com/premiumsupport/plans/enterprise/)

# Operar
<a name="a-operate"></a>

**Topics**
+ [OPS 8. Como utilizar a observabilidade da workload em sua organização?](ops-08.md)
+ [OPS 9. Como compreender a integridade das suas operações?](ops-09.md)
+ [OPS 10. Como gerenciar os eventos de workload e operações?](ops-10.md)

# OPS 8. Como utilizar a observabilidade da workload em sua organização?
<a name="ops-08"></a>

Garanta a integridade ideal da workload usando a observabilidade. Utilize métricas, logs e rastreamentos relevantes para obter uma visão abrangente da performance da sua workload e resolver problemas com eficiência.

**Topics**
+ [OPS08-BP01 Analisar métricas da workload](ops_workload_observability_analyze_workload_metrics.md)
+ [OPS08-BP02 Analisar logs de workloads](ops_workload_observability_analyze_workload_logs.md)
+ [OPS08-BP03 Analisar rastreamentos de workload](ops_workload_observability_analyze_workload_traces.md)
+ [OPS08-BP04 Criar alertas acionáveis](ops_workload_observability_create_alerts.md)
+ [OPS08-BP05 Criar painéis](ops_workload_observability_create_dashboards.md)

# OPS08-BP01 Analisar métricas da workload
<a name="ops_workload_observability_analyze_workload_metrics"></a>

 Depois de implementar a telemetria de aplicações, analise regularmente as métricas coletadas. Embora a latência, as solicitações, os erros e a capacidade (ou cotas) forneçam informações sobre a performance do sistema, é fundamental priorizar a análise das métricas de resultados comerciais. Isso garante que você esteja tomando decisões orientadas por dados alinhadas aos seus objetivos de negócios. 

 **Resultado desejado:** insights precisos sobre a performance da workload que impulsionam decisões baseadas em dados, garantindo o alinhamento com os objetivos de negócios. 

 **Práticas comuns que devem ser evitadas:** 
+  Análise das métricas isoladamente, sem considerar seu impacto nos resultados comerciais. 
+  Confiança excessiva em métricas técnicas e, ao mesmo tempo, marginalização das métricas de negócios. 
+  Revisão pouco frequente das métricas, perdendo oportunidades de tomada de decisão em tempo real. 

 **Benefícios de implementar esta prática recomendada:** 
+  Compreensão aprimorada da correlação entre performance técnica e resultados comerciais. 
+  Processo de tomada de decisão aprimorado baseado em dados em tempo real. 
+  Identificação proativa e mitigação de problemas antes que eles afetem os resultados comerciais. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Utilize ferramentas como o Amazon CloudWatch para realizar análises métricas. Serviços da AWS como a deteção de anomalias do CloudWatch e o Amazon DevOps Guru podem ser usados para detectar anomalias, especialmente quando os limites estáticos são desconhecidos ou quando os padrões de comportamento são mais adequados para a detecção de anomalias. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  **Analise e revise:** revise e interprete regularmente suas métricas de workload. 

   1.  Priorize as métricas de resultados comerciais em vez das métricas puramente técnicas. 

   1.  Entenda a importância de picos, quedas ou padrões em seus dados. 

1.  **Utilize o Amazon CloudWatch**: use o Amazon CloudWatch para uma visão centralizada e uma análise aprofundada. 

   1.  Configure painéis do CloudWatch para visualizar suas métricas e compará-las ao longo do tempo. 

   1.  Use [percentis no CloudWatch](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/) para obter uma visão clara da distribuição métrica, o que pode ajudar na definição de SLAs e na compreensão de valores discrepantes. 

   1.  Configure a [detecção de anomalias do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) para identificar padrões incomuns sem depender de limites estáticos. 

   1.  Implemente a [observabilidade entre contas do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html) para monitorar e solucionar problemas de aplicações que abrangem várias contas em uma região. 

   1.  Use o [CloudWatch Metric Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html) para consultar e analisar dados métricos em contas e regiões, identificando tendências e anomalias. 

   1.  Aplique o [CloudWatch Metric Math](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/using-metric-math.html) para transformar, agregar ou realizar cálculos em suas métricas para obter insights mais profundos. 

1.  **Use o Amazon DevOps Guru:** incorpore o [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) por sua detecção de anomalias aprimorada por machine learning para identificar sinais precoces de problemas operacionais em suas aplicações sem servidor e corrigi-los antes que afetem seus clientes. 

1.  **Otimize com base em insights:** tome decisões informadas baseadas na análise das métricas para ajustar e melhorar as workloads. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificar indicadores-chave de performance](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementar a telemetria de aplicações](ops_observability_application_telemetry.md) 

 **Documentos relacionados:** 
+ [The Wheel Blog: como enfatizar a importância de revisar continuamente as métricas](https://aws.amazon.com/blogs/opensource/the-wheel/)
+ [O percentil é importante](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/)
+ [Usar o AWS Cost Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html)
+ [Observabilidade entre contas do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html)
+ [Consultar métricas com o CloudWatch Metrics Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html)

 **Vídeos relacionados:** 
+ [Habilitar a observabilidade entre contas no Amazon CloudWatch](https://www.youtube.com/watch?v=lUaDO9dqISc)
+ [Introdução ao Amazon DevOps Guru](https://www.youtube.com/watch?v=2uA8q-8mTZY)
+ [Analisar continuamente as métricas usando o AWS Cost Anomaly Detection](https://www.youtube.com/watch?v=IpQYBuay5OE)

 **Exemplos relacionados:** 
+ [Workshop One Observability](https://catalog.workshops.aws/observability/en-US/intro)
+ [Obter insights operacionais com AIOps usando o Amazon DevOps Guru](https://catalog.us-east-1.prod.workshops.aws/workshops/f92df379-6add-4101-8b4b-38b788e1222b/en-US)

# OPS08-BP02 Analisar logs de workloads
<a name="ops_workload_observability_analyze_workload_logs"></a>

 Analisar regularmente os logs da workload é essencial para obter uma compreensão mais profunda dos aspectos operacionais da sua aplicação. Ao filtrar, visualizar e interpretar com eficiência os dados de log, é possível otimizar continuamente a performance e a segurança das aplicações. 

 **Resultado desejado:** informações ricas sobre o comportamento e as operações da aplicação derivadas de uma análise completa de log, garantindo a detecção e mitigação proativas de problemas. 

 **Práticas comuns que devem ser evitadas:** 
+  Negligenciar a análise dos logs até um problema crítico surgir. 
+  Não usar o conjunto completo de ferramentas disponíveis para análise de logs, deixando para trás insights essenciais. 
+  Confiar exclusivamente na revisão manual dos logs, sem utilizar os recursos de automação e consulta. 

 **Benefícios de implementar esta prática recomendada:** 
+  Identificação proativa de gargalos operacionais, ameaças à segurança e outros possíveis problemas. 
+  Utilização eficiente dos dados de log para otimização contínua da aplicação. 
+  Compreensão aprimorada do comportamento da aplicação, auxiliando na depuração e solução de problemas. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 O [Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) é uma ferramenta poderosa para análise de logs. Recursos integrados, como o CloudWatch Logs Insights e o Contributor Insights, tornam intuitivo e eficiente o processo de derivação de informações significativas dos logs. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  **Configure o CloudWatch Logs:** configure aplicações e serviços para enviar logs ao CloudWatch Logs. 

1.  **Use a detecção de anomalias de log:** utilize a [detecção de anomalias do Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/LogsAnomalyDetection.html) para identificar e alertar automaticamente sobre padrões de log incomuns. Essa ferramenta ajuda você a gerenciar proativamente anomalias nos logs e detectar possíveis problemas com antecedência. 

1.  **Configure o CloudWatch Logs Insights:** use o [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) para pesquisar e analisar dados de log de forma interativo. 

   1.  Crie consultas para extrair padrões, visualizar dados de log e obter insights acionáveis. 

   1.  Use a análise de padrões do [CloudWatch Logs Insights para analisar e visualizar padrões](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Patterns.html) de log frequentes. Esse recurso ajuda você a entender tendências operacionais comuns e possíveis discrepâncias em seus dados de logs. 

   1.  Use a [comparação (diff) do CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Compare.html) para realizar análises diferenciais entre diferentes períodos de tempo ou grupos de logs. Use esse recurso para identificar mudanças e avaliar seus impactos na performance ou no comportamento do sistema. 

1.  **Monitore registros em tempo real com o Live Tail:** use o [Amazon CloudWatch Logs Live Tail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CloudWatchLogs_LiveTail.html) para visualizar dados de log em tempo real. Você pode monitorar ativamente as atividades operacionais da aplicação à medida que elas ocorrem, o que oferece visibilidade imediata da performance do sistema e dos possíveis problemas. 

1.  **Aproveite o Contributor Insights**: use o [CloudWatch Contributor Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) para identificar os principais oradores em dimensões de alta cardinalidade, como endereços IP ou agentes de usuário. 

1.  **Implemente filtros métricos do CloudWatch Logs**: configure os [filtros métricos do CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) para converter dados de log em métricas acionáveis. Isso permite que você defina alarmes ou analise melhor os padrões. 

1.  **Implemente a [observabilidade entre contas do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html):** monitore e solucione problemas de aplicações que abrangem várias contas em uma região. 

1.  **Revisão e aprimoramento periódicos**: revise periodicamente suas estratégias de análise de log para capturar todas as informações relevantes e otimizar continuamente a performance da aplicação. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificar indicadores-chave de performance](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementar a telemetria de aplicações](ops_observability_application_telemetry.md) 
+  [OPS08-BP01 Analisar métricas da workload](ops_workload_observability_analyze_workload_metrics.md) 

 **Documentos relacionados:** 
+  [Analisar logs de dados com o CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) 
+  [Usar o CloudWatch Contributor Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) 
+  [Criar e gerenciar de filtros de métrica do CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

 **Vídeos relacionados:** 
+  [Analisar logs de dados com o CloudWatch Logs Insights](https://www.youtube.com/watch?v=2s2xcwm8QrM) 
+  [Usar o CloudWatch Contributor Insights para analisar dados de alta cardinalidade](https://www.youtube.com/watch?v=ErWRBLFkjGI) 

 **Exemplos relacionados:** 
+  [Exemplos de consultas do CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_QuerySyntax-examples.html) 
+  [Workshop One Observability](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP03 Analisar rastreamentos de workload
<a name="ops_workload_observability_analyze_workload_traces"></a>

 Analisar dados de rastreamento é crucial para obter uma visão abrangente da jornada operacional de uma aplicação. Ao visualizar e compreender as interações entre vários componentes, a performance pode ser ajustada, os gargalos identificados e as experiências do usuário aprimoradas. 

 **Resultado desejado:** obtenha uma visibilidade clara das operações distribuídas da sua aplicação, permitindo uma resolução mais rápida de problemas e uma experiência de usuário aprimorada. 

 **Práticas comuns que devem ser evitadas:** 
+  Ignorar dados de rastreamento, confiando apenas em logs e métricas. 
+  Não correlacionar dados de rastreamento com logs associados. 
+  Ignorar as métricas derivadas de rastreamentos, como latência e taxas de falhas. 

 **Benefícios de implementar esta prática recomendada:** 
+  Aprimoramento da solução de problemas e redução do tempo médio de resolução (MTTR). 
+  Obtenção de insights sobre dependências e seu impacto. 
+  Identificação e correção rápidas de problemas de performance. 
+  Uso de métricas derivadas de rastreamento para uma tomada de decisão informada. 
+  Experiências de usuário aprimoradas por meio de interações otimizadas de componentes. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 O [AWS X-Ray](https://www.docs.aws.com/xray/latest/devguide/aws-xray.html) oferece um pacote abrangente para análise de dados de rastreamento, fornecendo uma visão holística das interações de serviços, monitorando as atividades do usuário e detectando problemas de performance. Recursos como ServiceLens, X-Ray Insights, X-Ray Analytics Analytics e Amazon DevOps Guru aprimoram o detalhamento dos insights acionáveis derivados de dados de rastreamento. 

### Etapas de implementação
<a name="implementation-steps"></a>

 As seguintes etapas oferecem uma abordagem estruturada para implementar com eficácia a análise de dados de rastreamento usando serviços da AWS: 

1.  **Integre o AWS X-Ray**: certifique-se de que o X-Ray esteja integrado às suas aplicações para capturar dados de rastreamento. 

1.  **Analise as métricas do X-Ray**: mergulhe nas métricas derivadas dos rastreamentos do X-Ray, como latência, taxas de solicitação, taxas de falhas e distribuições de tempo de resposta, usando o [mapa de serviços](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-servicemap.html#xray-console-servicemap-view) para monitorar a integridade da aplicação. 

1.  **Use o ServiceLens**: aproveite o [mapa do ServiceLens](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_service_map.html) para melhorar a observabilidade de seus serviços e aplicações. Isso permite a visualização integrada de rastreamentos, métricas, logs, alarmes e outras informações de integridade. 

1.  **Habilite o X-Ray Insights**: 

   1.  Ative o [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) para detecção automática de anomalias em rastreamentos. 

   1.  Examine os insights para identificar padrões e determinar as causas-raiz, como maiores taxas de falhas ou latências. 

   1.  Consulte o cronograma de insights para realizar uma análise cronológica dos problemas detectados. 

1.  **Use o X-Ray Analytics**: o [X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) permite que você explore minuciosamente os dados de rastreamento, identifique padrões e extraia insights. 

1.  **Use grupos no X-Ray**: crie grupos no X-Ray para filtrar rastreamentos com base em critérios como alta latência, permitindo uma análise mais direcionada. 

1.  **Incorpore o Amazon DevOps Guru**: envolva o [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) para se beneficiar dos modelos de machine learning que identificam anomalias operacionais nos rastreamentos. 

1.  **Use o CloudWatch Synthetics**: use o [CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries_tracing.html) para criar canários para monitorar continuamente seus endpoints e fluxos de trabalho. Esses canários podem se integrar ao X-Ray para fornecer dados de rastreamento para uma análise detalhada das aplicações que estão sendo testadas. 

1.  **Use o monitoramento de usuários reais (RUM)**: Com o [AWS X-Ray e o CloudWatch RUM](https://docs.aws.amazon.com/xray/latest/devguide/xray-services-RUM.html), é possível analisar e depurar o caminho da solicitação a partir dos usuários finais da aplicação até os serviços subsequentes gerenciados pela AWS. Isso ajuda a identificar tendências e erros de latência que afetam os usuários finais. 

1.  **Correlacione com logs**: correlacione [dados de rastreamento com registros relacionados](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_troubleshooting.html#servicelens_troubleshooting_Nologs) na visualização de rastreamento do X-Ray para obter uma perspectiva granular do comportamento da aplicação. Isso permite que você visualize eventos de log diretamente associados às transações rastreadas. 

1.  **Implemente a [observabilidade entre contas do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html):** monitore e solucione problemas de aplicações que abrangem várias contas em uma região. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS08-BP01 Analisar métricas da workload](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analisar logs de workloads](ops_workload_observability_analyze_workload_logs.md) 

 **Documentos relacionados:** 
+  [Usar o ServiceLens para monitorar a integridade da aplicação](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ServiceLens.html) 
+  [Explorar dados de rastreamento com o X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) 
+  [Detectar anomalias em rastreamentos com o X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-insights.html) 
+  [Monitorar continuamente com o CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 

 **Vídeos relacionados:** 
+  [Analisar e depurar aplicações usando Amazon CloudWatch Synthetics e o AWS X-Ray](https://www.youtube.com/watch?v=s2WvaV2eDO4) 
+  [Usar o AWS X-Ray Insights](https://www.youtube.com/watch?v=tl8OWHl6jxw) 

 **Exemplos relacionados:** 
+  [Workshop One Observability](https://catalog.workshops.aws/observability/en-US/intro) 
+  [Implementar o X-Ray com AWS Lambda](https://docs.aws.amazon.com/lambda/latest/dg/services-xray.html) 
+  [Modelos canário do CloudWatch Synthetics](https://github.com/aws-samples/cloudwatch-synthetics-canary-terraform) 

# OPS08-BP04 Criar alertas acionáveis
<a name="ops_workload_observability_create_alerts"></a>

 Detectar e responder prontamente aos desvios no comportamento da sua aplicação é crucial. É essencial reconhecer quando os resultados baseados em indicadores-chave de performance (KPIs) estão em risco ou quando surgem anomalias inesperadas. Basear alertas em KPIs garante que os sinais que você recebe estejam diretamente vinculados ao impacto comercial ou operacional. Essa abordagem de alertas acionáveis promove respostas proativas e ajuda a manter a performance e a confiabilidade do sistema. 

 **Resultado desejado:** receba alertas imediatos, relevantes e acionáveis para rápida identificação e mitigação de possíveis problemas, especialmente quando os resultados dos KPI estão em risco. 

 **Práticas comuns que devem ser evitadas:** 
+  A configuração de muitos alertas não críticos gera fadiga de alertas. 
+  A não priorização de alertas com base em KPIs dificulta a compreensão do impacto comercial dos problemas. 
+  A não abordagem das causas-raiz ocasiona alertas repetitivos para o mesmo problema. 

 **Benefícios de implementar esta prática recomendada:** 
+  Redução da fadiga de alertas ao se concentrar em alertas acionáveis e relevantes. 
+  Maior disponibilidade e confiabilidade do sistema por meio da detecção e mitigação proativas de problemas. 
+  Colaboração em equipe aprimorada e resolução mais rápida de problemas por meio da integração com ferramentas conhecidas de alerta e comunicação. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Para criar um mecanismo de alerta eficaz, é fundamental usar métricas, logs e dados de rastreamento que sinalizem quando os resultados com base nos KPIs estão em risco ou quando anomalias são detectadas. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  **Determine indicadores-chave de performance (KPIs)**: identifique KPIs da sua aplicação. Os alertas devem estar vinculados a esses KPIs para refletir com precisão o impacto nos negócios. 

1.  **Implemente a detecção de anomalias**: 
   +  **Use a detecção de anomalias do Amazon CloudWatch**: configure a [detecção de anomalias do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) para detectar automaticamente padrões incomuns, o que ajuda você a gerar alertas somente para anomalias genuínas. 
   +  **Use o AWS X-Ray Insights**: 

     1.  Configure o [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) para detectar anomalias nos dados de rastreamento. 

     1.  Configure [notificações para que o X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) seja alertado sobre problemas detectados. 
   +  **Integre-se ao Amazon DevOps Guru**: 

     1.  Utilize o [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) devido a seus recursos de machine learning na detecção de anomalias operacionais com dados existentes. 

     1.  Navegue até as [configurações de notificação](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html#navigate-to-notification-settings) no DevOps Guru para configurar alertas de anomalias. 

1.  **Implemente alertas acionáveis**: crie alertas que forneçam informações adequadas para ação imediata. 

   1.  Monitore [eventos do AWS Health com as regras do Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) ou integre-se programaticamente à AWS Health API para automatizar ações ao receber eventos do AWS Health. Podem ser ações gerais, como enviar todas as mensagens planejadas de eventos do ciclo de vida para uma interface de chat, ou ações específicas, como o início de um fluxo de trabalho em uma ferramenta de gerenciamento de serviços de TI. 

1.  **Reduza a fadiga dos alertas**: minimize os alertas não críticos. Quando as equipes se tornam sobrecarregadas com vários alertas insignificantes, elas podem não perceber problemas críticos, o que diminui a eficácia geral do mecanismo de alerta. 

1.  **Configure alarmes compostos**: use os [alarmes compostos do Amazon CloudWatch](https://aws.amazon.com/bloprove-monitoring-efficiency-using-amazon-cloudwatch-composite-alarms-2/) para consolidar vários alarmes. 

1.  **Integre com ferramentas de alerta**: incorpore ferramentas como [Ops Genie](https://www.atlassian.com/software/opsgenie) e [PagerDuty](https://www.pagerduty.com/). 

1.  **Utilize o Amazon Q Developer em aplicações de chat**: integre o [Amazon Q Developer em aplicações de chat](https://aws.amazon.com/chatbot/) para retransmitir alertas ao Amazon Chime, Microsoft Teams e Slack. 

1.  **Alerta com base em logs**: use [filtros de métrica de log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) no CloudWatch para criar alarmes com base em eventos de log específicos. 

1.  **Revise e repita**: revisite e refine regularmente as configurações de alerta. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificar indicadores-chave de performance](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementar a telemetria de aplicações](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 Implementar telemetria da experiência do usuário](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 Implementar a telemetria de dependências](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 Implementar rastreamento distribuído](ops_observability_dist_trace.md) 
+  [OPS08-BP01 Analisar métricas da workload](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analisar logs de workloads](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Analisar rastreamentos de workload](ops_workload_observability_analyze_workload_traces.md) 

 **Documentos relacionados:** 
+  [Usar alarmes do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Criar um alarme composto](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) 
+  [Criar um alarme do CloudWatch baseado na detecção de anomalias](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) 
+  [Notificações do DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html) 
+  [Notificações de insights do X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) 
+  [Monitorar, operar e solucionar problemas de seus recursos da AWS com ChatOps interativos](https://aws.amazon.com/chatbot/) 
+  [Guia de integração do Amazon CloudWatch \$1 PagerDuty](https://support.pagerduty.com/docs/amazon-cloudwatch-integration-guide) 
+  [Integrar o Opsgenie com o Amazon CloudWatch](https://support.atlassian.com/opsgenie/docs/integrate-opsgenie-with-amazon-cloudwatch/) 

 **Vídeos relacionados:** 
+  [Criar alarmes compostos no Amazon CloudWatch](https://www.youtube.com/watch?v=0LMQ-Mu-ZCY) 
+  [Amazon Q Developer in chat applications Overview](https://www.youtube.com/watch?v=0jUSEfHbTYk) 
+  [AWS On Air ft. Mutative Commands in Amazon Q Developer in chat applications](https://www.youtube.com/watch?v=u2pkw2vxrtk) 

 **Exemplos relacionados:** 
+  [Alarmes, gerenciamento de incidentes e remediação na nuvem com o Amazon CloudWatch](https://aws.amazon.com/bloarms-incident-management-and-remediation-in-the-cloud-with-amazon-cloudwatch/) 
+  [Tutorial: Creating an Amazon EventBridge rule that sends notifications to Amazon Q Developer in chat applications](https://docs.aws.amazon.com/chatbot/latest/adminguide/create-eventbridge-rule.html) 
+  [Workshop One Observability](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP05 Criar painéis
<a name="ops_workload_observability_create_dashboards"></a>

 Os painéis são a visão voltada para o ser humano dos dados de telemetria das workloads. Embora forneçam uma interface visual vital, eles não devem substituir os mecanismos de alerta, mas sim complementá-los. Quando elaborados com cuidado, eles não apenas oferecem insights rápidos sobre a integridade e a performance do sistema, como também podem apresentar às partes interessadas informações em tempo real sobre os resultados empresariais e o impacto dos problemas. 

 **Resultado desejado:** 

 Insights claros e acionáveis sobre a integridade do sistema e dos negócios usando representações visuais. 

 **Práticas comuns que devem ser evitadas:** 
+  Painéis complicados demais e com muitas métricas. 
+  Confiar em painéis sem alertas para detecção de anomalias. 
+  Não atualizar os painéis à medida que as workloads evoluem. 

 **Benefícios de implementar esta prática recomendada:** 
+  Visibilidade imediata de métricas e KPIs críticos do sistema. 
+  Comunicação e compreensão aprimoradas com as partes interessadas. 
+  Visão rápida do impacto dos problemas operacionais. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 **Painéis centrados nos negócios** 

 Os painéis personalizados para os KPIs de negócios envolvem uma gama maior de partes interessadas. Embora essas pessoas possam não estar interessadas nas métricas do sistema, elas estão interessadas em entender as implicações comerciais desses números. Um painel centrado nos negócios garante que todas as métricas técnicas e operacionais monitoradas e analisadas estejam sincronizadas com as metas empresariais abrangentes. Esse alinhamento fornece clareza, garantindo que todos estejam em sintonia sobre o que é essencial e o que não é. Além disso, painéis que destacam os KPIs de negócios tendem a ser mais acionáveis. As partes interessadas podem entender rapidamente a integridade das operações, as áreas que precisam de atenção e o impacto potencial nos resultados empresariais. 

 Com isso em mente, ao criar seus painéis, garanta que haja um equilíbrio entre métricas técnicas e KPIs comerciais. Ambos são vitais, mas atendem a públicos diferentes. O ideal é que você tenha painéis que forneçam uma visão holística da integridade e da performance do sistema e, ao mesmo tempo, enfatizem os principais resultados comerciais e suas implicações. 

 Os painéis do Amazon CloudWatch são páginas iniciais personalizáveis no console do CloudWatch que você pode usar para monitorar seus recursos em uma única visualização, até mesmo os recursos distribuídos em diferentes contas e Regiões da AWS. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  **Crie um painel básico:** [crie um novo painel no CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create_dashboard.html) e dê a ele um nome descritivo. 

1.  **Use widgets do Markdown:** antes de mergulhar nas métricas, [use os widgets do Markdown](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_text_dashboard.html) para adicionar contexto textual na parte superior do seu painel. Isso deve explicar o que o painel abrange, a importância das métricas representadas e também pode conter links para outros painéis e ferramentas de solução de problemas. 

1.  **Crie variáveis do painel:** [incorpore variáveis do painel](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html) onde apropriado para permitir visualizações dinâmicas e flexíveis do painel. 

1.  **Crie widgets de métricas**: [adicione widgets de métricas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create-and-work-with-widgets.html) para visualizar várias métricas que sua aplicação emite, adaptando esses widgets para representar com eficácia a integridade do sistema e os resultados empresariais. 

1.  **Consultas do Log Insights:** use o [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_ExportQueryResults.html) para obter métricas acionáveis de seus logs e exibir esses insights no painel. 

1.  **Configure alarmes:** integre os [alarmes do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_alarm_dashboard.html) ao seu painel para ter uma visão rápida de qualquer métrica que esteja ultrapassando seus limites. 

1.  **Use o Contributor Insights:** incorpore o [CloudWatch Contributor Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights-ViewReports.html) para analisar campos de alta cardinalidade e obter uma compreensão mais clara dos principais colaboradores do seu recurso. 

1.  **Crie widgets personalizados:** para necessidades específicas não atendidas pelos widgets padrão, considere criar [widgets personalizados](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html). Eles podem ser extraídos de várias fontes de dados ou representar dados de maneiras exclusivas. 

1.  **Use o AWS Health:** o AWS Health é a fonte de informações confiável sobre a integridade dos recursos da Nuvem AWS. Use o [AWS Health Dashboard](https://health.aws.amazon.com/health/status) diretamente ou use os dados do AWS Health em seus próprios painéis e ferramentas para ter as informações certas disponíveis e tomar decisões respaldadas. 

1.  **Itere e refine:** à medida que sua aplicação evolui, revise regularmente o painel para garantir sua relevância. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificar indicadores-chave de performance](ops_observability_identify_kpis.md) 
+  [OPS08-BP01 Analisar métricas da workload](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analisar logs de workloads](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Analisar rastreamentos de workload](ops_workload_observability_analyze_workload_traces.md) 
+  [OPS08-BP04 Criar alertas acionáveis](ops_workload_observability_create_alerts.md) 

 **Documentos relacionados:** 
+  [Como criar painéis para visibilidade operacional](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/) 
+  [Usar painéis do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 

 **Vídeos relacionados:** 
+  [Criar painéis do CloudWatch entre contas e entre regiões](https://www.youtube.com/watch?v=eIUZdaqColg) 
+  [AWS re:Invent 2021: como obter visibilidade corporativa com painéis de operação do Nuvem AWS](https://www.youtube.com/watch?v=NfMpYiGwPGo) 

 **Exemplos relacionados:** 
+  [Workshop One Observability](https://catalog.workshops.aws/observability/en-US/intro) 
+  [Monitoramento de aplicações com o Amazon CloudWatch](https://aws.amazon.com/solutions/implementations/application-monitoring-with-cloudwatch/) 
+  [Painéis e insights de inteligência de eventos do AWS Health](https://aws.amazon.com/blogs/mt/aws-health-events-intelligence-dashboards-insights/) 
+  [Visualizar eventos do AWS Health usando o Amazon Managed Grafana](https://aws.amazon.com/blogs/mt/visualize-aws-health-events-using-amazon-managed-grafana/) 

# OPS 9. Como compreender a integridade das suas operações?
<a name="ops-09"></a>

 Defina, capture e analise as métricas de operações para obter visibilidade dos eventos de operações, para que você possa tomar as ações apropriadas. 

**Topics**
+ [OPS09-BP01 Medir metas operacionais e KPIs com métricas](ops_operations_health_measure_ops_goals_kpis.md)
+ [OPS09-BP02 Comunicar o status e as tendências para garantir a visibilidade da operação](ops_operations_health_communicate_status_trends.md)
+ [OPS09-BP03 Revisar as métricas operacionais e priorizar melhorias](ops_operations_health_review_ops_metrics_prioritize_improvement.md)

# OPS09-BP01 Medir metas operacionais e KPIs com métricas
<a name="ops_operations_health_measure_ops_goals_kpis"></a>

 Obtenha metas e KPIs que definam o sucesso das operações de sua organização e determine se as métricas os refletem. Defina linhas de base como ponto de referência e reavalie regularmente. Desenvolva mecanismos para coletar essas métricas das equipes para avaliação. As métricas de [DevOps Research and Assessment (DORA)](https://dora.dev/guides/dora-metrics-four-keys/) fornecem um método popular para medir o progresso em relação às práticas de DevOps de entrega de software. 

 **Resultado desejado:** 
+ A organização publica e compartilha as metas e os KPIs das equipes de operação.
+ Você estabelece métricas que refletem esses KPIs. Os exemplos podem incluir:
  +  Profundidade da fila de tíquetes ou idade média do tíquete 
  +  Contagem de tíquetes agrupada por tipo de problema 
  +  Tempo gasto trabalhando em problemas com ou sem um procedimento operacional padronizado (SOP) 
  +  Tempo gasto na recuperação de uma falha no envio de código 
  +  Volume de chamadas 

 **Práticas comuns que devem ser evitadas:** 
+  Os prazos de implantação são perdidos porque os desenvolvedores são contratados para realizar tarefas de solução de problemas. As equipes de desenvolvimento demandam mais pessoal, mas não conseguem quantificar quantos precisam porque o tempo perdido não pode ser medido. 
+  Um atendimento de Nível 1 foi configurado para lidar com chamadas de usuários. Com o tempo, mais workloads foram adicionadas, mas nenhum número de funcionários foi alocado para o atendimento de Nível 1. A satisfação do cliente sofre à medida que os tempos de atendimento aumentam e os problemas ficam mais tempo sem resolução, mas a gerência não vê indicadores disso, impedindo qualquer ação. 
+  Uma workload problemática foi transferida para uma equipe de operações separada para manutenção. Diferentemente de outras workloads, a nova não foi fornecida com documentação e runbooks adequados. Dessa forma, as equipes passam mais tempo solucionando problemas e lidando com falhas. No entanto, não há métricas que documentem isso, o que dificulta a prestação de contas. 

 **Benefícios de implementar esta prática recomendada:** quando o monitoramento da workload mostra o estado de nossas aplicações e serviços, as equipes de operações de monitoramento oferecem aos proprietários insights sobre mudanças entre os consumidores dessas workloads, como mudanças nas necessidades de negócios. Meça a eficácia dessas equipes e avalie-as em relação às metas de negócios, criando métricas que possam refletir o estado das operações. As métricas podem destacar problemas de suporte ou identificar quando há desvios de uma meta de nível de serviço. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

Agende um horário com líderes de negócios e partes interessadas para determinar quais serão as metas gerais do serviço. Determine quais devem ser as tarefas de várias equipes de operações e quais desafios elas podem enfrentar. Com isso, pense em indicadores-chave de performance (KPIs) que possam refletir essas metas operacionais. Pode ser a satisfação do cliente, o tempo decorrido da concepção à implantação do recurso, o tempo médio de resolução de problemas ou eficiências de custo.

 Trabalhando a partir de KPIs, identifique as métricas e as fontes de dados que podem refletir melhor essas metas. A satisfação do cliente pode ser uma combinação de várias métricas, como tempos de espera ou resposta de chamadas, índices de satisfação e tipos de problemas levantados. Os tempos de implantação podem ser a soma do tempo necessário para testes e implantação e quaisquer correções pós-implantação que precisem ser adicionadas. As estatísticas que mostram o tempo gasto em diferentes tipos de problemas (ou a contagem desses problemas) podem fornecer uma visão de onde é necessário um esforço direcionado. 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+ [ Quick: Usar KPIs ](https://docs.aws.amazon.com/quicksight/latest/user/kpi.html)
+ [ Amazon CloudWatch: usar métricas ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)
+ [ Criar painéis ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Como rastrear KPIs de otimização de custos com o painel de KPI ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [AWS DevOps Guidance](https://docs.aws.amazon.com/wellarchitected/latest/devops-guidance/devops-guidance.html)

 **Exemplos relacionados:** 
+ [Monitor the performance of your software delivery using native AWS monitoring and observability tools](https://catalog.us-east-1.prod.workshops.aws/workshops/3b7f3d77-c6ef-44b2-aa29-d2719b8be897/en-US)
+ [Equilibre a velocidade de implantação e a estabilidade com as métricas do DORA](https://aws.amazon.com/blogs/devops/balance-deployment-speed-and-stability-with-dora-metrics/)
+ [Exemplo de métricas operacionais de MLOps no setor de serviços financeiros](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-unlock-value-data-financial-services/operational-metrics.html)
+ [ Como rastrear KPIs de otimização de custos com o painel de KPI ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)

# OPS09-BP02 Comunicar o status e as tendências para garantir a visibilidade da operação
<a name="ops_operations_health_communicate_status_trends"></a>

 É necessário conhecer o estado de suas operações e a direção das tendências para identificar quando os resultados podem estar em risco, se trabalho adicional pode ou não receber apoio ou os efeitos que as mudanças causaram em suas equipes. Durante eventos operacionais, ter páginas de status que os usuários e as equipes operacionais possam consultar para obter informações pode reduzir a pressão nos canais de comunicação e disseminar informações de forma proativa. 

 **Resultado desejado:** 
+  Os líderes de operações têm uma visão rápida para ver em que tipo de volume de chamadas suas equipes estão operando e quais esforços podem estar em andamento, como implantações. 
+  Os alertas são disseminados para as partes interessadas e comunidades de usuários quando ocorrem impactos nas operações normais. 
+  A liderança da organização e as partes interessadas podem verificar uma página de status em resposta a um alerta ou impacto e obter informações sobre um evento operacional, como pontos de contato, informações sobre tíquetes e tempos estimados de recuperação. 
+  Os relatórios são disponibilizados para a liderança e outras partes interessadas para mostrar estatísticas operacionais, como volumes de chamadas durante um período de tempo, índices de satisfação do usuário, números de tíquetes pendentes e suas idades. 

 **Práticas comuns que devem ser evitadas:** 
+  Uma workload diminui, deixando um serviço indisponível. O volume de chamadas aumenta à medida que os usuários solicitam saber o que está acontecendo. Os gerentes aumentam o volume de solicitações para saber quem está resolvendo um problema. Várias equipes de operações duplicam esforços na tentativa de investigar. 
+  O desejo por uma nova capacidade faz com que vários funcionários sejam transferidos para um esforço de engenharia. Nenhum preenchimento é fornecido e os tempos de resolução de problemas aumentam. Essas informações não são capturadas e a liderança toma conhecimento do problema somente após várias semanas de comentários de insatisfação do usuário. 

 **Benefícios de implementar esta prática recomendada:** durante eventos operacionais em que a empresa é afetada, muito tempo e energia podem ser desperdiçados com a consulta de informações por várias equipes em uma tentativa de entender a situação. Ao estabelecer páginas de status e painéis amplamente divulgados, as partes interessadas podem obter rapidamente informações, como se um problema foi detectado ou não, quem liderou o problema ou quando é esperado um retorno às operações normais. Isso permite que os membros da equipe dediquem mais tempo à resolução de problemas e passem menos tempo comunicando o status a outras pessoas. 

 Além disso, painéis e relatórios podem fornecer informações aos tomadores de decisão e às partes interessadas para ver como as equipes de operações são capazes de responder às necessidades de negócios e como seus recursos estão sendo alocados. Isso é crucial para determinar se os recursos adequados estão disponíveis para apoiar os negócios. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Crie painéis que mostrem as principais métricas atuais para suas equipes de operações e as torne facilmente acessíveis, tanto para os líderes de operações quanto para a gerência. 

 Crie páginas de status que possam ser atualizadas rapidamente para mostrar quando um incidente ou evento está ocorrendo, quem é o proprietário e quem está coordenando a resposta. Compartilhe todas as etapas ou soluções alternativas que os usuários devem considerar nesta página e divulgue amplamente a localização. Incentive os usuários a verificar esse local primeiro quando confrontados com um problema desconhecido. 

 Colete e forneça relatórios que mostrem a integridade das operações ao longo do tempo e distribua-os aos líderes e tomadores de decisão para ilustrar o trabalho das operações junto com os desafios e as necessidades. 

 Compartilhe entre as equipes essas métricas e relatórios que melhor refletem as metas e os KPIs e onde eles foram influentes na promoção da mudança. Dedique tempo a essas atividades para aumentar a importância das operações dentro das equipes e entre elas. 

 Use o [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) com seus próprios painéis ou integre eventos do AWS Health a eles, para que suas equipes possam correlacionar os problemas da aplicação ao status do serviço da AWS. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+ [OPS09-BP01 Medir metas operacionais e KPIs com métricas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_measure_ops_goals_kpis.html)

 **Documentos relacionados:** 
+ [Avaliar o progresso](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-cloud-operating-model/measure-progress.html)
+ [Criar painéis para visibilidade da operação](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)

 **Exemplos relacionados:** 
+ [Operações de dados](https://aws.amazon.com/solutions/app-development/data-operations)
+ [Como rastrear KPIs de otimização de custos com o painel de KPI](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [A importância dos indicadores-chave de performance (KPIs) para migrações para a nuvem em grande escala](https://aws.amazon.com/blogs/mt/the-importance-of-key-performance-indicators-kpis-for-large-scale-cloud-migrations/)

# OPS09-BP03 Revisar as métricas operacionais e priorizar melhorias
<a name="ops_operations_health_review_ops_metrics_prioritize_improvement"></a>

 Reservar tempo e dedicar recursos para analisar o estado das operações garante que atender à linha de negócios do dia a dia continue sendo uma prioridade. Reúna líderes de operações e partes interessadas para revisar regularmente as métricas, reafirmar ou modificar metas e objetivos e priorizar melhorias. 

 **Resultado desejado:** 
+  Os líderes de operações e a equipe se reúnem regularmente para revisar as métricas durante um determinado período de relatório. Os desafios são comunicados, as vitórias são celebradas e as lições aprendidas são compartilhadas. 
+  As partes interessadas e os líderes de negócios são regularmente informados sobre o estado das operações e solicitados a fornecer informações sobre metas, KPIs e iniciativas futuras. As compensações entre prestação de serviços, operações e manutenção são discutidas e contextualizadas. 

 **Práticas comuns que devem ser evitadas:** 
+  Um novo produto é lançado, mas as equipes operacionais de nível 1 e nível 2 não são adequadamente treinadas para prestar suporte nem recebem pessoal adicional. Métricas que mostram a diminuição nos tempos de resolução de tíquetes e o aumento nos volumes de incidentes não são vistas pelos líderes. Uma ação é tomada semanas depois, quando os números de assinaturas começam a cair à medida que usuários insatisfeitos saem da plataforma. 
+  Um processo manual para realizar a manutenção de uma workload está em vigor há muito tempo. Embora o desejo de automatizar estivesse presente, essa era uma prioridade baixa, considerando a baixa importância do sistema. No entanto, com o tempo, o sistema cresceu em importância e agora esses processos manuais consomem a maior parte do tempo das operações. Nenhum recurso está agendado para fornecer mais ferramentas às operações, causando o esgotamento da equipe à medida que as workloads aumentam. A liderança percebe o que está acontecendo quando é relatado que funcionários estão indo trabalhar para outros concorrentes. 

 **Benefícios de implementar esta prática recomendada:** em algumas organizações, pode ser um desafio alocar o mesmo tempo e atenção dedicados à prestação de serviços e a novos produtos ou ofertas. Quando isso ocorre, a linha de negócios pode sofrer enquanto o nível de serviço esperado se deteriora lentamente. Isso ocorre porque as operações não mudam e evoluem com o crescimento dos negócios e logo podem ser deixadas para trás. Sem uma análise regular dos insights que as operações coletam, o risco para a empresa pode se tornar visível somente quando for tarde demais. Ao alocar tempo para revisar métricas e procedimentos tanto entre a equipe de operações quanto com a liderança, o papel crucial que as operações desempenham permanece visível e os riscos podem ser identificados muito antes de atingirem níveis críticos. As equipes de operações obtêm uma visão melhor das mudanças e iniciativas comerciais iminentes, permitindo que esforços proativos sejam realizados. A visibilidade da liderança nas métricas operacionais mostra o papel que essas equipes desempenham na satisfação do cliente, tanto interno quanto externo, e permite que ela avalie melhor as opções de prioridades ou garanta que as operações tenham tempo e recursos para mudar e evoluir com novas iniciativas de negócios e workload. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Dedique tempo para analisar as métricas operacionais entre as partes interessadas e as equipes operacionais e analisar os dados do relatório. Coloque esses relatórios nos contextos das metas e objetivos da organização para determinar se eles estão sendo cumpridos. Identifique fontes de ambiguidade onde as metas não são claras ou onde pode haver conflitos entre o que é pedido e o que é fornecido. 

 Identifique onde o tempo, as pessoas e as ferramentas podem ajudar nos resultados das operações. Determine quais KPIs isso afetaria e quais deveriam ser as metas de sucesso. Revise regularmente para garantir que as operações tenham recursos suficientes para apoiar a linha de negócios. 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+ [Amazon Athena](https://aws.amazon.com/athena/)
+ [Referência de métricas e dimensões do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html)
+ [Amazon Quick](https://aws.amazon.com/quicksight/)
+ [AWS Glue](https://aws.amazon.com/glue/)
+ [AWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html)
+ [Coletar métricas e logs de instâncias do Amazon EC2 e servidores on-premises com o agente do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html)
+ [Usar métricas do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)

# OPS 10. Como gerenciar os eventos de workload e operações?
<a name="ops-10"></a>

 Prepare e valide procedimentos para responder a eventos, com o objetivo de minimizar a interrupção de sua workload. 

**Topics**
+ [OPS10-BP01 Usar um processo para gerenciamento de eventos, incidentes e problemas](ops_event_response_event_incident_problem_process.md)
+ [OPS10-BP02 Ter um processo por alerta](ops_event_response_process_per_alert.md)
+ [OPS10-BP03 Priorizar eventos operacionais com base no impacto nos negócios](ops_event_response_prioritize_events.md)
+ [OPS10-BP04 Definir caminhos de escalação](ops_event_response_define_escalation_paths.md)
+ [OPS10-BP05 Definir um plano de comunicação com o cliente para interrupções](ops_event_response_push_notify.md)
+ [OPS10-BP06 Comunicar o status por meio de painéis](ops_event_response_dashboards.md)
+ [OPS10-BP07 Automatizar respostas a eventos](ops_event_response_auto_event_response.md)

# OPS10-BP01 Usar um processo para gerenciamento de eventos, incidentes e problemas
<a name="ops_event_response_event_incident_problem_process"></a>

O gerenciamento eficiente de eventos, incidentes e problemas é fundamental para manter a integridade e a performance da workload. É crucial reconhecer e compreender as diferenças entre esses elementos para desenvolver uma estratégia eficaz de resposta e resolução. Estabelecer e seguir um processo bem definido para cada aspecto ajuda sua equipe a lidar de forma rápida e eficaz com qualquer desafio operacional que surgir.

 **Resultado desejado:** sua organização gerencia com eficiência eventos, incidentes e problemas operacionais por meio de processos bem documentados e armazenados de maneira centralizada. Esses processos são atualizados de forma consistente para refletir as mudanças, simplificando o manuseio e mantendo a alta confiabilidade do serviço e a performance da workload. 

 **Práticas comuns que devem ser evitadas:** 
+  Você responde de forma reativa, em vez de proativa, aos eventos. 
+  Abordagens inconsistentes são adotadas para diferentes tipos de eventos ou incidentes. 
+ Sua organização não analisa e nem aprende com os incidentes para evitar futuras ocorrências.

 **Benefícios de implementar esta prática recomendada:** 
+  Processos de resposta simplificados e padronizados. 
+  Impacto reduzido dos incidentes nos serviços e nos clientes. 
+  Resolução rápida de problemas. 
+  Melhoria contínua nos processos operacionais. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Implementar essa prática recomendada significa que você está monitorando os eventos da workload. Você tem processos para lidar com incidentes e problemas. Os processos são documentados, compartilhados e atualizados com frequência. Os problemas são identificados, priorizados e corrigidos. 

 **Compreender eventos, incidentes e problemas** 
+  **Eventos:** um *evento* pode ser uma observação de uma ação, ocorrência ou alteração de estado. Os eventos podem ser planejados ou não e podem ter origens internas ou externas à workload. 
+  **Incidentes:** os *incidentes* são eventos que exigem uma resposta, como interrupções não planejadas ou degradações da qualidade do serviço. Eles representam interrupções que precisam de atenção imediata para restaurar a operação normal da workload. 
+  **Problemas:** *problemas* são as causas subjacentes de um ou mais incidentes. Identificar e resolver problemas envolve aprofundar-se nos incidentes para evitar futuras ocorrências. 

### Etapas de implementação
<a name="implementation-steps"></a>

 **Eventos do** 

1.  **Monitorar eventos:** 
   +  [Implemente a observabilidade](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html) e [utilize a observabilidade da workload](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html). 
   +  As ações de monitoramento tomadas por um usuário, função ou serviço da AWS são registradas como eventos no [AWS CloudTrail](https://aws.amazon.com/cloudtrail/). 
   +  Responda às mudanças operacionais em suas aplicações em tempo real com o [Amazon EventBridge](https://aws.amazon.com/eventbridge/). 
   +  Avalie, monitore e registre constantemente as alterações na configuração de recursos com o [AWS Config](https://aws.amazon.com/config/). 

1.  **Criar processos:** 
   +  Desenvolva um processo para avaliar quais eventos são importantes e exigem monitoramento. Isso envolve definir limites e parâmetros para atividades normais e anormais. 
   +  Determine os critérios que transformam um evento em um incidente. Isso pode ser baseado na gravidade, no impacto nos usuários ou no desvio do comportamento esperado. 
   +  Analise regularmente os processos de monitoramento e resposta a eventos. Isso inclui analisar incidentes anteriores, ajustar limites e refinar os mecanismos de alerta. 

 **Incidentes** 

1.  **Responder a incidentes:** 
   +  Use insights das ferramentas de observabilidade para identificar e responder rapidamente a incidentes. 
   +  Implemente o [Ops Center do AWS Systems Manager](https://aws.amazon.com/systems-manager/features/#OpsCenter) para agregar, organizar e priorizar itens e incidentes operacionais. 
   +  Use serviços como o [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) e o [AWS X-Ray](https://aws.amazon.com/xray/) para análises e soluções de problemas mais aprofundadas. 
   +  Considere o [AWS Managed Services (AMS)](https://aws.amazon.com/managed-services/) para melhorar o gerenciamento de incidentes, aproveitando suas capacidades proativas, preventivas e de detecção. O AMS amplia o suporte operacional com serviços como monitoramento, detecção e resposta a incidentes e gerenciamento de segurança. 
   +  Os clientes Enterprise Support podem usar a [Detecção e Resposta a Incidentes da AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), que fornece monitoramento proativo e gerenciamento de incidentes contínuos para workloads de produção. 

1.  **Criar um processo de gerenciamento de incidentes:** 
   +  Estabeleça um processo estruturado de gerenciamento de incidentes, incluindo funções claras, protocolos de comunicação e etapas para resolução. 
   +  Integre o gerenciamento de incidentes a determinadas ferramentas, como o [Amazon Q Developer em aplicações de chat](https://aws.amazon.com/chatbot/), para obter respostas e coordenação eficientes. 
   +  Categorize os incidentes por gravidade, com [planos de resposta a incidentes](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) predefinidos para cada categoria. 

1.  **Aprender e melhorar:** 
   +  Conduza [análises pós-incidentes](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) para entender as causas-raiz e a eficácia da resolução. 
   +  Atualize e melhore constantemente os planos de resposta com base em análises e práticas em evolução. 
   +  Documente e compartilhe as lições aprendidas entre as equipes para melhorar a resiliência operacional. 
   +  Os clientes Enterprise Support podem solicitar o [workshop Gerenciamento de incidentes](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) ao respectivo gerente técnico da conta. Esse workshop guiado testa seu plano de resposta a incidentes e ajuda você a identificar áreas para melhoria. 

 **Problemas** 

1.  **Identificar problemas:** 
   +  Use dados de incidentes anteriores para identificar padrões recorrentes que possam indicar problemas sistêmicos mais profundos. 
   +  Utilize ferramentas como o [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) e o [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) para analisar tendências e descobrir problemas subjacentes. 
   +  Envolva equipes multifuncionais, incluindo operações, desenvolvimento e unidades de negócios, para obter perspectivas diversas sobre as causas principais dos problemas. 

1.  **Criar um processo de gerenciamento de problemas:** 
   +  Desenvolva um processo estruturado para gerenciamento de problemas com foco em soluções de longo prazo em vez de soluções rápidas. 
   +  Incorpore técnicas de análise das causas-raiz (RCA) para investigar e compreender as causas subjacentes dos incidentes. 
   +  Atualize políticas, procedimentos e infraestrutura operacionais com base nas descobertas para evitar recorrência. 

1.  **Continuar melhorando:** 
   +  Promova uma cultura de aprendizado e aprimoramento constantes, incentivando as equipes a identificar e resolver possíveis problemas de forma proativa. 
   +  Analise e revise regularmente os processos e ferramentas de gerenciamento de problemas para se alinhar aos cenários de negócios e tecnologia em evolução. 
   +  Compartilhe insights e práticas recomendadas em toda a organização para criar um ambiente operacional mais resiliente e eficiente. 

1.  **Envolver o AWS Support:** 
   +  Use os recursos de suporte da AWS, como o [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/), para receber orientação proativa e recomendações de otimização. 
   +  Os clientes Enterprise Support podem acessar programas especializados, como o [AWS Countdown](https://aws.amazon.com/premiumsupport/aws-countdown/), para obter suporte durante eventos críticos. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificar indicadores-chave de performance](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementar a telemetria de aplicações](ops_observability_application_telemetry.md) 
+  [OPS07-BP03 Usar runbooks para realizar procedimentos](ops_ready_to_support_use_runbooks.md)
+  [OPS07-BP04 Usar playbooks para investigar problemas](ops_ready_to_support_use_playbooks.md) 
+  [OPS08-BP01 Analisar métricas da workload](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS11-BP02 Executar análise pós-incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documentos relacionados:** 
+  [Guia de resposta a incidentes de segurança da AWS](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+ [Detecção e resposta a incidentes da AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)
+ [Framework de adoção da Nuvem AWS: perspectiva de operações: gerenciamento de incidentes e problemas](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+  [Gerenciamento de incidentes na era de DevOps e SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty: o que é gerenciamento de incidentes?](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Vídeos relacionados:** 
+ [As principais dicas de resposta a incidentes da AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [AWS re:Invent 2022: Amazon Builders' Library: 25 anos de excelência operacional da Amazon](https://www.youtube.com/watch?v=DSRhgBd_gtw)
+ [AWS re:Invent 2022: Detecção e resposta a incidentes na AWS (SUP201)](https://www.youtube.com/watch?v=IbSgM4IP9IE)
+ [Introdução ao AWS Systems Manager Incident Manager](https://www.youtube.com/watch?v=I6lScgh4qds)

 **Exemplos relacionados:** 
+  [Serviços proativos da AWS](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives): workshop de gerenciamento de incidentes 
+ [Como automatizar a resposta a incidentes com o PagerDuty e o AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/how-to-automate-incident-response-with-pagerduty-and-aws-systems-manager-incident-manager/)
+ [Engajar os respondedores de incicentes com escalas de plantão na AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/engage-incident-responders-with-the-on-call-schedules-in-aws-systems-manager-incident-manager/)
+ [Melhorar a visibilidade e a colaboração durante o tratamento de incidentes na AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/improve-the-visibility-and-collaboration-during-incident-handling-in-aws-systems-manager-incident-manager/)
+ [Relatórios de incidentes e solicitações de serviço no AMS](https://docs.aws.amazon.com/managedservices/latest/userguide/support-experience.html)

 **Serviços relacionados:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 

# OPS10-BP02 Ter um processo por alerta
<a name="ops_event_response_process_per_alert"></a>

 Estabelecer um processo claro e definido para cada alerta em seu sistema é essencial para um gerenciamento eficaz e eficiente de incidentes. Essa prática garante que cada alerta leve a uma resposta específica e acionável, melhorando a confiabilidade e a capacidade de resposta de suas operações. 

 **Resultado desejado:** cada alerta inicia um plano de resposta específico e bem definido. Sempre que possível, as respostas são automatizadas, com propriedade clara e um caminho de escalação definido. Os alertas estão vinculados a uma base de conhecimento atualizada para que qualquer operador possa responder de forma consistente e eficaz. As respostas são rápidas e uniformes em todos os setores, aumentando a eficiência e a confiabilidade operacionais. 

 **Práticas comuns que devem ser evitadas:** 
+  Os alertas não têm um processo de resposta predefinido, o que leva a resoluções improvisadas e atrasadas. 
+  A sobrecarga de alertas faz com que alertas importantes sejam ignorados. 
+  Os alertas são tratados de forma inconsistente devido à falta de propriedade e responsabilidade claras. 

 **Benefícios de implementar esta prática recomendada:** 
+  Redução da fadiga dos alertas ao gerar apenas alertas acionáveis. 
+  Diminuição do tempo médio de resolução (MTTR) para problemas operacionais. 
+  Diminuição do tempo médio de investigação (MTTI), o que ajuda a reduzir o MTTR. 
+  Capacidade aprimorada para escalar respostas operacionais. 
+  Consistência e confiabilidade aprimoradas no tratamento de eventos operacionais. 

 Por exemplo, você tem um processo definido para eventos do AWS Health para contas essenciais, incluindo alarmes de aplicação, problemas operacionais e eventos planejados do ciclo de vida (como atualização das versões do Amazon EKS antes que os clusters sejam atualizados automaticamente), e você permite que as equipem monitorem ativamente, comuniquem e responderam a esses eventos. Essas ações ajudam a evitar interrupções no serviço causadas por alterações do lado da AWS ou a mitigá-las mais rapidamente quando ocorrem problemas inesperados. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Ter um processo por alerta envolve estabelecer um plano de resposta claro para cada alerta, automatizar as respostas sempre que possível e refinar constantemente esses processos com base no feedback operacional e nos requisitos em evolução. 

### Etapas de implementação
<a name="implementation-steps"></a>

 O seguinte diagrama ilustra o fluxo de trabalho de gerenciamento de incidentes dentro do [AWS Systems Manager Incident Manager](https://aws.amazon.com/systems-manager/features/incident-manager/). Ele foi projetado para responder rapidamente a problemas operacionais, criando automaticamente incidentes em resposta a eventos específicos do [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) ou [Amazon EventBridge](https://aws.amazon.com/eventbridge/). Quando um incidente é criado, automática ou manualmente, o Incident Manager centraliza o gerenciamento do incidente, organiza as informações relevantes dos recursos da AWS e inicia planos de resposta predefinidos. Isso inclui executar runbooks de automação do Systems Manager Automation para ação imediata, bem como criar um item de trabalho operacional principal no OpsCenter para rastrear tarefas e análises relacionadas. Esse processo simplificado acelera e coordena a resposta a incidentes em todo o seu ambiente da AWS. 

![\[Fluxograma que descreve como o Incident Manager funciona: o Amazon Q Developer em aplicações de chat, os planos e contatos de encaminhamento e os runbooks fluem para os planos de resposta, que, por sua vez, fluem para incidentes e análises. O Amazon CloudWatch também flui para planos de resposta.\]](http://docs.aws.amazon.com/pt_br/wellarchitected/latest/framework/images/incident-manager-how-it-works.png)


1.  **Use alarmes compostos:** crie [alarmes compostos](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) no CloudWatch para agrupar alarmes relacionados, reduzindo o ruído e permitindo respostas mais significativas. 

1.  **Mantenha-se a par do [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html):** o AWS Health é a fonte de informações confiável sobre a integridade dos seus recursos da Nuvem AWS. Use o AWS Health para visualizar e obter notificações sobre quaisquer eventos de serviço atuais e alterações futuras, como eventos planejados de ciclo de vida, a fim de que possa tomar medidas para mitigar os impactos. 

   1.  [Crie notificações de eventos do AWS Health ajustados à finalidade](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) para canais de e-mail e chat por meio do [Notificações de Usuários da AWS](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) e integre-as programaticamente às [suas ferramentas de monitoramento e alerta por meio do Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) ou da [API do AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Para planejar e acompanhar o progresso de eventos de integridade que exijam ações, utilize o Amazon EventBridge ou a API do AWS Health para fazer a integração com ferramentas de gerenciamento de alterações ou de ITSM que você já esteja usando (como [Jira](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) ou [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)). 

   1.  Se você usar o AWS Organizations, habilite a [visualização da organização para o AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html) a fim de agregar eventos do AWS Health em todas as contas. 

1.  **Integre os alarmes do Amazon CloudWatch ao Incident Manager:** configure os alarmes do CloudWatch para criar automaticamente incidentes no [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html). 

1.  **Integre o Amazon EventBridge ao Incident Manager:** crie [regras do EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule.html) para reagir a eventos e criar incidentes usando planos de resposta definidos. 

1.  **Prepare-se para incidentes no Incident Manager:** 
   +  Estabeleça [planos de resposta](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) detalhados no Incident Manager para cada tipo de alerta. 
   +  Estabeleça canais de chat por meio do [Amazon Q Developer em aplicações de chat](https://docs.aws.amazon.com/incident-manager/latest/userguide/chat.html) conectado a planos de resposta no Incident Manager para facilitar a comunicação em tempo real durante incidentes em plataformas como Slack, Microsoft Teams e Amazon Chime. 
   +  Incorpore os [runbooks do Systems Manager Automation](https://docs.aws.amazon.com/incident-manager/latest/userguide/runbooks.html) no Incident Manager para gerar respostas automatizadas aos incidentes. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificar indicadores-chave de performance](ops_observability_identify_kpis.md) 
+  [OPS08-BP04 Criar alertas acionáveis](ops_workload_observability_create_alerts.md) 

 **Documentos relacionados:** 
+ [Framework de adoção da Nuvem AWS: perspectiva de operações: gerenciamento de incidentes e problemas](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+ [Usar alarmes do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)
+ [Configurar o AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/setting-up.html)
+ [Como se preparar para incidentes no Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-response.html)

 **Vídeos relacionados:** 
+ [As principais dicas de resposta a incidentes da AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [ re:Invent 2023 \$1 Manage resource lifecycle events at scale with AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA)

 **Exemplos relacionados:** 
+ [Workshops da AWS: AWS Systems Manager Incident Manager – Automatizar a resposta a incidentes em eventos de segurança](https://catalog.workshops.aws/automate-incident-response/en-US/settingupim/onboarding)

# OPS10-BP03 Priorizar eventos operacionais com base no impacto nos negócios
<a name="ops_event_response_prioritize_events"></a>

 Responder prontamente aos eventos operacionais é fundamental, mas nem todos os eventos são iguais. Ao priorizar com base no impacto nos negócios, você também prioriza o tratamento de eventos com o potencial de graves consequências, como segurança, perdas financeiras, violações regulatórias ou danos à reputação. 

 **Resultado desejado:** as respostas aos eventos operacionais são priorizadas com base no possível impacto nas operações e nos objetivos de negócios. Isso torna as respostas eficientes e eficazes. 

 **Práticas comuns que devem ser evitadas:** 
+  Cada evento é tratado com o mesmo nível de urgência, causando confusão e atrasos na resolução de problemas críticos. 
+  Você não consegue distinguir entre eventos de alto e baixo impacto, o que leva à má alocação de recursos. 
+  Sua organização carece de uma estrutura de priorização clara, o que acarreta em respostas inconsistentes aos eventos operacionais. 
+  Os eventos são priorizados com base na ordem em que são relatados, e não em seu impacto nos resultados de negócios. 

 **Benefícios de implementar esta prática recomendada:** 
+  Garante que as funções críticas da empresa recebam atenção em primeiro lugar, minimizando possíveis danos. 
+  Melhora a alocação de recursos durante vários eventos simultâneos. 
+  Melhora a capacidade da organização de manter a confiança e atender aos requisitos regulatórios. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Em se tratando de vários eventos operacionais, uma abordagem estruturada de priorização com base no impacto e na urgência é essencial. Essa abordagem ajuda você a tomar decisões embasadas, direcionar esforços para onde eles são mais necessários e reduzir o risco à continuidade dos negócios. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  **Avalie o impacto:** desenvolva um sistema de classificação para avaliar a gravidade dos eventos em termos de possível impacto nas operações e nos objetivos de negócios. O seguinte exemplo mostra as categorias de impacto:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Avalie a urgência:** defina os níveis de urgência da rapidez com que um evento precisa de uma resposta, considerando fatores como segurança, implicações financeiras e acordos de serviço (SLAs). O seguinte exemplo demonstra as categorias de urgência:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Crie uma matriz de priorização:** 
   +  Use uma matriz para fazer a referência cruzada das informações sobre impacto e urgência, atribuindo níveis de prioridade a diferentes combinações. 
   +  Torne a matriz acessível e capaz de ser compreendida por todos os membros da equipe responsáveis pelas respostas aos eventos operacionais. 
   +  O seguinte exemplo de matriz exibe a gravidade do incidente de acordo com a urgência e o impacto:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Treine e comunique:** treine as equipes de resposta sobre a matriz de priorização e a importância de segui-la durante um evento. Comunique o processo de priorização a todas as partes interessadas para definir expectativas claras. 

1.  **Integre à resposta a incidentes:** 
   +  Incorpore a matriz de priorização em seus planos e ferramentas de resposta a incidentes. 
   +  Automatize a classificação e a priorização de eventos sempre que possível para acelerar os tempos de resposta. 
   +  Os clientes Enterprise Support podem usar a [Detecção e Resposta a Incidentes da AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), que fornece monitoramento proativo e gerenciamento de incidentes contínuos para workloads de produção. 

1.  **Revise e adapte:** analise regularmente a eficácia do processo de priorização e faça ajustes com base no feedback e nas mudanças no ambiente de negócios. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS03-BP03 Incentivo à escalação](ops_org_culture_team_enc_escalation.md) 
+  [OPS08-BP04 Criar alertas acionáveis](ops_workload_observability_create_alerts.md) 
+  [OPS09-BP01 Medir metas operacionais e KPIs com métricas](ops_operations_health_measure_ops_goals_kpis.md) 

 **Documentos relacionados:** 
+ [Atlassian: como entender os níveis de severidade dos incidentes](https://www.atlassian.com/incident-management/kpis/severity-levels)
+ [Mapa de processos de TI: prioridade de incidentes na lista de verificação](https://wiki.en.it-processmaps.com/index.php/Checklist_Incident_Priority)

# OPS10-BP04 Definir caminhos de escalação
<a name="ops_event_response_define_escalation_paths"></a>

Estabeleça caminhos claros de escalação em seus protocolos de resposta a incidentes para facilitar ações rápidas e eficazes. Isso inclui especificar solicitações de escalação, detalhar o processo de escalação e pré-aprovar ações para agilizar a tomada de decisões e reduzir o tempo médio de resolução (MTTR).

 **Resultado desejado:** um processo estruturado e eficiente que encaminha os incidentes para a equipe apropriada, minimizando os tempos de resposta e o impacto. 

 **Práticas comuns que devem ser evitadas:** 
+ A falta de clareza sobre os procedimentos de recuperação leva a respostas improvisadas durante incidentes críticos.
+ A ausência de permissões e propriedade definidas ocasiona atrasos quando uma ação urgente é necessária.
+  As partes interessadas e os clientes não são informados de acordo com as expectativas. 
+  Decisões importantes estão atrasadas. 

 **Benefícios de implementar esta prática recomendada:** 
+  Resposta simplificada a incidentes por meio de procedimentos de escalação predefinidos. 
+  Tempo de inatividade reduzido com ações pré-aprovadas e propriedade clara. 
+  Melhor alocação de recursos e ajustes no nível de suporte de acordo com a gravidade do incidente. 
+  Comunicação aprimorada com as partes interessadas e os clientes. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Caminhos de escalação definidos adequadamente são cruciais para uma resposta rápida a incidentes. O AWS Systems Manager Incident Manager oferece suporte à configuração de planos de escalação estruturada e agendamentos de plantão, que alertam a equipe certa para que ela esteja pronta para agir quando ocorrerem incidentes. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  **Configure solicitações de escalação:** configure os [alarmes do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) para criar um incidente no [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com//incident-manager/latest/userguide/incident-creation.html). 

1.  **Configure escalas de plantão:** crie [escalas de plantão](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule-create.html) no Incident Manager que se alinhem aos seus caminhos de escalação. Equipe o pessoal de plantão com as permissões e ferramentas necessárias para agir rapidamente. 

1.  **Detalhe os procedimentos detalhados de escalação:** 
   +  Determine as condições específicas sob as quais um incidente deve ser escalado. 
   +  Crie [planos de escalação](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html) no Incident Manager. 
   +  Os canais de escalação devem consistir em um contato ou em uma escala de plantão. 
   +  Defina as funções e responsabilidades da equipe em cada nível de escalação. 

1.  **Aprove previamente as ações de mitigação:** colabore com os tomadores de decisão para pré-aprovar ações para cenários previstos. Use [runbooks do Systems Manager Automation](https://docs.aws.amazon.com//incident-manager/latest/userguide/tutorials-runbooks.html) integrados ao Incident Manager para acelerar a resolução de incidentes. 

1.  **Especifique a propriedade:** identifique claramente os proprietários internos de cada etapa do caminho de escalação. 

1.  **Detalhe as escalações de terceiros:** 
   +  Documente os acordos de serviço (SLAs) de terceiros e alinhe-os às metas internas. 
   +  Defina protocolos claros para a comunicação com o fornecedor durante incidentes. 
   +  Integre os contatos do fornecedor às ferramentas de gerenciamento de incidentes para acesso direto. 
   +  Realize exercícios regulares que incluam cenários de resposta de terceiros. 
   +  Mantenha as informações de escalação de fornecedores bem documentadas e facilmente acessíveis. 

1.  **Treine e ensaie os planos de escalação:** treine sua equipe no processo de escalação e realize exercícios regulares de resposta a incidentes ou encenações. Os clientes Enterprise Support podem solicitar um [workshop sobre gerenciamento de incidentes](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/). 

1.  **Continue a aprimorar:** analise com frequência a eficácia de seus caminhos de escalação. Atualize seus processos com base nas lições aprendidas com os post-mortems de incidentes e com o feedback contínuo. 

 **Nível de esforço do plano de implementação:** Moderado 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS08-BP04 Criar alertas acionáveis](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Ter um processo por alerta](ops_event_response_process_per_alert.md) 
+  [OPS11-BP02 Executar análise pós-incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documentos relacionados:** 
+ [Planos de escalação da AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html)
+ [Como trabalhar com escalas de plantão no Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule.html)
+ [Criar e gerenciar runbooks](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html)
+ [Gerenciamento de acesso elevado temporário com o Centro de Identidade do AWS IAM](https://aws.amazon.com/blogs/security/temporary-elevated-access-management-with-iam-identity-center/)
+ [Atlassian: políticas de escalação para o gerenciamento efetivo de incidentes](https://www.atlassian.com/incident-management/on-call/escalation-policies)

# OPS10-BP05 Definir um plano de comunicação com o cliente para interrupções
<a name="ops_event_response_push_notify"></a>

 A comunicação eficaz durante interrupções é fundamental para manter a confiança e a transparência com os clientes. Um plano de comunicação bem definido ajuda sua organização a compartilhar informações de forma rápida e clara, interna e externamente, durante incidentes. 

 **Resultado desejado:** 
+  Um plano de comunicação robusto que informa de maneira eficaz os clientes e as partes interessadas sobre interrupções. 
+  Transparência na comunicação para criar confiança e reduzir a ansiedade do cliente. 
+  Minimiza o impacto das interrupções na experiência do cliente e nas operações comerciais. 

 **Práticas comuns que devem ser evitadas:** 
+  A comunicação inadequada ou atrasada leva à confusão e insatisfação do cliente. 
+  Mensagens excessivamente técnicas ou vagas não transmitem o impacto real sobre os usuários. 
+  Não há uma estratégia de comunicação predefinida, resultando em mensagens inconsistentes e reativas. 

 **Benefícios de implementar esta prática recomendada:** 
+  Maior confiança e satisfação do cliente por meio de uma comunicação proativa e clara. 
+  Redução da carga depositada sobre as equipes de suporte ao abordar de maneira preventiva as preocupações dos clientes. 
+  Gerenciamento e recuperação mais eficazes depois de incidentes. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 A criação de um plano de comunicação abrangente para interrupções envolve vários aspectos, desde a escolha dos canais certos até a elaboração da mensagem e do tom. O plano deve tanto ser adaptável e escalável quanto atender a diferentes cenários de interrupção. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  **Defina perfis e responsabilidades:** 
   +  Atribua um gerente de incidentes principal para supervisionar as atividades de resposta a incidentes. 
   +  Atribua um gerente de comunicações responsável por coordenar todas as comunicações externas e internas. 
   +  Inclua o gerente de suporte para fornecer comunicação consistente por meio de tíquetes de suporte. 

1.  **Identifique os canais de comunicação:** selecione canais como chat interno, e-mail, SMS, redes sociais, notificações na aplicação e páginas de status. Esses canais devem ser resilientes e funcionar de forma independente durante interrupções. 

1.  **Comunique-se com os clientes de forma rápida, clara e frequente:** 
   +  Desenvolva modelos para vários cenários de comprometimento do serviço, enfatizando a simplicidade e os detalhes essenciais. Inclua informações sobre a deficiência do serviço, o tempo esperado de resolução e o impacto. 
   +  Use o Amazon Pinpoint para alertar os clientes usando notificações push, notificações na aplicação, e-mails, mensagens de texto, mensagens de voz e mensagens em canais personalizados. 
   +  Use o Amazon Simple Notiﬁcation Service (Amazon SNS) para alertar os assinantes programaticamente ou por e-mail, notificações push em telefones celulares e mensagens de texto. 
   +  Comunique o status por meio de um painel público do Amazon CloudWatch. 
   +  Incentive o engajamento nas redes sociais: 
     +  Monitore ativamente as redes sociais para entender a percepção do cliente. 
     +  Publique em plataformas de rede social para fazer atualizações públicas e engajar a comunidade. 
     +  Prepare modelos para uma comunicação consistente e clara nas redes sociais. 

1.  **Coordene a comunicação interna:** implemente protocolos internos usando determinadas ferramentas, como o Amazon Q Developer em aplicações de chat, para coordenação e comunicação de equipes. Use os painéis do CloudWatch para comunicar o status. 

1.  **Organize a comunicação com ferramentas e serviços dedicados:** 
   +  Use o AWS Systems Manager Incident Manager com o Amazon Q Developer em aplicações de chat para configurar canais de chat exclusivos para comunicação e coordenação internas em tempo real durante incidentes. 
   +  Use os runbooks do AWS Systems Manager Incident Manager para automatizar as notificações enviadas aos clientes por meio do Amazon Pinpoint, do Amazon SNS ou de ferramentas de terceiros, como plataformas de rede social, durante incidentes. 
   +  Incorpore fluxos de trabalho de aprovação nos runbooks para, opcionalmente, revisar e autorizar todas as comunicações externas antes do envio. 

1.  **Pratique e melhore:** 
   +  Realize treinamentos sobre o uso de ferramentas e estratégias de comunicação. Capacite as equipes a tomar decisões rápidas durante incidentes. 
   +  Teste o plano de comunicação por meio de exercícios ou game days frequentes. Use esses testes para refinar as mensagens e avaliar a eficácia dos canais. 
   +  Implemente mecanismos de feedback para avaliar a eficácia da comunicação durante incidentes. Continue desenvolvendo o plano de comunicação com base no feedback e nas mudanças necessárias. 

 **Nível de esforço do plano de implementação:** Alto 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS07-BP03 Usar runbooks para realizar procedimentos](ops_ready_to_support_use_runbooks.md) 
+  [OPS10-BP06 Comunicar o status por meio de painéis](ops_event_response_dashboards.md) 
+  [OPS11-BP02 Executar análise pós-incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documentos relacionados:** 
+ [Atlassian: práticas recomendadas de comunicação de incidentes](https://www.atlassian.com/incident-management/incident-communication)
+ [Atlassian: como redigir uma boa atualização de status](https://www.atlassian.com/blog/statuspage/how-to-write-a-good-status-update)
+ [PagerDuty: um guia para a comunicação de incidentes](https://www.pagerduty.com/resources/learn/a-guide-to-incident-communications/)

 **Vídeos relacionados:** 
+ [Atlassian: criar seu próprio plano de comunicação de incidentes: modelos de incidentes](https://www.youtube.com/watch?v=ZROVn6-K2qU)

 **Exemplos relacionados:** 
+  [Painel do AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health-dashboard/) 

# OPS10-BP06 Comunicar o status por meio de painéis
<a name="ops_event_response_dashboards"></a>

 Use painéis como uma ferramenta estratégica para transmitir o status operacional em tempo real e as principais métricas para diferentes públicos, incluindo equipes técnicas internas, liderança e clientes. Esses painéis oferecem uma representação visual centralizada da integridade do sistema e da performance dos negócios, aumentando a transparência e a eficiência na tomada de decisões. 

 **Resultado desejado:** 
+  Os painéis fornecem uma visão abrangente do sistema e das métricas comerciais relevantes para diferentes partes interessadas. 
+  As partes interessadas podem acessar as informações operacionais de forma proativa, reduzindo a necessidade de solicitações frequentes de status. 
+  A tomada de decisões em tempo real é aprimorada durante operações e incidentes normais. 

 **Práticas comuns que devem ser evitadas:** 
+ Os engenheiros que participam de uma chamada de gerenciamento de incidentes precisam de atualizações de status para se atualizarem.
+ Confiar em relatórios manuais para gerenciamento, o que leva a atrasos e possíveis imprecisões.
+  As equipes de operações são frequentemente interrompidas para atualizações de status durante incidentes. 

 **Benefícios de implementar esta prática recomendada:** 
+  Capacita as partes interessadas com acesso imediato a informações críticas, promovendo a tomada de decisões embasada. 
+  Reduz as ineficiências operacionais minimizando os relatórios manuais e as frequentes consultas de status. 
+  Aumenta a transparência e a confiança por meio da visibilidade em tempo real da performance do sistema e das métricas de negócios. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Os painéis comunicam com eficácia o status do sistema e métricas de negócios e podem ser adaptados às necessidades de diferentes grupos de público. Ferramentas como os painéis do Amazon CloudWatch e o Amazon Quick ajudam a criar painéis interativos em tempo real para monitoramento de sistemas e business intelligence. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  **Identifique as necessidades das partes interessadas:** determine as necessidades específicas de informações de diferentes grupos de público, como equipes técnicas, liderança e clientes. 

1.  **Escolha as ferramentas certas:** selecione as ferramentas apropriadas, como os [painéis do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html), para monitoramento do sistema, e o [Amazon Quick](https://aws.amazon.com/quicksight/) para business intelligence interativo. O [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) oferece uma experiência pronta para uso no [AWS Health Dashboard](https://health.aws.amazon.com/health/home), ou você pode usar eventos de integridade no Amazon EventBridge ou por meio da API do AWS Health para aprimorar seus próprios painéis. 

1.  **Crie painéis eficazes:** 
   +  Crie painéis para apresentar claramente métricas e KPIs relevantes, garantindo que sejam compreensíveis e acionáveis. 
   +  Incorpore visualizações em nível de sistema e de negócios, conforme necessário. 
   +  Inclua painéis de alto nível (para visões gerais amplas) e de baixo nível (para análises detalhadas). 
   +  Integre alarmes automatizados em painéis para destacar problemas críticos. 
   +  Anote painéis com métricas, limites e metas importantes para visibilidade imediata. 

1.  **Integre fontes de dados:** 
   +  Use o [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) para agregar e exibir métricas de vários serviços da AWS e [consultar métricas de outras fontes de dados](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html), criando uma visão unificada das métricas comerciais e de integridade do seu sistema. 
   +  Use recursos como o [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) para consultar e visualizar dados de log de diferentes aplicações e serviços. 
   +  Use eventos do AWS Health para se manter a par do status operacional e dos problemas operacionais confirmados dos serviços da AWS por meio da API do [AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html) ou de [eventos do AWS Health no Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html). 

1.  **Forneça acesso por autoatendimento:** 
   +  Compartilhe os painéis do CloudWatch com partes interessadas relevantes para acessar informações por autoatendimento usando [recursos de compartilhamento de painéis](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html). 
   +  Garanta que os painéis sejam facilmente acessíveis e forneçam informações atualizadas e em tempo real. 

1.  **Atualize e refine com frequência:** 
   +  Atualize e refine constantemente os painéis para se alinharem às necessidades comerciais em evolução e ao feedback das partes interessadas. 
   +  Analise com frequência os painéis para mantê-los relevantes e eficazes a fim de transmitir as informações necessárias. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS08-BP05 Criar painéis](ops_workload_observability_create_dashboards.md) 

 **Documentos relacionados:** 
+ [ Criar painéis para visibilidade operacional ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Usar painéis do Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html)
+ [ Criar painéis flexíveis com variáveis de painel ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html)
+ [ Compartilhar painéis do CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html)
+ [ Métricas de consulta de outras fontes de dados ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html)
+ [ Adicionar um widget personalizado a um painel do CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html)

 **Exemplos relacionados:** 
+ [ Workshop One Observability: painéis ](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US/aws-native/dashboards)

# OPS10-BP07 Automatizar respostas a eventos
<a name="ops_event_response_auto_event_response"></a>

 Automatizar as respostas a eventos é essencial para operações rápidas, consistentes e sem erros. Crie processos simplificados e use ferramentas para gerenciar e responder automaticamente aos eventos, minimizando as intervenções manuais e aprimorando a eficácia operacional. 

 **Resultado desejado:** 
+  Redução de erros humanos e tempos de resolução mais rápidos por meio de automação. 
+  Tratamento de eventos operacionais consistente e confiável. 
+  Eficiência operacional e confiabilidade do sistema aprimoradas. 

 **Práticas comuns que devem ser evitadas:** 
+ O tratamento manual de eventos leva a atrasos e erros.
+ A automação é negligenciada em tarefas críticas e repetitivas.
+  Tarefas manuais repetitivas levam à fadiga de alertas e à negligência de problemas críticos. 

 **Benefícios de implementar esta prática recomendada:** 
+  Aceleração das respostas aos eventos, reduzindo o tempo de inatividade do sistema. 
+  Operações confiáveis com tratamento automatizado e consistente de eventos. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Incorpore a automação para criar fluxos de trabalho operacionais eficientes e minimizar as intervenções manuais. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  **Identifique oportunidades de automação:** determine tarefas repetitivas a serem automatizadas, como correção de problemas, ampliação de tíquetes, gerenciamento de capacidade, ajuste de escala, implantações e testes. 

1.  **Identifique prompts de automação:** 
   +  Avalie e defina condições ou métricas específicas que iniciam respostas automatizadas usando [ações de alarme do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions). 
   +  Use o [Amazon EventBridge](https://aws.amazon.com/eventbridge/) para responder a eventos em serviços da AWS, workloads personalizadas e aplicações SaaS. 
   +  Considere eventos de iniciação, como [entradas de log específicas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html), [limites de métricas de performance](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) ou [mudanças de estado](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) em recursos da AWS. 

1.  **Implemente a automação orientada por eventos:** 
   +  Use os runbooks de automação do AWS Systems Manager para simplificar as tarefas de manutenção, implantação e correção. 
   +  A [criação de incidentes no Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) reúne e adiciona automaticamente detalhes sobre os recursos da AWS envolvidos no incidente. 
   +  Monitore proativamente as cotas usando o [Quota Monitor para AWS](https://aws.amazon.com/solutions/implementations/quota-monitor/). 
   +  Ajuste automaticamente a capacidade do [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) para manter a disponibilidade e a performance. 
   +  Automatize os pipelines de desenvolvimento com o [Amazon CodeCatalyst](https://codecatalyst.aws/explore). 
   +  Faça um teste preliminar ou monitore continuamente endpoints e APIs [usando monitoramento sintético](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html). 

1.  **Faça a mitigação de riscos por meio de automação:** 
   +  Implemente [respostas de segurança automatizadas](https://aws.amazon.com/solutions/implementations/automated-security-response-on-aws/) para lidar rapidamente com os riscos. 
   +  Use o [AWS Systems Manager State Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) para reduzir desvios de configuração. 
   +  [Corrija os recursos não compatíveis automaticamente com o Regras do AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) 

 **Nível de esforço do plano de implementação:** Alto 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS08-BP04 Criar alertas acionáveis](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Ter um processo por alerta](ops_event_response_process_per_alert.md) 

 **Documentos relacionados:** 
+  [Usar runbooks do Systems Manager Automation com o Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/tutorials-runbooks.html) 
+  [Criar incidentes no Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) 
+  [Cotas de serviço da AWS](https://docs.aws.amazon.com/general/latest/gr/aws_service_limits.html) 
+  [Monitorar o uso de recursos e enviar notificações ao se aproximar das cotas](https://docs.aws.amazon.com/solutions/latest/quota-monitor-for-aws/solution-overview.html) 
+  [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) 
+  [O que é o Amazon CodeCatalyst?](https://docs.aws.amazon.com/codecatalyst/latest/userguide/welcome.html) 
+  [Usar alarmes do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Usar ações de alarmes no Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) 
+  [Corrigir recursos fora de conformidade com o Regras do AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) 
+  [Criar métricas de eventos de log usando filtros](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
+  [AWS Systems Manager State Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) 

 **Vídeos relacionados:** 
+ [Criar runbooks de automação com o AWS Systems Manager](https://www.youtube.com/watch?v=fQ_KahCPBeU)
+ [Como automatizar operações de TI na AWS](https://www.youtube.com/watch?v=GuWj_mlyTug)
+ [Regras de automação do AWS Security Hub CSPM](https://www.youtube.com/watch?v=XaMfO_MERH8)
+ [Como começar seu projeto rapidamente com esquemas do Amazon CodeCatalyst](https://www.youtube.com/watch?v=rp7roaoPzFE)

 **Exemplos relacionados:** 
+ [Tutorial do Amazon CodeCatalyst: Criar um projeto com o esquema de aplicação Web de três níveis moderna](https://docs.aws.amazon.com/codecatalyst/latest/userguide/getting-started-template-project.html)
+ [Workshop One Observability](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US)
+ [Responder a incidentes usando o Incident Manager](https://catalog.workshops.aws/getting-started-with-com/en-US/operations-management/incident-manager)

# Evoluir
<a name="a-evolve"></a>

**Topics**
+ [OPS 11. Como evoluir as operações?](ops-11.md)

# OPS 11. Como evoluir as operações?
<a name="ops-11"></a>

 Dedique tempo e recursos para a melhoria incremental praticamente contínua a fim de aumentar a eficácia e a eficiência das suas operações. 

**Topics**
+ [OPS11-BP01 Adotar um processo para melhoria contínua](ops_evolve_ops_process_cont_imp.md)
+ [OPS11-BP02 Executar análise pós-incidente](ops_evolve_ops_perform_rca_process.md)
+ [OPS11-BP03 Implementar loops de feedback](ops_evolve_ops_feedback_loops.md)
+ [OPS11-BP04 Gerenciar o conhecimento](ops_evolve_ops_knowledge_management.md)
+ [OPS11-BP05 Definir fatores de melhoria](ops_evolve_ops_drivers_for_imp.md)
+ [OPS11-BP06 Validar insights](ops_evolve_ops_validate_insights.md)
+ [OPS11-BP07 Fazer revisões das métricas de operações](ops_evolve_ops_metrics_review.md)
+ [OPS11-BP08 Documentar e compartilhar as lições aprendidas](ops_evolve_ops_share_lessons_learned.md)
+ [OPS11-BP09 Alocar tempo para fazer melhorias](ops_evolve_ops_allocate_time_for_imp.md)

# OPS11-BP01 Adotar um processo para melhoria contínua
<a name="ops_evolve_ops_process_cont_imp"></a>

 Avalie a workload em relação às práticas recomendadas de arquitetura interna e externa. Realize análises frequentes e intencionais da workload. Priorize as oportunidades de melhoria na cadência de desenvolvimento de software. 

 **Resultado desejado:** 
+  Analise a workload em relação às práticas recomendadas de arquitetura com frequência. 
+  Atribua às oportunidades de melhoria a mesma prioridade que os recursos do processo de desenvolvimento de software. 

 **Práticas comuns que devem ser evitadas:** 
+  Não realizar uma análise de arquitetura na workload desde que ela foi implantada há vários anos. 
+  Atribuir uma prioridade menor às oportunidades de melhoria. Em comparação com os novos recursos, essas oportunidades permanecem pendentes. 
+  Não há um padrão para implementar modificações nas práticas recomendadas da organização. 

 **Benefícios de implementar esta prática recomendada:** 
+  A workload é mantida atualizada em relação às práticas recomendadas de arquitetura. 
+  Você desenvolveu a workload de forma intencional. 
+  Você pode utilizar as práticas recomendadas da organização para melhorar todas as workloads. 
+  Você tem ganhos marginais que têm um impacto cumulativo, o que gera maior eficiência. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Realize frequentemente uma revisão arquitetônica da workload. Usando práticas recomendadas internas e externas, avalie a workload e identifique oportunidades de melhoria. Priorize as oportunidades de melhoria na cadência de desenvolvimento de software. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  Realize revisões de arquitetura periódicas da workload de produção com uma frequência previamente combinada. Use um padrão de arquitetura documentado que inclua práticas recomendadas específicas da AWS. 

   1.  Use os padrões definidos internamente para essas avaliações. Se não houver um padrão interno, use o AWS Well-Architected Framework. 

   1.  Use o AWS Well-Architected Tool para criar uma perspectiva personalizada das práticas recomendadas internas e realizar a análise da arquitetura. 

   1.  Entre em contato com o arquiteto de soluções ou o gerente técnico de contas da AWS para realizar uma análise guiada do Well-Architected Framework para sua workload. 

1.  Priorize as oportunidades de melhoria identificadas durante a análise em seu processo de desenvolvimento de software. 

 **Nível de esforço do plano de implementação:** Baixo. É possível usar o AWS Well-Architected Framework para realizar sua análise de arquitetura anual. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS11-BP02 Executar análise pós-incidente](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) 
+  [OPS11-BP08 Documentar e compartilhar as lições aprendidas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_share_lessons_learned.html) 
+  [OPS04 Como implementar a observabilidade](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_process_cont_imp.html) 

 **Documentos relacionados:** 
+  [AWS Well-Architected Tool: perspectivas personalizadas](https://docs.aws.amazon.com/wellarchitected/latest/userguide/lenses-custom.html) 
+  [Whitepaper do AWS Well-Architected: O processo de revisão](https://docs.aws.amazon.com/wellarchitected/latest/framework/the-review-process.html) 
+  [Personalizar avaliações do Well-Architected usando Custom Lenses e o AWS Well-Architected Tool](https://aws.amazon.com/blogs/mt/customize-well-architected-reviews-using-custom-lenses-and-the-aws-well-architected-tool/) 
+  [Implementar o ciclo de vida do AWS Well-Architected Custom Lenses em sua organização](https://aws.amazon.com/blogs/architecture/implementing-the-aws-well-architected-custom-lens-lifecycle-in-your-organization/) 

 **Vídeos relacionados:** 
+  [AWS re:Invent 2023: Como escalar as práticas recomendadas da AWS Well-Architected em toda a sua organização](https://youtu.be/UXtZCoE9qfQ?si=OPATCOY2YAwiF2TS) 

 **Exemplos relacionados:** 
+  [AWS Well-Architected Tool](https://docs.aws.amazon.com/wellarchitected/latest/userguide/intro.html) 

# OPS11-BP02 Executar análise pós-incidente
<a name="ops_evolve_ops_perform_rca_process"></a>

 Revise os eventos que afetam o cliente e identifique os fatores contribuintes e as ações preventivas. Use essas informações para desenvolver mitigações e limitar ou evitar recorrência. Desenvolva procedimentos para respostas rápidas e eficazes. Comunique os fatores contribuintes e as ações corretivas conforme apropriado, de acordo com o público-alvo. 

 **Resultado desejado:** 
+  Você estabelece processos de gerenciamento de incidentes que incluem análise pós-incidente. 
+  Você tem planos de observabilidade para coletar dados sobre eventos. 
+  Com esses dados, você entende e coleta métricas que apoiam seu processo de análise pós-incidente. 
+  Você aprende com os incidentes para melhorar os resultados futuros. 

 **Práticas comuns que devem ser evitadas:** 
+  Você administra um servidor de aplicações. Todas as sessões ativas são encerradas aproximadamente a cada 23 horas e 55 minutos. Você tentou identificar o que está errado no servidor de aplicações. Você suspeita que possa ser um problema de rede, mas não consegue obter colaboração da equipe da rede, pois ela está muito ocupada para ajudar. Você não tem um processo predefinido a seguir para obter suporte e coletar as informações necessárias para determinar o que está acontecendo. 
+  Houve de dados em sua workload. Esta é a primeira vez que isso acontece e a causa não é óbvia. Você decide que não é importante porque pode recriar os dados. A perda de dados começa a ocorrer com maior frequência, afetando seus clientes. Isso também cria uma sobrecarga operacional adicional à medida que você restaura os dados ausentes. 

 **Benefícios de implementar esta prática recomendada:** 
+  Você tem um processo predefinido para determinar componentes, condições, ações e eventos que contribuíram para um incidente, ajudando a identificar oportunidades de melhoria. 
+  Você usa dados da análise pós-incidente para fazer melhorias. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Use um processo para determinar fatores contribuintes. Revise todos os incidentes de impacto do cliente. Tenha um processo para identificar e documentar as causas de um incidente para que você possa desenvolver atenuações para limitar ou impedir a recorrência e para desenvolver procedimentos para respostas rápidas e eficazes. Comunique as causas principais do incidente conforme apropriado e adapte a comunicação ao seu público-alvo. Compartilhe os aprendizados abertamente em sua organização. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  Colete métricas como mudança na implantação, mudança de configuração, hora de início do incidente, hora do alarme, hora do engajamento, hora de início da mitigação e hora de resolução do incidente. 

1.  Descreva os principais pontos do cronograma para entender os eventos do incidente. 

1.  Faça as seguintes perguntas: 

   1.  Você pode melhorar o tempo de detecção? 

   1.  Há atualizações nas métricas e alarmes que detectariam o incidente mais cedo? 

   1.  Você pode melhorar o tempo até o diagnóstico? 

   1.  Há atualizações em seus planos de resposta ou planos de escalação que envolveriam os respondentes corretos mais cedo? 

   1.  Você pode melhorar o tempo de mitigação? 

   1.  Existe alguma etapa do runbook ou playbook que você pode adicionar ou melhorar? 

   1.  Você pode evitar que futuros incidentes ocorram? 

1.  Crie listas de verificação e ações. Acompanhe e realize todas as ações. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS11-BP01 Adotar um processo para melhoria contínua](ops_evolve_ops_process_cont_imp.md) 
+ [OPS 4 Como implementar a observabilidade](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html)

 **Documentos relacionados:** 
+  [Como realizar uma análise pós-incidente no Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/analysis.html) 
+  [Revisão da prontidão operacional](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/iteration.html) 

# OPS11-BP03 Implementar loops de feedback
<a name="ops_evolve_ops_feedback_loops"></a>

Os loops de feedback fornecem insights que levam a ações concretas e orientam a tomada de decisões. Crie loops de feedback em seus procedimentos e workloads. Isso ajuda a identificar problemas e áreas que precisam de melhorias. Eles também validam os investimentos feitos em melhorias. Esses loops de feedback são a base para o aprimoramento contínuo da sua workload.

 Os ciclos de feedback se dividem em duas categorias: *feedback imediato* e *análise retrospectiva*. O feedback imediato é coletado por meio da avaliação da performance e dos resultados das atividades de operações. Esse feedback é proveniente de membros da equipe, de clientes ou do resultado automático da atividade. O feedback imediato é recebido de elementos como testes A/B e do envio de novos recursos e é essencial para antecipar-se à falha. 

 A análise retrospectiva é realizada regularmente para obter feedback da avaliação de resultados e métricas operacionais ao longo do tempo. Essa retrospectiva ocorre ao final de um sprint, com certa frequência ou após grandes lançamentos ou eventos. Esse tipo de loop de feedback valida investimentos em operações ou na workload. Ele ajuda a medir o sucesso e valida sua estratégia. 

 **Resultado desejado:** o feedback imediato e a análise retrospectiva são usados para promover melhorias. Há um mecanismo para obter o feedback de usuários e membros da equipe. A análise retrospectiva é usada para identificar tendências que promovem melhorias. 

 **Práticas comuns que devem ser evitadas:** 
+ Você lança um novo recurso, mas não há uma maneira de receber feedback de clientes sobre ele.
+ Depois de investir em melhorias de operações, você não realiza uma retrospectiva para validá-las.
+ Você coleta feedback dos clientes, mas não os avalia regularmente.
+ Os loops de feedback levam a itens de ação propostos, mas não estão incluídos no processo de desenvolvimento de software.
+  Os clientes não recebem feedback sobre as melhorias que propuseram. 

 **Benefícios de implementar esta prática recomendada:** 
+  É possível trabalhar partindo do feedback do cliente para criar novos recursos. 
+  A cultura da sua organização pode reagir às mudanças mais rapidamente. 
+  As tendências são usadas para identificar oportunidades de melhoria. 
+  As retrospectivas validam os investimentos feitos na workload e nas operações. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 A implementação dessa prática recomendada significa que você usa tanto o feedback imediato como a análise de retrospectiva. Esses loops de feedback geram melhorias. Há muitos mecanismos para o feedback imediato, incluindo pesquisas, enquetes com clientes ou formulários de feedback. Sua organização também pode usar as retrospectivas para identificar oportunidades de melhoria e validar iniciativas. 

 **Exemplo de cliente** 

 A AnyCompany Retail criou um formulário online pelo qual os clientes podem fornecer feedback ou relatar problemas. Durante as reuniões semanais, o feedback dos usuários é avaliado pela equipe de desenvolvimento de software. O feedback é usado regularmente para conduzir a evolução da plataforma. É feita uma retrospectiva ao final de cada sprint para identificar itens que eles desejam melhorar. 

## Etapas de implementação
<a name="implementation-steps"></a>

1. Feedback imediato
   +  Você precisa de um mecanismo para receber feedback de clientes e membros da equipe. Suas atividades de operações também podem ser configuradas para oferecer feedback automático. 
   +  Sua organização precisa de um processo para avaliar esse feedback, determinar o que precisa ser melhorado e programar a melhoria. 
   +  O feedback deve ser adicionado ao seu processo de desenvolvimento de software. 
   +  À medida que você faz melhorias, faça o rastreamento com quem enviou o feedback. 
     +  É possível usar o [OpsCenter do AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) para criar e monitorar essas melhorias como [OpSitems](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter-working-with-OpsItems.html).

1.  Análise retrospectiva 
   +  Faça retrospectivas ao final de um ciclo de desenvolvimento, com certa frequência ou após um grande lançamento. 
   +  Faça uma reunião de retrospectiva com as partes interessadas envolvidas na workload. 
   +  Crie três colunas em um quadro branco ou uma planilha: "Parar", "Iniciar" e "Manter". 
     +  *Parar* aplica-se ao que você deseja que a equipe pare de fazer. 
     +  *Iniciar* é para ideias em que você deseja começar a trabalhar. 
     +  *Manter* refere-se aos itens que você deseja continuar fazendo. 
   +  Caminhe pela sala e colete o feedback das partes interessadas. 
   +  Priorize o feedback. Atribua ações e partes interessadas aos itens "Iniciar" e "Manter". 
   +  Adicione as ações ao processo de desenvolvimento de software e comunique as atualizações de status às partes interessadas à medida que as melhorias são implementadas. 

 **Nível de esforço do plano de implementação:** Médio. Para implementar essa prática recomendada, você precisa de uma maneira para receber feedback imediato e analisá-lo. Além disso, é necessário estabelecer um processo de análise retrospectiva. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS01-BP01 Avaliar as necessidades dos clientes externos](ops_priorities_ext_cust_needs.md): loops de feedback são um mecanismo para coletar as necessidades de clientes externos. 
+  [OPS01-BP02 Avaliar as necessidades dos clientes internos](ops_priorities_int_cust_needs.md): as partes interessadas internas podem usar loops de feedback para comunicar necessidades e requisitos. 
+  [OPS11-BP02 Executar análise pós-incidente](ops_evolve_ops_perform_rca_process.md): a análise pós-incidente é uma forma importante de análise retrospectiva conduzida após os incidentes. 
+  [OPS11-BP07 Fazer revisões das métricas de operações](ops_evolve_ops_metrics_review.md): as avaliações das métricas de operações identificam tendências e áreas para melhorias. 

 **Documentos relacionados:** 
+  [Sete obstáculos que devem ser evitados ao criar um CCoE](https://aws.amazon.com/blogs/enterprise-strategy/7-pitfalls-to-avoid-when-building-a-ccoe/) 
+  [Playbook da equipe Atlassian: retrospectivas](https://www.atlassian.com/team-playbook/plays/retrospective) 
+  [Definições de e-mail: loops de feedback](https://aws.amazon.com/blogs/messaging-and-targeting/email-definitions-feedback-loops/) 
+  [Como estabelecer loops de feedback com base na avaliação do AWS Well-Architected Framework](https://aws.amazon.com/blogs/architecture/establishing-feedback-loops-based-on-the-aws-well-architected-framework-review/) 
+  [Metodologia IBM Garage: fazer uma retrospectiva](https://www.ibm.com/garage/method/practices/learn/practice_retrospective_analysis/) 
+  [Investopedia: o ciclo de PDCS](https://www.investopedia.com/terms/p/pdca-cycle.asp) 
+  [Como maximizar a eficácia do desenvolvedor, por Tim Cochran](https://martinfowler.com/articles/developer-effectiveness.html) 
+  [Whitepaper Revisões de prontidão operacional (ORR): iteração](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/iteration.html) 
+  [ITIL CSI: melhoria contínua nos serviços](https://wiki.en.it-processmaps.com/index.php/ITIL_CSI_-_Continual_Service_Improvement)
+  [Quando a Toyota conheceu o comércio eletrônico: confiança na Amazon](https://www.mckinsey.com/capabilities/operations/our-insights/when-toyota-met-e-commerce-lean-at-amazon) 

 **Vídeos relacionados:** 
+  [Como criar loops de feedback de clientes eficazes](https://www.youtube.com/watch?v=zz_VImJRZ3U) 

 **Exemplos relacionados:** 
+  [Astuto: ferramenta de código aberto para feedback de clientes](https://github.com/riggraz/astuto) 
+  [Soluções da AWS: QnABot na AWS](https://aws.amazon.com/solutions/implementations/qnabot-on-aws/) 
+  [Fider: uma plataforma para organizar feedback de clientes](https://github.com/getfider/fider) 

 **Serviços relacionados:** 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 

# OPS11-BP04 Gerenciar o conhecimento
<a name="ops_evolve_ops_knowledge_management"></a>

O gerenciamento de conhecimento ajuda os membros da equipe a encontrar as informações necessárias para realizar suas tarefas. Nas organizações de aprendizagem, as informações são compartilhadas livremente, o que promove a capacitação das pessoas. As informações podem ser descobertas ou pesquisadas. As informações são precisas e atualizadas. Mecanismos existem para criar informações, atualizar informações existentes e arquivar informações desatualizadas. O exemplo mais comum de uma plataforma de gerenciamento de conhecimento é um sistema de gerenciamento de conteúdo como uma wiki. 

 **Resultado desejado:** 
+  Os membros da equipe têm acesso a informações precisas e atualizadas. 
+  As informações podem ser pesquisadas. 
+  Existem mecanismos para adicionar, atualizar e arquivar informações. 

 **Práticas comuns que devem ser evitadas:** 
+ Não há um armazenamento de conhecimento centralizado. Os membros da equipe gerenciam suas próprias notas em suas máquinas locais.
+  Você tem uma wiki hospedada pela própria empresa, mas nenhum mecanismo para gerenciar informações, o que resulta em informações desatualizadas. 
+  Alguém identifica a ausência de informações, mas não há nenhum processo para solicitar sua adição à wiki da equipe. Essa pessoa adiciona as informações por conta própria, mas deixa de realizar uma etapa, o que resulta em uma interrupção. 

 **Benefícios de implementar esta prática recomendada:** 
+  Os membros da equipe são capacitados, pois as informações são compartilhadas livremente. 
+  Os novos membros da equipe passam pelo processo de integração mais rapidamente, pois a documentação está atualizada e pode ser pesquisada. 
+  As informações são precisas, levam a ações concretas e são enviadas em tempo hábil. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 O gerenciamento de conhecimento é uma faceta importante das organizações de aprendizagem. Para começar, é necessário ter um repositório central para armazenar seu conhecimento (como um exemplo comum, uma wiki hospedada pela própria empresa). É necessário desenvolver processos para adicionar, atualizar e arquivar conhecimento. Desenvolva padrões para o que deve ser documentado e permita que todos contribuam. 

 **Exemplo de cliente** 

 A AnyCompany Retail hospeda uma wiki interna em que todo o conhecimento é armazenado. Os membros da equipe são incentivados a adicionar informações na base de conhecimento à medida que realizam suas tarefas diárias. Trimestralmente, uma equipe multifuncional avalia quais páginas estão mais desatualizadas e determina se elas devem ser arquivadas ou atualizadas. 

 **Etapas de implementação** 

1.  Comece identificando o sistema de gerenciamento de conteúdo em que o conhecimento será armazenado. Obtenha o consentimento das partes interessadas em sua organização. 

   1.  Se você não tiver um sistema de gerenciamento de conteúdo, considere desenvolver uma wiki hospedada pela própria empresa ou usar um repositório de controle de versão como ponto de partida. 

1.  Desenvolva runbooks para adicionar, atualizar e arquivar informações. Instrua a equipe sobre esses processos. 

1.  Identifique quais conhecimentos devem ser armazenados no sistema de gerenciamento de conteúdo. Comece com as atividades diárias (runbooks e playbooks) realizadas pelos membros da equipe. Trabalhe com as partes interessadas para priorizar qual conhecimento deve ser adicionado. 

1.  Periodicamente, trabalhe com as partes interessadas para identificar informações desatualizadas e arquive-as ou atualize-as. 

 **Nível de esforço do plano de implementação:** Médio. Se você não tiver um sistema de gerenciamento de conteúdo, defina uma wiki hospedada pela própria empresa ou um repositório de documentos com controle de versão. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS11-BP08 Documentar e compartilhar as lições aprendidas](ops_evolve_ops_share_lessons_learned.md): o gerenciamento de conhecimento facilita o compartilhamento de informações sobre as lições aprendidas. 

 **Documentos relacionados:** 
+ [Atlassian: Gerenciamento do conhecimento](https://www.atlassian.com/itsm/knowledge-management)

 **Exemplos relacionados:** 
+ [DokuWiki](https://www.dokuwiki.org/dokuwiki)
+ [Gollum](https://github.com/gollum/gollum)
+ [MediaWiki](https://www.mediawiki.org/wiki/MediaWiki)
+ [Wiki.js](https://github.com/Requarks/wiki)

# OPS11-BP05 Definir fatores de melhoria
<a name="ops_evolve_ops_drivers_for_imp"></a>

 Identifique os fatores de melhoria para ajudar a avaliar e priorizar oportunidades com base em dados e ciclos de feedback. Explore oportunidades de melhoria nos sistemas e nos processos e automatize sempre que apropriado. 

 **Resultado desejado:** 
+  Você rastreia dados de todo o ambiente. 
+  Você correlaciona eventos e atividades aos resultados comerciais. 
+  Você pode comparar e contrastar entre ambientes e sistemas. 
+  Você mantém um histórico detalhado de atividades das implantações e dos resultados. 
+  Você coleta dados para apoiar o procedimento de segurança. 

 **Práticas comuns que devem ser evitadas:** 
+  Coletar dados de todo o ambiente, mas não correlacionar eventos e atividades. 
+  Coletar dados detalhados de toda a propriedade, gerando atividade e custos elevados do Amazon CloudWatch e do AWS CloudTrail. No entanto, você não usa esses dados de forma significativa. 
+  Não levar em conta os resultados comerciais ao definir os fatores de melhoria. 
+  Não medir os efeitos dos novos recursos. 

 **Benefícios de implementar esta prática recomendada:** 
+  O impacto das motivações baseadas em eventos ou investimentos emocionais ao determinar os critérios de melhoria é minimizado. 
+  Você reage a eventos de negócios, não apenas a eventos técnicos. 
+  Você mede o ambiente para identificar áreas de melhoria. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>
+  Compreenda as motivações para melhoria: só faça alterações em um sistema quando o resultado desejado for compatível. 
  +  Capacidades desejadas: avalie as capacidades e os recursos desejados ao avaliar oportunidades de melhoria. 
    +  [Novidades da AWS](https://aws.amazon.com/new/) 
  +  Problemas inaceitáveis: avalie problemas, erros e vulnerabilidades inaceitáveis ao avaliar oportunidades de melhoria. Acompanhe as opções dimensionamento correto e busque oportunidades de otimização. 
    +  [Boletins de segurança mais recentes da AWS](https://aws.amazon.com/security/security-bulletins/) 
    +  [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/trustedadvisor/) 
    +  [Cloud Intelligence Dashboards](https://www.wellarchitectedlabs.com/cloud-intelligence-dashboards/) 
  +  Requisitos de conformidade: avalie as atualizações e as alterações necessárias para manter a conformidade com a regulamentação e com a política, ou para permanecer sob o suporte de terceiros ao analisar as oportunidades de melhoria. 
    +  [AWS Compliance](https://aws.amazon.com/compliance/) 
    +  [Programas de conformidade da AWS](https://aws.amazon.com/compliance/programs/) 
    +  [Últimas notícias sobre conformidade com a AWS](https://aws.amazon.com/compliance/compliance-latest-news/) 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS01 Prioridades da organização](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/organization-priorities.html) 
+  [OPS02 Relacionamentos e propriedades](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/relationships-and-ownership.html) 
+  [OPS04-BP01 Identificar indicadores-chave de performance](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_identify_kpis.html) 
+  [OPS08 Utilizar a observabilidade da workload](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html) 
+  [OPS09 Como compreender a integridade operacional](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/understanding-operational-health.html) 
+  [OPS11-BP03 Implementar loops de feedback](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_feedback_loops.html) 

 **Documentos relacionados:** 
+  [Amazon Athena](https://aws.amazon.com/athena/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc) 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [AWS Compliance](https://aws.amazon.com/compliance/) 
+  [Últimas notícias sobre conformidade com a AWS](https://aws.amazon.com/compliance/compliance-latest-news/) 
+  [Programas de conformidade da AWS](https://aws.amazon.com/compliance/programs/) 
+  [AWS Glue](https://aws.amazon.com/glue/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc) 
+  [Boletins de segurança mais recentes da AWS](https://aws.amazon.com/security/security-bulletins/) 
+  [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/trustedadvisor/) 
+  [Exportar seus dados de log para o Amazon S3](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/S3Export.html) 
+  [Novidades da AWS](https://aws.amazon.com/new/) 
+  [Os imperativos da inovação centrada no cliente](https://aws.amazon.com/executive-insights/content/the-imperatives-of-customer-centric-innovation/) 
+  [Transformação digital: modismo ou necessidade estratégica?](https://aws.amazon.com/blogs/enterprise-strategy/digital-transformation-hype-or-a-strategic-necessity/) 

 **Vídeos relacionados** 
+  [AWS re:Invent 2023: Melhorar a eficiência operacional e a resiliência com o Suporte (SUP310)](https://youtu.be/jaehZYBNG0Y?si=UNEaLZsXDrxcBgYo) 

# OPS11-BP06 Validar insights
<a name="ops_evolve_ops_validate_insights"></a>

 Revise os resultados e as respostas da análise com equipes multifuncionais e proprietários de negócios. Use essas revisões para estabelecer um entendimento comum, identificar impactos adicionais e determinar cursos de ação. Ajuste as respostas conforme apropriado. 

 **Resultado desejado:** 
+  Você revisa os insights regularmente com proprietários de empresas. Os empresários fornecem contexto adicional aos insights recém-adquiridos. 
+  Você analisa os insights e solicita feedback de pares técnicos e compartilha seu aprendizado entre as equipes. 
+  Você publica dados e insights para que outras equipes técnicas e comerciais analisem. Você pensa no aprendizado de novas práticas de outros departamentos. 
+  Você resume e analisa novos insights com os líderes seniores. Os líderes seniores usam novos insights para definir a estratégia. 

 **Práticas comuns que devem ser evitadas:** 
+  Você lança um novo recurso. Esse recurso muda alguns comportamentos dos clientes. Sua observabilidade não leva em conta essas mudanças. Você não quantifica os benefícios dessas mudanças. 
+  Você envia uma nova atualização e deixa de atualizar sua CDN. O cache da CDN não é mais compatível com a versão mais recente. Você mede a porcentagem de solicitações com erros. Todos os seus usuários relatam erros de HTTP 400 ao se comunicarem com servidores de backend. Você investiga os erros do cliente e descobre que, por ter medido a dimensão errada, seu tempo foi desperdiçado. 
+  Seu contrato de nível de serviço estipula 99,9% de tempo de atividade e seu objetivo de ponto de recuperação é de quatro horas. O proprietário do serviço afirma que o sistema tem zero tempo de inatividade. Você implementa uma solução de replicação cara e complexa que desperdiça tempo e dinheiro. 

 **Benefícios de implementar esta prática recomendada:** 
+  Ao validar insights com proprietários de empresas e especialistas, você estabelece um entendimento comum e orienta as melhorias de maneira mais eficaz. 
+  Você descobre problemas ocultos e os leva em conta em decisões futuras. 
+  Seu foco passa dos resultados técnicos para os resultados comerciais. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>
+  **Valide insights:** envolva-se com proprietários de empresas e especialistas para garantir que haja entendimento e concordância comuns sobre o significado dos dados coletados. Identifique preocupações adicionais, possíveis impactos e determine as ações. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS01-BP06 Avaliar as compensações ao gerenciar benefícios e riscos](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_priorities_eval_tradeoffs.html) 
+  [OPS02-BP06 As responsabilidades entre as equipes são predefinidas ou negociadas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_neg_team_agreements.html) 
+  [OPS11-BP03 Implementar loops de feedback](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_feedback_loops.html) 

 **Documentos relacionados:** 
+  [Como projetar um Centro de Excelência da Nuvem (CCoE)](https://aws.amazon.com/blogs/enterprise-strategy/designing-a-cloud-center-of-excellence-ccoe/) 

 **Vídeos relacionados:** 
+  [Criar observabilidade para aumentar a resiliência](https://youtu.be/6bJkYtrMMPI?si=yu8tVMz4a6ax9f34&t=2695) 

# OPS11-BP07 Fazer revisões das métricas de operações
<a name="ops_evolve_ops_metrics_review"></a>

 Realize regularmente revisões das métricas de operações com participantes de equipes diferentes de várias áreas do negócio. Use essas revisões para identificar oportunidades de melhorias e possíveis ações e compartilhar as lições aprendidas. Procure oportunidades para melhorar em todos os seus ambientes (por exemplo, desenvolvimento, teste e produção). 

 **Resultado desejado:** 
+  Você analisa frequentemente métricas que afetam os negócios. 
+  Você detecta e analisa anomalias por meio de suas capacidades de observabilidade. 
+  Você usa dados para apoiar os resultados e as metas de negócios. 

 **Práticas comuns que devem ser evitadas:** 
+  Sua janela de manutenção interrompe uma promoção significativa no varejo. A empresa continua sem saber que existe uma janela de manutenção padrão que poderá ser atrasada se houver outros eventos que afetam os negócios. 
+  Você sofreu uma paralisação prolongada porque costuma usar uma biblioteca desatualizada na organização. Desde então, você migrou para uma biblioteca compatível. As outras equipes da organização não sabem que estão em risco. 
+  Você não analisa regularmente o cumprimento dos SLAs do cliente. Você está tendendo a não cumprir os SLAs dos clientes. Há penalidades financeiras relacionadas ao não cumprimento de SLAs dos clientes. 

 **Benefícios de implementar esta prática recomendada:** 
+  Ao se reunir regularmente para analisar métricas de operações, eventos e incidentes, você mantém um entendimento comum entre as equipes. 
+  Sua equipe se reúne rotineiramente para analisar métricas e incidentes, o que permite tomar medidas sobre os riscos e reconhecer os SLAs dos clientes. 
+  Você compartilha as lições aprendidas, as quais fornecem dados para priorização e melhorias direcionadas para os resultados comerciais. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>
+  Realize regularmente revisões das métricas de operações com participantes de equipes diferentes de várias áreas do negócio. 
+  Envolva as partes interessadas, incluindo as equipes de negócios, desenvolvimento e operações, para validar suas descobertas de feedback imediato e análise retrospectiva e para compartilhar as lições aprendidas. 
+  Use suas ideias para identificar oportunidades de melhoria e possíveis cursos de ação. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS08-BP05 Criar painéis](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_workload_observability_create_dashboards.html) 
+  [OPS09-BP03 Revisar as métricas operacionais e priorizar a melhoria](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_review_ops_metrics_prioritize_improvement.html) 
+  [OPS10-BP01 Usar um processo para gerenciamento de eventos, incidentes e problemas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_event_incident_problem_process.html) 

 **Documentos relacionados:** 
+  [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) 
+  [Referência de métricas e dimensões do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Publicar métricas personalizadas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
+  [Usar métricas do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 
+  [Painéis e visualizações com o CloudWatch](https://docs.aws.amazon.com/prescriptive-guidance/latest/implementing-logging-monitoring-cloudwatch/cloudwatch-dashboards-visualizations.html) 

# OPS11-BP08 Documentar e compartilhar as lições aprendidas
<a name="ops_evolve_ops_share_lessons_learned"></a>

 Documente e compartilhe as lições aprendidas das atividades operacionais, para que possa usá-las internamente e entre equipes. Você deve compartilhar o que suas equipes aprendem para aumentar os benefícios em toda a organização. Compartilhe informações e recursos para evitar erros previsíveis e facilitar os esforços de desenvolvimento, e concentre-se na entrega dos recursos desejados. 

 Use o AWS Identity and Access Management (IAM) para definir permissões que permitem acesso controlado aos recursos que você deseja compartilhar dentro e entre contas. 

 **Resultado desejado:** 
+  Você usa os repositórios com controle de versão para compartilhar bibliotecas de aplicações, procedimentos com script, documentações de procedimentos e outras documentações do sistema. 
+  Você compartilha seus padrões de infraestrutura como modelos com controle de versão do AWS CloudFormation. 
+  Você revisa as lições aprendidas entre as equipes. 

 **Práticas comuns que devem ser evitadas:** 
+  Você sofreu uma paralisação prolongada porque a organização geralmente usa bibliotecas com erros. Desde então, você migrou para uma biblioteca confiável. As outras equipes na organização não sabem que estão em risco. Ninguém documenta e compartilha a experiência com essa biblioteca e não está ciente do risco. 
+  Você identificou um caso de borda em um microsserviço compartilhado internamente que causa a queda das sessões. Atualizou suas chamadas para o serviço para evitar esse caso de borda. As outras equipes da organização não sabem que estão em risco. 
+  Você encontrou uma maneira de reduzir significativamente os requisitos de utilização da CPU para um dos microsserviços. Você não sabe se alguma outra equipe poderia aproveitar essa técnica. 

 **Benefícios de implementar esta prática recomendada:** compartilhe as lições aprendidas para apoiar a melhoria e maximizar os benefícios da experiência. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Baixo 

## Orientação para implementação
<a name="implementation-guidance"></a>
+  **Documente e compartilhe as lições aprendidas:** tenha procedimentos para documentar as lições aprendidas com a execução de atividades operacionais e análises retrospectivas, para que possam ser usadas por outras equipes. 
+  **Compartilhe os aprendizados:** tenha procedimentos para compartilhar lições aprendidas e produções associadas entre as equipes. Por exemplo, compartilhe procedimentos atualizados, orientações, governança e práticas recomendadas por meio de uma wiki acessível. Compartilhe scripts, códigos e bibliotecas por meio de um repositório comum. 
  +  Utilize o [AWS re:Post Privado](https://aws.amazon.com/repost-private/) como um serviço de conhecimento para agilizar a colaboração e o compartilhamento de conhecimento na organização. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS02-BP06 As responsabilidades entre as equipes são predefinidas ou negociadas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_neg_team_agreements.html) 
+  [OPS05-BP01 Usar controle de versão](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_version_control.html) 
+  [OPS05-BP06 Compartilhar padrões de design](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_share_design_stds.html) 
+  [OPS11-BP03 Implementar loops de feedback](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_feedback_loops.html) 
+  [OPS11-BP07 Revisar as métricas de operações](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_metrics_review.html) 

 **Documentos relacionados:** 
+ [Aumente a colaboração e compartilhe com segurança o conhecimento da nuvem com o AWS re:Post Private](https://aws.amazon.com/blogs/aws/increase-collaboration-and-securely-share-cloud-knowledge-with-aws-repost-private/)
+ [ Reduzir atrasos em projetos com uma solução de documentos como código ](https://aws.amazon.com/blogs/infrastructure-and-automation/reduce-project-delays-with-docs-as-code-solution/)

 **Vídeos relacionados:** 
+ [AWS re:Invent 2023 - Collaborate within your company and with AWS using AWS re:Post Private ](https://www.youtube.com/watch?v=HNq_kU2QJLU)
+  [Suportes You \$1 Explorar a simulação teórica de gerenciamento de incidentes](https://www.youtube.com/watch?v=0m8sGDx-pRM) 

# OPS11-BP09 Alocar tempo para fazer melhorias
<a name="ops_evolve_ops_allocate_time_for_imp"></a>

 Dedique tempo e recursos em seus processos para possibilitar melhorias incrementais contínuas. 

 **Resultado desejado:** 
+  Você cria duplicações temporárias de ambientes, o que reduz o risco, o esforço e o custo de testes e experimentações. 
+  Esses ambientes duplicados podem ser usados para testar as conclusões de sua análise, experimentar e desenvolver e testar as melhorias planejadas. 
+  Você realiza game days e usa o Fault Injection Service (FIS) para fornecer os controles e as barreiras de proteção de que as equipes precisam para realizar experimentos em um ambiente semelhante ao de produção. 

 **Práticas comuns que devem ser evitadas:** 
+  Há um problema de performance conhecido no servidor de aplicações. Ele é adicionado ao backlog por trás de cada implementação de recurso planejada. Se a taxa de adição de recursos planejados permanecer constante, o problema de performance nunca será resolvido. 
+  Para apoiar a melhoria contínua, você aprova administradores e desenvolvedores usando todo o tempo extra para selecionar e implementar melhorias. As melhorias nunca são concluídas. 
+  A aceitação operacional está completa e você não testa as práticas operacionais novamente. 

 **Benefícios de implementar esta prática recomendada:** ao dedicar tempo e recursos em seus processos, você possibilita melhorias incrementais contínuas. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Baixo 

## Orientação para implementação
<a name="implementation-guidance"></a>
+  Aloque tempo para fazer melhorias: dedique tempo e recursos em seus processos para realizar melhorias incrementais contínuas. 
+  Implemente alterações para melhorar e avaliar os resultados para determinar o sucesso. 
+  Se os resultados não satisfizerem as metas e a melhoria ainda for uma prioridade, procure ações alternativas. 
+  Simule workloads de produção durante os game days e use o que aprendeu com essas simulações para melhorar. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS05-BP08 Usar vários ambientes](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_multi_env.html) 

 **Vídeos relacionados:** 
+  [AWS re:Invent 2023: Melhorar a resiliência de aplicações com o AWS Fault Injection Service](https://youtu.be/N0aZZVVZiUw?si=ivYa9ScBfHcj-IAq)