# Preparar
<a name="a-prepare"></a>

**Topics**
+ [OPS 4  Como você projeta sua carga de trabalho para entender o estado dela?](w2aac19b5b7b5.md)
+ [OPS 5  Como você reduz defeitos, facilita a correção e melhora o fluxo na produção?](w2aac19b5b7b7.md)
+ [OPS 6  Como você reduz os riscos de implantação?](w2aac19b5b7b9.md)
+ [OPS 7  Como você sabe que está pronto para oferecer suporte a uma carga de trabalho?](w2aac19b5b7c11.md)

# OPS 4  Como você projeta sua carga de trabalho para entender o estado dela?
<a name="w2aac19b5b7b5"></a>

 Projete sua carga de trabalho para que as informações necessárias sejam fornecidas em todos os componentes (tais como métricas, logs e rastreamento) a fim de que você entenda seu estado interno. Isso permite que você forneça respostas efetivas quando for apropriado. 

**Topics**
+ [OPS04-BP01 Implementar a telemetria de aplicações](ops_telemetry_application_telemetry.md)
+ [OPS04-BP02 Implementar e configurar a telemetria da workload](ops_telemetry_workload_telemetry.md)
+ [OPS04-BP03 Implementar a telemetria de atividades dos usuários](ops_telemetry_customer_telemetry.md)
+ [OPS04-BP04 Implementar a telemetria de dependências](ops_telemetry_dependency_telemetry.md)
+ [OPS04-BP05 Implementar a capacidade de rastreamento das transações](ops_telemetry_dist_trace.md)

# OPS04-BP01 Implementar a telemetria de aplicações
<a name="ops_telemetry_application_telemetry"></a>

 A telemetria de aplicações é a base para a observabilidade da workload. A aplicação deve emitir telemetria que forneça insight do estado da aplicação e da aquisição dos resultados da empresa. Da solução de problemas à medição do impacto de um novo recurso, a telemetria de aplicações informa a maneira como você cria, opera e evolui a workload. 

 A telemetria de aplicações consiste em métricas e logs. As métricas são informações de diagnóstico, como seu pulso ou temperatura. As métricas são usadas coletivamente para descrever o estado de uma aplicação. A coleta das métricas ao longo do tempo pode ser usada para desenvolver linhas de base e detectar anomalias. Os logs são mensagens que a aplicação envia sobre seu estado interno ou os eventos que ocorrem. Códigos de erros, identificadores de transações e ações dos usuários são exemplos dos eventos registrados em log. 

 **Resultado desejado:** 
+  A aplicação emite métricas e logs que fornecem insights da integridade e da aquisição de resultados dos negócios. 
+  As métricas e logs são armazenados centralmente para todas as aplicações na workload. 

 **Antipadrões comuns:** 
+  Seu aplicativo não emite telemetria. Você é forçado a contar com seus clientes para informar quando algo está errado. 
+  Um cliente relatou que seu aplicativo não responde. Você não tem telemetria e não consegue confirmar se o problema existe ou caracterizar o problema sem usar o aplicativo para entender a experiência atual do usuário. 

 **Benefícios do estabelecimento desta prática recomendada:** 
+  É possível compreender a integridade das aplicações, a experiência dos usuários e a aquisição dos resultados. 
+  Reagir rapidamente às mudanças da integridade das aplicações. 
+  Desenvolver a partir das tendências da integridade das aplicações. 
+  Tomar decisões embasadas sobre como melhorar as aplicações. 
+  E detectar e resolver problemas das aplicações mais rapidamente. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Alto 

## Orientações para a implementação
<a name="implementation-guidance"></a>

 A implementação da telemetria de aplicações consiste em três etapas: a identificação de um local para armazenar a telemetria, a identificação da telemetria que descreve o estado das aplicações e a instrumentação das aplicações para emitirem telemetria. 

 Como exemplo, uma empresa de comércio eletrônico tem uma arquitetura baseada em microsserviços. Como parte do processo de design dessa arquitetura, a empresa identificou a telemetria de aplicações que a ajudaria a entender o estado de cada microsserviço. Por exemplo, o serviço de carrinho do usuário emite telemetria sobre eventos, como adição ao carrinho, abandono do carrinho e o tempo levado para adicionar um item ao carrinho. Todos os microsserviços registram erros, avisos e informações sobre as transações em log. A telemetria é enviada para o Amazon CloudWatch para armazenamento e análise. 

 **Etapas da implementação** 

 A primeira etapa é identificar um local central para armazenamento da telemetria para as aplicações da workload. Se você ainda não tiver uma plataforma, o [Amazon CloudWatch](https://aws.amazon.com/cloudwatch) fornecerá a coleta da telemetria, os painéis, a análise e os recursos para a geração de eventos. 

 Para identificar a telemetria necessária, comece com as seguintes perguntas: 
+  Minha aplicação é íntegra? 
+  Minha aplicação está trazendo resultados para os negócios. 

   A aplicação deve emitir logs e métricas que respondam coletivamente a essas perguntas. Se não for possível responder a essas perguntas com a telemetria de aplicações existentes, trabalhe com as partes interessadas da empresa e da engenharia para criarem uma lista de telemetria que possa. É possível solicitar consultoria técnica especializada da equipe da Conta da AWS ao identificar e desenvolver nova telemetria de aplicações. 

   Quando a telemetria adicional de aplicações estiver identificada, trabalhe com as partes interessadas da engenharia para instrumentar as aplicações. [O AWS Distro for Open Telemetry](https://aws-otel.github.io/) fornece bibliotecas de APIs e agentes que coletam telemetria de aplicações. [Este exemplo demonstra como instrumentar uma aplicação JavaScript com métricas personalizadas.](https://aws-otel.github.io/docs/getting-started/js-sdk/metric-manual-instr). 

   Os clientes que quiserem compreender os serviços de observabilidade oferecidos pela AWS podem trabalhar com o [Um workshop de observabilidade](https://catalog.workshops.aws/observability/en-US) por conta própria ou solicitar suporte da equipe da Conta da AWS para receberem orientações. Esse workshop fornece orientações sobre as soluções de observabilidade da AWS e exemplos práticos de como elas são usadas. 

   Para mergulhar mais profundamente na telemetria de aplicações leia o artigo [instrumentação de sistemas distribuídos para visibilidade operacional](https://aws.amazon.com/builders-library/instrumenting-distributed-systems-for-operational-visibility/) na Amazon Builder's Library. Ele explica como a Amazon instrumenta as aplicações e pode servir como um guia para o desenvolvimento de suas próprias diretrizes de instrumentação. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 

[OPS04-BP02 Implementar e configurar a telemetria da workload](ops_telemetry_workload_telemetry.md) A telemetria de aplicações é um componente da telemetria de workload. Para compreender a integridade da workload geral, entenda a integridade das aplicações individuais que compõem a workload. 

[OPS04-BP03 Implementar a telemetria de atividades dos usuários](ops_telemetry_customer_telemetry.md) A telemetria das atividades dos usuários geralmente é um subconjunto da telemetria de aplicações. As atividades dos usuários, como eventos de adições ao carrinho, cliques em streams ou transações concluídas fornecem insight da experiência do usuário. 

[OPS04-BP04 Implementar a telemetria de dependências](ops_telemetry_dependency_telemetry.md) As verificações de dependências estão relacionadas à telemetria de aplicações e podem ser instrumentadas nas aplicações. Se a aplicação contar com dependências externas, como o DNS ou um banco de dados, a aplicação poderá emitir métricas e logs sobre a acessibilidade, os tempos limite e outros eventos. 

[OPS04-BP05 Implementar a capacidade de rastreamento das transações](ops_telemetry_dist_trace.md) O rastreamento das transações em uma workload requer que cada aplicação emita informações sobre como ela processa eventos compartilhados. A forma como as aplicações individuais tratam esses eventos é emitida por meio da telemetria de aplicações. 

[OPS08-BP02 Definir as métricas da workload](ops_workload_health_design_workload_metrics.md) As métricas da workload são os principais indicadores da integridade da workload. As métricas principais das aplicações são parte das métricas da workload. 

 **Documentos relacionados:** 
+  [AWS Builders' Library: Como instrumentar sistemas distribuídos para obter observabilidade operacional](https://aws.amazon.com/builders-library/instrumenting-distributed-systems-for-operational-visibility/) 
+  [AWS Distro for OpenTelemetry](https://aws-otel.github.io/) 
+  [AWS Whitepaper Well-Architected Operational Excellence: Design Telemetry (Excelência operacional do Well-Architected: Design de telemetria)](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/design-telemetry.html) 
+  [Creating metrics from log events using filters (Criação de métricas de eventos de logs usando filtros)](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
+  [Implementing Logging and Monitoring with Amazon CloudWatch (Implementação de registro em log e monitoramento com o Amazon CloudWatch)](https://docs.aws.amazon.com/prescriptive-guidance/latest/implementing-logging-monitoring-cloudwatch/welcome.html) 
+  [Monitoring application health and performance with AWS Distro for OpenTelemetry (Monitoramento da integridade e da performance das aplicações com o AWS Distro for OpenTelemetry)](https://aws.amazon.com/blogs/opensource/monitoring-application-health-and-performance-with-aws-distro-for-opentelemetry/) 
+  [New: How to better monitor your custom application metrics using Amazon CloudWatch Agent (Novidade: Como monitorar melhor as métricas de aplicações personalizadas usando o agente do CloudWatch)](https://aws.amazon.com/blogs/devops/new-how-to-better-monitor-your-custom-application-metrics-using-amazon-cloudwatch-agent/) 
+  [Observability at AWS (Observabilidade na AWS)](https://aws.amazon.com/products/management-and-governance/use-cases/monitoring-and-observability/) 
+  [Scenario – Publish metrics to CloudWatch (Cenário: Publicar métricas no CloudWatch)](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/PublishMetrics.html) 
+  [Comece a criar: Como monitorar suas aplicações com eficácia](https://aws.amazon.com/startups/start-building/how-to-monitor-applications/) 
+  [Using CloudWatch with an AWS SDK (Usar o CloudWatch com um AWS SDK)](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/sdk-general-information-section.html) 

 **Vídeos relacionados:** 
+  [AWS re:Invent 2021: Observability the open-source way (re:Invent da AWS de 2021: observabilidade por código aberto)](https://www.youtube.com/watch?v=vAnIhIwE5hY) 
+  [Collect Metrics and Logs from Amazon EC2 instances with the CloudWatch Agent (Coletar métricas e logs das instâncias do Amazon EC2 com o agente do CloudWatch)](https://www.youtube.com/watch?v=vAnIhIwE5hY) 
+  [How to Easily Setup Application Monitoring for Your AWS Workloads - AWS Online Tech Talks (Como configurar facilmente o monitoramento de aplicações para as workloads da AWS: AWS Online Tech Talks)](https://www.youtube.com/watch?v=LKCth30RqnA) 
+  [Mastering Observability of Your Serverless Applications - AWS Online Tech Talks (Domínio da observabilidade de aplicações de tecnologia sem servidor: AWS Online Tech Talks)](https://www.youtube.com/watch?v=CtsiXhiAUq8) 
+  [Open Source Observability with AWS - AWS Virtual Workshop (Observabilidade de código aberto com a AWS: Workshop virtual da AWS)](https://www.youtube.com/watch?v=vAnIhIwE5hY) 

 **Exemplos relacionados:** 
+  [Recursos de exemplo de registro em log e monitoramento da AWS](https://github.com/aws-samples/logging-monitoring-apg-guide-examples) 
+  [AWS Solution: Amazon CloudWatch Monitoring Framework (Solução da AWS: Framework de monitoramento do AWS CloudWatch)](https://aws.amazon.com/solutions/implementations/amazon-cloudwatch-monitoring-framework/?did=sl_card&trk=sl_card) 
+  [AWS Solution: Centralized Logging (Solução da AWS: Registro em log centralizado)](https://aws.amazon.com/solutions/implementations/centralized-logging/) 
+  [Um workshop de observabilidade](https://catalog.workshops.aws/observability/en-US) 

# OPS04-BP02 Implementar e configurar a telemetria da workload
<a name="ops_telemetry_workload_telemetry"></a>

 Projete e configure a workload para emitir informações sobre o estado interno e o status atual, como o volume de chamadas da API, os códigos de status HTTP e os eventos de escalabilidade. Use essas informações para auxiliá-lo na determinação de quando uma resposta é necessária. 

 Use um serviço, como o [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) para agregar logs e métricas de componentes de carga de trabalho (por exemplo, logs de API do [AWS CloudTrail](https://aws.amazon.com/cloudtrail/), [métricas do AWS Lambda](https://docs.aws.amazon.com/lambda/latest/dg/lambda-monitoring.html), [logs de fluxo da Amazon VPC ](https://docs.aws.amazon.com/vpc/latest/userguide/flow-logs.html)e aos [outros serviços](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/aws-services-sending-logs.html)). 

 **Antipadrões comuns:** 
+  Seus clientes estão reclamando sobre performance insatisfatória. Não há alterações recentes em seu aplicativo e, portanto, você suspeita de um problema com um componente de carga de trabalho. Você não tem telemetria para analisar e determinar quais componentes estão contribuindo para a performance insatisfatória. 
+  Seu aplicativo está inacessível. Você não tem a telemetria para determinar se é um problema de rede. 

 **Benefícios do estabelecimento desta prática recomendada:** Entender o que está acontecendo dentro da sua carga de trabalho permite que você responda, se necessário. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Alto 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Implementar telemetria de log e de métricas: prepare a workload para emitir informações sobre o estado interno, o status e a obtenção de resultados dos negócios. Use essas informações para determinar quando uma resposta é necessária. 
  +  [Gaining better observability of your VMs with Amazon CloudWatch - AWS Online Tech Talks (Como obter melhor observabilidade das VMs com o Amazon CloudWatch: AWS Online Tech Talks)](https://youtu.be/1Ck_me4azMw) 
  +  [How Amazon CloudWatch works (Como funciona o Amazon CloudWatch)](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_architecture.html) 
  +  [What is Amazon CloudWatch (O que é o Amazon CloudWatch?)](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 
  +  [Using Amazon CloudWatch metrics (Uso de métrica do Amazon CloudWatch)](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 
  +  [What is Amazon CloudWatch Logs? (O que é o Amazon CloudWatch?)](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) 
    +  Implementar e configurar telemetria na workload: projete e configure a workload para emitir informações sobre o estado interno e o status atual (como volume de chamadas da API, códigos de status HTTP e eventos de escalabilidade). 
      +  [Amazon CloudWatch metrics and dimensions reference (Referência de métricas e de dimensões do Amazon CloudWatch)](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
      +  [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) 
      +  [What Is AWS CloudTrail? (O que é o Amazon CloudTrail?)](https://docs.aws.amazon.com/awscloudtrail/latest/userguide/cloudtrail-user-guide.html) 
      +  [Logs de fluxo da VPC](https://docs.aws.amazon.com/vpc/latest/userguide/flow-logs.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) 
+  [Documentação do Amazon CloudWatch](https://docs.aws.amazon.com/cloudwatch/index.html) 
+  [Amazon CloudWatch metrics and dimensions reference (Referência de métricas e de dimensões do Amazon CloudWatch)](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [How Amazon CloudWatch works (Como funciona o Amazon CloudWatch)](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_architecture.html) 
+  [Using Amazon CloudWatch metrics (Uso de métrica do Amazon CloudWatch)](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 
+  [Logs de fluxo da VPC](https://docs.aws.amazon.com/vpc/latest/userguide/flow-logs.html) 
+  [What Is AWS CloudTrail? (O que é o Amazon CloudTrail?)](https://docs.aws.amazon.com/awscloudtrail/latest/userguide/cloudtrail-user-guide.html) 
+  [What is Amazon CloudWatch Logs? (O que é o Amazon CloudWatch?)](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) 
+  [What is Amazon CloudWatch (O que é o Amazon CloudWatch?)](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 

 **Vídeos relacionados:** 
+  [Application Performance Management on AWS (Gerenciamento da performance de aplicações na AWS)](https://www.youtube.com/watch?v=5T4stR-HFas) 
+  [Gaining Better Observability of Your VMs with Amazon CloudWatch (Como obter melhor observabilidade de suas VMs com o Amazon CloudWatch)](https://youtu.be/1Ck_me4azMw) 
+  [Gaining better observability of your VMs with Amazon CloudWatch - AWS Online Tech Talks (Como obter melhor observabilidade das VMs com o Amazon CloudWatch: AWS Online Tech Talks)](https://youtu.be/1Ck_me4azMw) 

# OPS04-BP03 Implementar a telemetria de atividades dos usuários
<a name="ops_telemetry_customer_telemetry"></a>

 Instrumente o código do aplicativo para emitir informações sobre a atividade do usuário, tais como streams de cliques ou transações iniciadas, abandonadas e concluídas. Use essas informações para ajudar a entender como o aplicativo é usado, padrões de uso e determinar quando uma resposta é necessária. 

 **Antipadrões comuns:** 
+  Seus desenvolvedores implantaram um novo recurso sem telemetria do usuário, e a utilização aumentou. Não é possível determinar se o aumento da utilização é proveniente do uso do novo recurso ou se é um problema introduzido com o novo código. 
+  Seus desenvolvedores implantaram um novo recurso sem telemetria do usuário. Não é possível saber se os clientes estão usando o recurso sem entrar em contato e perguntar a eles. 

 **Benefícios do estabelecimento desta prática recomendada:** Entenda como seus clientes usam seu aplicativo para identificar padrões de uso, comportamentos inesperados e permitir que você responda, se necessário. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Implantar a telemetria de atividades de usuários: use o código da aplicação para emitir informações sobre as atividades dos usuários (como cliques de streams ou transações iniciadas, abandonadas e concluídas). Use essas informações para ajudar a entender como o aplicativo é usado, padrões de uso e determinar quando uma resposta é necessária. 

# OPS04-BP04 Implementar a telemetria de dependências
<a name="ops_telemetry_dependency_telemetry"></a>

 Projete e configure sua carga de trabalho para emitir informações sobre o status (por exemplo, acessibilidade ou tempo de resposta) dos recursos dos quais depende. Exemplos de dependências externas podem incluir bancos de dados externos, DNS e conectividade de rede. Use essas informações para determinar quando uma resposta é necessária. 

 **Antipadrões comuns:** 
+  Não é possível determinar se o motivo pelo qual seu aplicativo está inacessível é um problema de DNS sem executar manualmente uma verificação para ver se o provedor de DNS está funcionando. 
+  Seu aplicativo de carrinho de compras não consegue concluir transações. Não é possível determinar se há um problema com o provedor de processamento do seu cartão de crédito sem entrar em contato com ele para verificar. 

 **Benefícios do estabelecimento desta prática recomendada:** Entender a integridade das suas dependências permite que você responda, se necessário. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Implementar a telemetria de dependências: projete e configure a workload para emitir informações sobre o estado e o status dos sistemas dos quais depende. Alguns exemplos incluem: bancos de dados externos, DNS, conectividade de rede e serviços externos de processamento de cartão de crédito. 
  +  [Amazon CloudWatch Agent with AWS Systems Manager integration - unified metrics & log collection for Linux & Windows (Integração do agente do Amazon CloudWatch com o AWS System Manager: métricas unificadas e coleta de logs para Linux e Windows)](https://aws.amazon.com/blogs/aws/new-amazon-cloudwatch-agent-with-aws-systems-manager-integration-unified-metrics-log-collection-for-linux-windows/) 
  +  [Collect metrics and logs from Amazon EC2 instances and on-premises servers with the CloudWatch Agent (Coletar métricas e logs das instâncias do Amazon EC2 e de servidores on-premises com o agente do CloudWatch)](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Amazon CloudWatch Agent with AWS Systems Manager integration - unified metrics & log collection for Linux & Windows (Integração do agente do Amazon CloudWatch com o AWS System Manager: métricas unificadas e coleta de logs para Linux e Windows)](https://aws.amazon.com/blogs/aws/new-amazon-cloudwatch-agent-with-aws-systems-manager-integration-unified-metrics-log-collection-for-linux-windows/) 
+  [Collect metrics and logs from Amazon EC2 instances and on-premises servers with the CloudWatch Agent (Coletar métricas e logs das instâncias do Amazon EC2 e de servidores on-premises com o agente do CloudWatch)](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 

   **Exemplos relacionados:** 
+  [Laboratórios do Well-Architected: Monitoramento de dependências](https://wellarchitectedlabs.com/operational-excellence/100_labs/100_dependency_monitoring/) 

# OPS04-BP05 Implementar a capacidade de rastreamento das transações
<a name="ops_telemetry_dist_trace"></a>

 Implemente o código do aplicativo e configure os componentes da carga de trabalho para emitir informações sobre o fluxo de transações na carga de trabalho. Use essas informações para determinar quando uma resposta é necessária e para identificar a causa raiz dos problemas. 

 Na AWS, é possível usar serviços de rastreamento distribuído, como o [AWS X-Ray](https://aws.amazon.com/xray/), para coletar e registrar rastreamentos à medida que as transações percorrem sua carga de trabalho, gerar mapas para ver como as transações fluem na carga de trabalho e serviços, obter informações sobre as relações entre componentes e identificar e analisar problemas em tempo real. 

 **Antipadrões comuns:** 
+  Você implementou uma arquitetura de microsserviços sem servidor que abrange várias contas. Seus clientes estão enfrentando problemas de performance intermitente. Você não consegue descobrir qual função ou componente é responsável porque não há rastreamentos que permitiriam identificar onde no aplicativo está o problema de performance e o que está causando esse problema. 
+  Você está tentando determinar onde estão os gargalos de performance em sua carga de trabalho para que eles possam ser resolvidos em seus esforços de desenvolvimento. Não é possível ver a relação entre os componentes do aplicativo e os serviços com os quais eles interagem para determinar onde estão os gargalos, pois você não tem os rastreamentos que permitiriam analisar os serviços e caminhos específicos que afetam a performance do aplicativo. 

 **Benefícios do estabelecimento desta prática recomendada:** Entender o fluxo de transações em toda a carga de trabalho permite compreender o comportamento esperado das transações da carga de trabalho e as variações do comportamento esperado em toda a carga de trabalho, permitindo que você responda, se necessário. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Baixo 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Projete as aplicações e a workload para emitirem informações sobre o fluxo de transações entre os componentes do sistema, como o estágio da transação, o componente ativo e o tempo para concluir a atividade. Use essas informações para determinar o que está em andamento, o que está concluído e quais são os resultados das atividades concluídas. Isso ajuda a determinar quando uma resposta é necessária. Tempos de resposta da transação maiores que o esperado em um componente, por exemplo, podem indicar problemas com esse componente. 
  +  [AWS X-Ray](https://aws.amazon.com/xray/) 
  +  [O que é o AWS X-Ray?](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [AWS X-Ray](https://aws.amazon.com/xray/) 
+  [O que é o AWS X-Ray?](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 

# OPS 5  Como você reduz defeitos, facilita a correção e melhora o fluxo na produção?
<a name="w2aac19b5b7b7"></a>

 Adote abordagens que melhoram o fluxo de alterações na produção, que permitem refatoração, feedback rápido sobre a qualidade e correção de erros. Isso acelera as alterações benéficas que entram na produção, limita os problemas implantados e permite a rápida identificação e correção dos problemas introduzidos pelas atividades de implantação. 

**Topics**
+ [OPS05-BP01 Usar o controle de versão](ops_dev_integ_version_control.md)
+ [OPS05-BP02 Testar e validar as alterações](ops_dev_integ_test_val_chg.md)
+ [OPS05-BP03 Usar sistemas de gerenciamento de configuração](ops_dev_integ_conf_mgmt_sys.md)
+ [OPS05-BP04 Usar sistemas de gerenciamento de compilação e de implantação](ops_dev_integ_build_mgmt_sys.md)
+ [OPS05-BP05 Executar o gerenciamento de patches](ops_dev_integ_patch_mgmt.md)
+ [OPS05-BP06 Compartilhar os padrões de design](ops_dev_integ_share_design_stds.md)
+ [OPS05-BP07 Implementar práticas para aprimorar a qualidade do código](ops_dev_integ_code_quality.md)
+ [OPS05-BP08 Usar vários ambientes](ops_dev_integ_multi_env.md)
+ [OPS05-BP09 Fazer alterações frequentes, pequenas e reversíveis](ops_dev_integ_freq_sm_rev_chg.md)
+ [OPS05-BP10 Automatizar totalmente a integração e a implantação](ops_dev_integ_auto_integ_deploy.md)

# OPS05-BP01 Usar o controle de versão
<a name="ops_dev_integ_version_control"></a>

 Use o controle de versão para habilitar o rastreamento de alterações e liberações. 

 Muitos serviços da AWS oferecem recursos de controle de versão. Use um sistema de revisão ou controle de origem como o [AWS CodeCommit](https://aws.amazon.com/codecommit/) para gerenciar código e outros artefatos, como modelos do [AWS CloudFormation](https://aws.amazon.com/cloudformation/) com controle de versão da sua infraestrutura. 

 **Antipadrões comuns:** 
+  Você está desenvolvendo e armazenando seu código na estação de trabalho. Você teve uma falha de armazenamento irrecuperável na estação de trabalho em que seu código foi perdido. 
+  Depois de substituir o código existente pelas alterações, você reinicia o aplicativo e ele deixa de ser operável. Não é possível reverter para a alteração. 
+  Você tem um bloqueio de gravação em um arquivo de relatório que outra pessoa precisa editar. Ela entra em contato com você solicitando que você interrompa o trabalho para que ela possa concluir as tarefas. 
+  Sua equipe de pesquisa tem trabalhado em uma análise detalhada que moldará seu trabalho futuro. Alguém salvou acidentalmente sua lista de compras no relatório final. Não é possível reverter a alteração e você terá que recriar o relatório. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao usar recursos de controle de versão, você pode reverter facilmente para bons estados conhecidos, versões anteriores e limitar o risco de perda de ativos. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Alto 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Usar o controle de versão: mantenha os ativos em repositórios controlados por versão. Fazer isso oferece suporte para o rastreamento de alterações, a implantação de novas versões, a detecção de alterações nas versões existentes e a reversão para versões anteriores (por exemplo, a reversão para um estado bom e conhecido no caso de uma falha). Integre os recursos de controle de versão dos sistemas de gerenciamento de configurações aos seus procedimentos. 
  +  [Introduction to AWS CodeCommit (Introdução ao AWS CodeCommit)](https://youtu.be/46PRLMW8otg) 
  +  [O que é o AWS CodeCommit?](https://docs.aws.amazon.com/codecommit/latest/userguide/welcome.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [O que é o AWS CodeCommit?](https://docs.aws.amazon.com/codecommit/latest/userguide/welcome.html) 

 **Vídeos relacionados:** 
+  [Introduction to AWS CodeCommit (Introdução ao AWS CodeCommit)](https://youtu.be/46PRLMW8otg) 

# OPS05-BP02 Testar e validar as alterações
<a name="ops_dev_integ_test_val_chg"></a>

 Teste e valide as alterações para ajudar a limitar e detectar erros. Automatize os testes para reduzir erros causados por processos manuais e reduzir o nível de esforço para testar. 

 Muitos serviços da AWS oferecem recursos de controle de versão. Use um sistema de revisão ou controle de origem como o [AWS CodeCommit](https://aws.amazon.com/codecommit/) para gerenciar código e outros artefatos, como modelos do [AWS CloudFormation](https://aws.amazon.com/cloudformation/) com controle de versão da sua infraestrutura. 

 **Antipadrões comuns:** 
+  Ao implantar novo código na produção, os clientes começam a ligar porque a aplicação não está mais funcionando. 
+  Você aplica novos grupos de segurança para aprimorar a segurança do perímetro. Isso funciona com consequências indesejadas. Os usuários não conseguem acessar as aplicações. 
+  Você modifica um método invocado pela nova função. Outra função também dependia desse método e não funciona mais. O problema não é detectado e entra em produção. A outra função não é invocada por algum tempo e, finalmente, falha na produção sem qualquer correlação com a causa. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao testar e validar alterações antecipadamente, você pode resolver problemas com custos reduzidos e limitar o impacto sobre seus clientes. Ao testar antes da implantação, você reduz a possibilidade de erros. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Alto 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Testar e validar as alterações: as alterações devem ser testadas, e os resultados validados, em todas as etapas do ciclo de vida (por exemplo, desenvolvimento, teste e produção). Use os resultados dos testes para confirmar novos recursos e reduzir o risco e o impacto de implantações com falha. Automatize os testes e a validação para garantir a consistência da análise, reduzir erros causados por processos manuais e reduzir o nível de esforço. 
  +  [O que é o AWS CodeBuild?](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) 
  +  [Suporte de compilação local do AWS CodeBuild](https://aws.amazon.com/blogs/devops/announcing-local-build-support-for-aws-codebuild/) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Ferramentas do desenvolvedor da AWS](https://aws.amazon.com/products/developer-tools/) 
+  [Suporte de compilação local do AWS CodeBuild](https://aws.amazon.com/blogs/devops/announcing-local-build-support-for-aws-codebuild/) 
+  [O que é o AWS CodeBuild?](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) 

# OPS05-BP03 Usar sistemas de gerenciamento de configuração
<a name="ops_dev_integ_conf_mgmt_sys"></a>

 Use os sistemas de gerenciamento de configuração para fazer e rastrear alterações nas configurações. Esses sistemas reduzem os erros causados pelos processos manuais e o nível de esforço para implantar as alterações. 

 O gerenciamento da configuração estática define valores ao inicializar um recurso que deve permanecer consistente durante todo o tempo de vida do recurso. Alguns exemplos incluem a definição da configuração do servidor web ou de aplicação em uma instância, ou a definição da configuração de um serviço da AWS no [Console de gerenciamento da AWS](https://docs.aws.amazon.com/awsconsolehelpdocs/index.html) ou por meio da [AWS CLI](https://aws.amazon.com/cli/). 

 O gerenciamento da configuração dinâmica define valores na inicialização que podem ou devem ser alterados durante o tempo de vida de um recurso. Por exemplo, é possível definir a alternância de um recurso para ativar uma funcionalidade no código por meio de uma alteração na configuração, ou alterar o nível de detalhes do log durante um incidente para capturar mais dados e alterar de volta depois do incidente, eliminando os logs agora desnecessários e a despesa associada. 

 Se tiver configurações dinâmicas em suas aplicações executadas em instâncias, contêineres, funções de tecnologia sem servidor ou dispositivos, você poderá usar o [AWS AppConfig](https://docs.aws.amazon.com/appconfig/latest/userguide/what-is-appconfig.html) para gerenciar e implantá-las entre seus ambientes. 

 No AWS, você pode usar o [AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html) para monitorar continuamente as configurações de seus recursos da AWS [entre contas e regiões](https://docs.aws.amazon.com/config/latest/developerguide/aggregate-data.html). Isso permite rastrear o histórico da configuração, compreender como a alteração de uma configuração afeta outros recursos e auditá-la em relação a configurações esperadas ou desejadas, usando o [Regras do AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/evaluate-config.html) e [os pacotes de conformidade do AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/conformance-packs.html). 

 Na AWS, é possível criar pipelines de integração contínua/implantação contínua (CI/CD) usando serviços como as [Ferramentas do desenvolvedor da AWS](https://aws.amazon.com/products/developer-tools/) (por exemplo, AWS CodeCommit, [AWS CodeBuild](https://aws.amazon.com/codebuild/), [AWS CodePipeline](https://aws.amazon.com/codepipeline/), [AWS CodeDeploy](https://aws.amazon.com/codedeploy/)e aos [AWS CodeStar](https://aws.amazon.com/codestar/)). 

 Tenha um calendário de alterações e monitore quando atividades ou eventos comerciais ou operacionais significativos que estão planejados podem ser afetados pela implementação da alteração. Ajuste as atividades para gerenciar riscos relacionados a esses planos. [Calendário de alterações do AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-change-calendar.html) fornece um mecanismo para documentar blocos de tempo como abertos ou fechados para alterações e o motivo desses eventos, bem como para [compartilhar essas informações](https://docs.aws.amazon.com/systems-manager/latest/userguide/change-calendar-share.html) com outras Contas da AWS. Os scripts do AWS Systems Manager Automation podem ser configurados para aderir ao estado de calendário de alteração. 

 [AWS Systems Manager Maintenance Windows](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-maintenance.html) pode ser usado para programar a execução de scripts de Run Command ou de Automação do AWS SSM, invocações do AWS Lambda ou atividades do AWS Step Functions em horários especificados. Marque essas atividades no calendário de alterações para que elas possam ser incluídas na avaliação. 

 **Antipadrões comuns:** 
+  Você atualiza manualmente a configuração do servidor web em toda a frota e vários servidores não respondem devido a erros de atualização. 
+  Você atualiza manualmente a frota do servidor de aplicativos ao longo de muitas horas. A inconsistência na configuração durante a alteração causa comportamentos inesperados. 
+  Alguém atualizou seus grupos de segurança e seus servidores web não estão mais acessíveis. Sem saber o que foi alterado, você gasta muito tempo investigando o problema, ampliando o tempo de recuperação. 

 **Benefícios do estabelecimento desta prática recomendada:** A adoção de sistemas de gerenciamento de configurações reduz o nível de esforço para fazer e rastrear alterações, bem como a frequência de erros causados por procedimentos manuais. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Usar sistemas de gerenciamento de configuração: use sistemas de gerenciamento de configuração para rastrear e implementar alterações, reduzir erros causados por processos manuais e diminuir o nível de esforço. 
  +  [Gerenciamento de configuração de infraestrutura](https://aws.amazon.com/answers/configuration-management/aws-infrastructure-configuration-management/) 
  +  [AWS Config](https://aws.amazon.com/config/) 
  +  [O que é o AWS Config?](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html) 
  +  [Introduction to AWS CloudFormation (Introdução ao AWS CloudFormation)](https://youtu.be/Omppm_YUG2g) 
  +  [O que é o AWS CloudFormation?](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/Welcome.html) 
  +  [AWS OpsWorks](https://aws.amazon.com/opsworks/) 
  +  [O que é o AWS OpsWorks?](https://docs.aws.amazon.com/opsworks/latest/userguide/welcome.html) 
  +  [Introduction to AWS Elastic Beanstalk (Introdução ao AWS Elastic Beanstalk)](https://youtu.be/SrwxAScdyT0) 
  +  [O que é o AWS Elastic Beanstalk?](https://docs.aws.amazon.com/elasticbeanstalk/latest/dg/Welcome.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [AWS AppConfig](https://docs.aws.amazon.com/appconfig/latest/userguide/what-is-appconfig.html) 
+  [Ferramentas do desenvolvedor da AWS](https://aws.amazon.com/products/developer-tools/) 
+  [AWS OpsWorks](https://aws.amazon.com/opsworks/) 
+  [Calendário de alterações do AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-change-calendar.html) 
+  [AWS Systems Manager Maintenance Windows](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-maintenance.html) 
+  [Gerenciamento de configuração de infraestrutura](https://aws.amazon.com/answers/configuration-management/aws-infrastructure-configuration-management/) 
+  [O que é o AWS CloudFormation?](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/Welcome.html) 
+  [O que é o AWS Config?](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html) 
+  [O que é o AWS Elastic Beanstalk?](https://docs.aws.amazon.com/elasticbeanstalk/latest/dg/Welcome.html) 
+  [O que é o AWS OpsWorks?](https://docs.aws.amazon.com/opsworks/latest/userguide/welcome.html) 

 **Vídeos relacionados:** 
+  [Introduction to AWS CloudFormation (Introdução ao AWS CloudFormation)](https://youtu.be/Omppm_YUG2g) 
+  [Introduction to AWS Elastic Beanstalk (Introdução ao AWS Elastic Beanstalk)](https://youtu.be/SrwxAScdyT0) 

# OPS05-BP04 Usar sistemas de gerenciamento de compilação e de implantação
<a name="ops_dev_integ_build_mgmt_sys"></a>

 Usar sistemas de gerenciamento de compilação e implantação. Esses sistemas reduzem os erros causados pelos processos manuais e o nível de esforço para implantar as alterações. 

 Na AWS, é possível criar pipelines de integração contínua/implantação contínua (CI/CD) usando serviços como: [Ferramentas do desenvolvedor da AWS](https://aws.amazon.com/products/developer-tools/) (por exemplo, AWS CodeCommit, [AWS CodeBuild](https://aws.amazon.com/codebuild/), [AWS CodePipeline](https://aws.amazon.com/codepipeline/), [AWS CodeDeploy](https://aws.amazon.com/codedeploy/)e aos [AWS CodeStar](https://aws.amazon.com/codestar/)). 

 **Antipadrões comuns:** 
+  Depois de compilar o código no sistema de desenvolvimento e copiar o executável nos sistemas de produção, há uma falha na inicialização. Os arquivos de registro locais indicam que ele falhou devido à ausência de dependências. 
+  Você cria sua aplicação com êxito com os novos recursos em seu ambiente de desenvolvimento e fornece o código à garantia de qualidade (QA). Ele falha na QA porque não há ativos estáticos. 
+  Na sexta-feira, após muito esforço, você consegue criar o aplicativo manualmente em seu ambiente de desenvolvimento, incluindo os recursos recém-codificados. Na segunda-feira, você não consegue repetir as etapas que permitiram criar a aplicação com êxito. 
+  Você executa os testes que criou para a nova versão. Então você passa a próxima semana configurando um ambiente de teste e executando todos os testes de integração existentes, seguidos pelos testes de performance. O novo código tem um impacto inaceitável na performance e deve ser desenvolvido e testado novamente. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao fornecer mecanismos para gerenciar atividades de criação e implantação, você reduz o nível de esforço para executar tarefas repetitivas, libera os membros da equipe para se concentrarem em tarefas criativas de alto valor e limita o surgimento de erros provenientes de procedimentos manuais. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Usar sistemas de gerenciamento de compilação e de implantação: use sistemas de gerenciamento de compilação e de implantação para rastrear e implementar alterações, reduzir erros causados por processos manuais e reduzir o nível de esforço. Automatize totalmente o pipeline de integração e implantação desde o check-in do código até a compilação, teste, implantação e validação. Isso reduz o tempo de execução, permite maior frequência de mudança e reduz o nível de esforço. 
  +  [O que é o AWS CodeBuild?](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) 
  +  [As melhores práticas de integração contínua para equipes de desenvolvimento de software](https://www.youtube.com/watch?v=GEPJ7Lo346A) 
  +  [Slalom: CI/CD para aplicações de tecnologia sem servidor na AWS](https://www.youtube.com/watch?v=tEpx5VaW4WE) 
  +  [Introduction to AWS CodeDeploy: automated software deployment with Amazon Web Services (Introdução ao AWS CodeDeploy: implantação de software automatizada com a Amazon Web Services)](https://www.youtube.com/watch?v=Wx-ain8UryM) 
  +  [O que é o AWS CodeDeploy?](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Ferramentas do desenvolvedor da AWS](https://aws.amazon.com/products/developer-tools/) 
+  [O que é o AWS CodeBuild?](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) 
+  [O que é o AWS CodeDeploy?](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html) 

 **Vídeos relacionados:** 
+  [As melhores práticas de integração contínua para equipes de desenvolvimento de software](https://www.youtube.com/watch?v=GEPJ7Lo346A) 
+  [Introduction to AWS CodeDeploy: automated software deployment with Amazon Web Services (Introdução ao AWS CodeDeploy: implantação de software automatizada com a Amazon Web Services)](https://www.youtube.com/watch?v=Wx-ain8UryM) 
+  [Slalom: CI/CD para aplicações de tecnologia sem servidor na AWS](https://www.youtube.com/watch?v=tEpx5VaW4WE) 

# OPS05-BP05 Executar o gerenciamento de patches
<a name="ops_dev_integ_patch_mgmt"></a>

 Execute o gerenciamento de patches para obter recursos, solucionar problemas e manter a conformidade com a governança. Automatize o gerenciamento de patches para reduzir erros causados por processos manuais e reduzir o nível de esforço para corrigir. 

 O gerenciamento de patches e vulnerabilidades faz parte de suas atividades de gerenciamento de benefícios e riscos. É preferível ter infraestruturas imutáveis e implantar cargas de trabalho em bons estados verificados e conhecidos. Quando isso não é viável, a aplicação de patches é a opção restante. 

 Atualizar imagens de máquinas, imagens de contêineres ou o Lambda [tempos de execução personalizados e bibliotecas adicionais](https://docs.aws.amazon.com/lambda/latest/dg/security-configuration.html) do Lambda para remover vulnerabilidades faz parte do gerenciamento de patches. Você deve gerenciar atualizações em [Amazon Machine Images](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/AMIs.html) (AMIs) para imagens do Linux ou Windows Server usando o [EC2 Image Builder](https://aws.amazon.com/image-builder/). Você pode usar [Amazon Elastic Container Registry](https://docs.aws.amazon.com/AmazonECR/latest/userguide/what-is-ecr.html) com seu pipeline existente para [gerenciar imagens do Amazon ECS](https://docs.aws.amazon.com/AmazonECR/latest/userguide/ECR_on_ECS.html) e [gerenciar imagens do Amazon EKS](https://docs.aws.amazon.com/AmazonECR/latest/userguide/ECR_on_EKS.html). O AWS Lambda inclui recursos de gerenciamento de [versão](https://docs.aws.amazon.com/lambda/latest/dg/configuration-versions.html) . 

 A aplicação de patches não deve ser realizada em sistemas de produção sem antes testar em um ambiente seguro. Os patches só deverão ser aplicados se forem compatíveis com um resultado operacional ou comercial. No AWS, você pode usar o [AWS Systems Manager Patch Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-patch.html) para automatizar o processo de aplicação de patches em sistemas gerenciados e programar a atividade usando o [AWS Systems Manager Maintenance Windows](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-maintenance.html). 

 **Antipadrões comuns:** 
+  Você recebe uma ordem para aplicar todos os novos patches de segurança em até duas horas, resultando em várias interrupções devido à incompatibilidade da aplicação com os patches. 
+  Uma biblioteca sem patches resulta em consequências indesejadas, pois partes desconhecidas usam vulnerabilidades dentro dela para acessar sua carga de trabalho. 
+  Você aplica patches nos ambientes do desenvolvedor automaticamente, sem notificar os desenvolvedores. Você recebe várias reclamações dos desenvolvedores, dizendo que o ambiente deles deixa de funcionar conforme o esperado. 
+  Você não aplicou os patches no software pronto para uso comercial em uma instância persistente. Quando você tiver um problema com o software e entrar em contato com o fornecedor, ele informará que a versão não é compatível e será necessário aplicar patches a um nível específico para receber assistência. 
+  Um patch lançado recentemente para o software de criptografia que você usou tem melhorias significativas de performance. Seu sistema sem patches tem problemas de performance que permanecem enquanto não for feita a aplicação de patches. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao estabelecer um processo de gerenciamento de patches, incluindo critérios de aplicação de patches e metodologia para distribuição em seus ambientes, você poderá perceber os benefícios e controlar o impacto. Isso permitirá a adoção de recursos e capacidades desejados, a remoção de problemas e a conformidade contínua com a governança. Implemente sistemas de gerenciamento de patches e automação para reduzir o nível de esforço para implantar patches e limitar erros causados por processos manuais. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Gerenciamento de patches: aplique patches aos sistemas para corrigir problemas, obter as capacidades ou os recursos desejados e permanecer em conformidade com a política de governança e com os requisitos de suporte do fornecedor. Em sistemas imutáveis, implante com o conjunto de patches adequado para alcançar o resultado desejado. Automatize o mecanismo de gerenciamento de patches para reduzir o tempo decorrido para aplicar patches, reduzir erros causados por processos manuais e reduzir o nível de esforço para corrigir. 
  +  [AWS Systems Manager Patch Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-patch.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Ferramentas do desenvolvedor da AWS](https://aws.amazon.com/products/developer-tools/) 
+  [AWS Systems Manager Patch Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-patch.html) 

 **Vídeos relacionados:** 
+  [CI/CD for Serverless Applications on AWS (CI/CD para aplicações de tecnologia sem servidor na AWS)](https://www.youtube.com/watch?v=tEpx5VaW4WE) 
+  [Projeto com Ops em mente](https://youtu.be/uh19jfW7hw4) 

   **Exemplos relacionados:** 
+  [Well-Architected Labs – Inventory and Patch Management (Laboratórios do Well-Architected: Gerenciamento de inventário e patches)](https://wellarchitectedlabs.com/operational-excellence/100_labs/100_inventory_patch_management/) 

# OPS05-BP06 Compartilhar os padrões de design
<a name="ops_dev_integ_share_design_stds"></a>

 Compartilhe as melhores práticas entre as equipes para aumentar a conscientização e maximizar os benefícios dos esforços de desenvolvimento. 

 Na AWS, aplicativos, computação, infraestrutura e operações podem ser definidos e gerenciados usando metodologias de código. Isso permite fácil liberação, compartilhamento e adoção. 

 Muitos serviços e recursos da AWS foram projetados para serem compartilhados entre contas, permitindo que você compartilhe aprendizados e ativos criados com suas equipes. Por exemplo, você pode compartilhar repositórios do [CodeCommit](https://docs.aws.amazon.com/codecommit/latest/userguide/cross-account.html) , funções do [Lambda](https://docs.aws.amazon.com/lambda/latest/dg/lambda-permissions.html) , buckets do [Amazon S3](https://aws.amazon.com/premiumsupport/knowledge-center/cross-account-access-s3/)e aos [AMIs](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/sharingamis-explicit.html) com contas específicas. 

 Ao publicar novos recursos ou atualizações, use o Amazon SNS para fornecer [notificações entre contas](https://docs.aws.amazon.com/lambda/latest/dg/with-sns-example.html). Os assinantes podem usar o Lambda para obter novas versões. 

 Se houver padrões compartilhados na sua organização, será fundamental a presença de mecanismos para solicitar adições, alterações e exceções para os padrões em suporte às atividades das equipes. Sem essa opção, os padrões se tornam uma restrição à inovação. 

 **Antipadrões comuns:** 
+  Você criou seu próprio mecanismo de autenticação de usuário, assim como cada uma das outras equipes de desenvolvimento em sua organização. Seus usuários precisam manter um conjunto separado de credenciais para cada parte do sistema que desejam acessar. 
+  Você criou seu próprio mecanismo de autenticação de usuário, assim como cada uma das outras equipes de desenvolvimento em sua organização. Sua organização recebe um novo requisito de conformidade que deve ser atendido. Agora, cada equipe de desenvolvimento deve investir os recursos para implementar o novo requisito. 
+  Você criou seu próprio layout de tela, assim como cada uma das outras equipes de desenvolvimento em sua organização. Seus usuários estão reclamando sobre a dificuldade de navegar pelas interfaces inconsistentes. 

 **Benefícios do estabelecimento desta prática recomendada:** Use padrões compartilhados para apoiar a adoção de melhores práticas e aumentar os benefícios dos esforços de desenvolvimento em que os padrões atendem aos requisitos de vários aplicativos ou organizações. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Compartilhar os padrões de design: compartilhe as práticas recomendadas existentes, os padrões de design, as listas de verificação, os procedimentos operacionais e os requisitos de orientações e de governança entre as equipes para reduzir a complexidade e maximizar os benefícios dos esforços de desenvolvimento. Garanta a existência de procedimentos para solicitar alterações, acréscimos e exceções aos padrões de projeto para apoiar a melhoria e inovação contínuas. Garanta que as equipes estejam cientes do conteúdo publicado, para que possam tirar proveito do conteúdo e limitar o retrabalho e o esforço desperdiçado. 
  +  [Delegação de acesso ao ambiente da AWS](https://www.youtube.com/watch?v=0zJuULHFS6A&t=849s) 
  +  [Compartilhar um repositório do AWS CodeCommit](https://docs.aws.amazon.com/codecommit/latest/userguide/how-to-share-repository.html) 
  +  [Fácil autorização das funções do AWS Lambda](https://aws.amazon.com/blogs/compute/easy-authorization-of-aws-lambda-functions/) 
  +  [Compartilhamento de uma AMI com Contas da AWS específicas](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/sharingamis-explicit.html) 
  +  [Acelerar o compartilhamento de modelos com uma URL do designer do AWS CloudFormation](https://aws.amazon.com/blogs/devops/speed-template-sharing-with-an-aws-cloudformation-designer-url/) 
  +  [Usar o AWS Lambda com o Amazon SNS](https://docs.aws.amazon.com/lambda/latest/dg/with-sns-example.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Fácil autorização das funções do AWS Lambda](https://aws.amazon.com/blogs/compute/easy-authorization-of-aws-lambda-functions/) 
+  [Compartilhar um repositório do AWS CodeCommit](https://docs.aws.amazon.com/codecommit/latest/userguide/how-to-share-repository.html) 
+  [Compartilhamento de uma AMI com Contas da AWS específicas](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/sharingamis-explicit.html) 
+  [Acelerar o compartilhamento de modelos com uma URL do designer do AWS CloudFormation](https://aws.amazon.com/blogs/devops/speed-template-sharing-with-an-aws-cloudformation-designer-url/) 
+  [Usar o AWS Lambda com o Amazon SNS](https://docs.aws.amazon.com/lambda/latest/dg/with-sns-example.html) 

 **Vídeos relacionados:** 
+  [Delegação de acesso ao ambiente da AWS](https://www.youtube.com/watch?v=0zJuULHFS6A&t=849s) 

# OPS05-BP07 Implementar práticas para aprimorar a qualidade do código
<a name="ops_dev_integ_code_quality"></a>

 Implemente práticas para aprimorar a qualidade do código e minimizar os defeitos. Alguns exemplos incluem desenvolvimento orientado por testes, análises de código e adoção de padrões. 

 Na AWS, é possível integrar serviços, como o [Amazon CodeGuru](https://docs.aws.amazon.com/codeguru/latest/reviewer-ug/welcome.html) , com o pipeline para identificar [automaticamente os problemas potenciais de código e de segurança](https://docs.aws.amazon.com/codeguru/latest/reviewer-ug/how-codeguru-reviewer-works.html) usando a análise de programa e o machine learning. O CodeGuru fornece orientações de como implementar as práticas recomendadas da AWS para resolver esses problemas. 

 **Antipadrões comuns:** 
+  Para poder testar seu recurso precocemente, você decidiu não integrar a biblioteca padrão de tratamento de entradas. Depois de testar, você confirma o código sem se lembrar de concluir a incorporação da biblioteca. 
+  Você tem pouca experiência com o conjunto de dados que está processando e não sabe que pode existir uma série de casos de borda no seu conjunto de dados. Esses casos de borda não são compatíveis com o código que você implementou. 

 **Benefícios do estabelecimento desta prática recomendada:** Com a adoção das práticas para melhorar a qualidade do código, é possível minimizar os problemas ocorridos na produção. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Implementar práticas para melhorar a qualidade do código: implemente práticas para melhorar a qualidade do código para minimizar os defeitos e o risco de serem implantados. Por exemplo, desenvolvimento orientado por testes, programação em pares, análises de código e adoção de padrões. 
  +  [Amazon CodeGuru](https://docs.aws.amazon.com/codeguru/latest/reviewer-ug/welcome.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Amazon CodeGuru](https://docs.aws.amazon.com/codeguru/latest/reviewer-ug/welcome.html) 

# OPS05-BP08 Usar vários ambientes
<a name="ops_dev_integ_multi_env"></a>

 Use vários ambientes para experimentar, desenvolver e testar a carga de trabalho. Use níveis crescentes de controles à medida que os ambientes se aproximam da produção para adquirir confiança de que sua carga de trabalho operará conforme pretendido quando implantada. 

 **Antipadrões comuns:** 
+  Você está realizando o desenvolvimento em um ambiente de desenvolvimento compartilhado e outro desenvolvedor substitui suas alterações de código. 
+  Os controles de segurança restritivos em seu ambiente de desenvolvimento compartilhado estão impedindo que você experimente novos serviços e recursos. 
+  Você realiza testes de carga em seus sistemas de produção e causa uma interrupção para seus usuários. 
+  Ocorreu um erro crítico na produção que resulta na perda de dados. No ambiente de produção, você tenta recriar as condições que levaram à perda de dados para identificar como isso aconteceu e impedir a recorrência. Para evitar mais perda de dados durante o teste, você é forçado a tornar a aplicação indisponível para os usuários. 
+  Você está operando um serviço multilocatário e não consegue oferecer suporte a uma solicitação do cliente para um ambiente dedicado. 
+  Talvez você não teste sempre, mas quando o faz, já está em produção. 
+  Você acredita que a simplicidade de um único ambiente substitui o escopo do impacto das alterações dentro do ambiente. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao implantar vários ambientes, você pode oferecer suporte a vários ambientes simultâneos de desenvolvimento, teste e produção, sem criar conflitos entre desenvolvedores ou comunidades de usuários. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Usar vários ambientes: forneça aos desenvolvedores ambientes de área restrita para testes com controles minimizados para permitir a experimentação. Forneça ambientes de desenvolvimento individuais para permitir o trabalho em paralelo, aumentando a agilidade do desenvolvimento. Implemente controles mais rigorosos nos ambientes ao se aproximar da produção para permitir que os desenvolvedores inovem. Use a infraestrutura como sistemas de gerenciamento de código e configuração para implantar ambientes que são configurados de maneira consistente com os controles presentes na produção para garantir que os sistemas operem conforme o esperado quando implantados. Quando os ambientes não estiverem em uso, desligue-os para evitar custos associados a recursos inativos (por exemplo, sistemas de desenvolvimento à noite e fins de semana). Implante ambientes equivalentes de produção ao carregar o teste para habilitar resultados válidos. 
  +  [O que é o AWS CloudFormation?](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/Welcome.html) 
  +  [Como interrompo e inicio instâncias do Amazon EC2 em intervalos regulares usando o AWS Lambda?](https://aws.amazon.com/premiumsupport/knowledge-center/start-stop-lambda-cloudwatch/) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Como interrompo e inicio instâncias do Amazon EC2 em intervalos regulares usando o AWS Lambda?](https://aws.amazon.com/premiumsupport/knowledge-center/start-stop-lambda-cloudwatch/) 
+  [O que é o AWS CloudFormation?](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/Welcome.html) 

# OPS05-BP09 Fazer alterações frequentes, pequenas e reversíveis
<a name="ops_dev_integ_freq_sm_rev_chg"></a>

 Alterações frequentes, pequenas e reversíveis reduzem o escopo e o impacto de uma alteração. Isso facilita a solução de problemas, permite uma correção mais rápida e oferece a opção de reverter uma alteração. 

 **Antipadrões comuns:** 
+  Você implanta uma nova versão do seu aplicativo trimestralmente. 
+  Você faz alterações no esquema de banco de dados com frequência. 
+  Você realiza atualizações manuais no local, substituindo instalações e configurações existentes. 

 **Benefícios do estabelecimento desta prática recomendada:** Você reconhece os benefícios dos esforços de desenvolvimento mais rapidamente implantando pequenas alterações com frequência. Quando as alterações são pequenas, é muito mais fácil identificar se elas têm consequências indesejadas. Quando as alterações são reversíveis, há menos risco de implementar a alteração à medida que a recuperação é simplificada. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Baixo 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Fazer alterações frequentes, pequenas e reversíveis: alterações frequentes, pequenas e reversíveis reduzem o escopo e o impacto de uma alteração. Isso facilita a solução de problemas, permite uma correção mais rápida e oferece a opção de reverter uma alteração. Também aumenta a taxa na qual você pode agregar valor aos negócios. 

# OPS05-BP10 Automatizar totalmente a integração e a implantação
<a name="ops_dev_integ_auto_integ_deploy"></a>

 Automatize a construção, implantação e o teste da carga de trabalho. Isso reduz os erros causados pelos processos manuais e reduz o esforço para implantar alterações. 

 Aplique metadados usando o [Tags de recursos](https://docs.aws.amazon.com/general/latest/gr/aws_tagging.html) e [AWS Resource Groups](https://docs.aws.amazon.com/ARG/latest/APIReference/Welcome.html) seguindo uma estratégia [de marcação consistente](https://aws.amazon.com/answers/account-management/aws-tagging-strategies/) para permitir a identificação dos seus recursos. Identifique seus recursos para organização, contabilidade de custos, controles de acesso e direcione a execução de atividades operacionais automatizadas. 

 **Antipadrões comuns:** 
+  Na sexta-feira, você conclui a criação do novo código para a ramificação do recurso. Na segunda-feira, depois de executar os scripts de teste de qualidade em cada um dos scripts de testes unitários, você verificará o código para o próximo lançamento programado. 
+  Você tem a tarefa de codificar uma correção para um problema crítico que afeta um grande número de clientes em produção. Depois de testar a correção, você confirma o gerenciamento de alterações de e-mail e do código para solicitar aprovação para implantação na produção. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao implementar sistemas automatizados de gerenciamento de criação e implantação, você reduz os erros causados por processos manuais e o esforço para implantar alterações, permitindo que os membros da equipe se concentrem na entrega de valor empresarial. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Baixo 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Usar sistemas de gerenciamento de compilação e de implantação: use sistemas de gerenciamento de compilação e de implantação para rastrear e implementar alterações, reduzir erros causados por processos manuais e reduzir o nível de esforço. Automatize totalmente o pipeline de integração e implantação desde o check-in do código até a compilação, teste, implantação e validação. Isso reduz o tempo de execução, permite maior frequência de mudança e reduz o nível de esforço. 
  +  [O que é o AWS CodeBuild?](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) 
  +  [As melhores práticas de integração contínua para equipes de desenvolvimento de software](https://www.youtube.com/watch?v=GEPJ7Lo346A) 
  +  [Slalom: CI/CD para aplicações de tecnologia sem servidor na AWS](https://www.youtube.com/watch?v=tEpx5VaW4WE) 
  +  [Introduction to AWS CodeDeploy: automated software deployment with Amazon Web Services (Introdução ao AWS CodeDeploy: implantação de software automatizada com a Amazon Web Services)](https://www.youtube.com/watch?v=Wx-ain8UryM) 
  +  [O que é o AWS CodeDeploy?](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [O que é o AWS CodeBuild?](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) 
+  [O que é o AWS CodeDeploy?](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html) 

 **Vídeos relacionados:** 
+  [As melhores práticas de integração contínua para equipes de desenvolvimento de software](https://www.youtube.com/watch?v=GEPJ7Lo346A) 
+  [Introduction to AWS CodeDeploy: automated software deployment with Amazon Web Services (Introdução ao AWS CodeDeploy: implantação de software automatizada com a Amazon Web Services)](https://www.youtube.com/watch?v=Wx-ain8UryM) 
+  [Slalom: CI/CD para aplicações de tecnologia sem servidor na AWS](https://www.youtube.com/watch?v=tEpx5VaW4WE) 

# OPS 6  Como você reduz os riscos de implantação?
<a name="w2aac19b5b7b9"></a>

 Adote abordagens que forneçam feedback rápido sobre a qualidade e permitam recuperação rápida de alterações que não têm os resultados desejados. O uso dessas práticas reduz o impacto dos problemas introduzidos pela implantação de mudanças. 

**Topics**
+ [OPS06-BP01 Planejar para alterações malsucedidas](ops_mit_deploy_risks_plan_for_unsucessful_changes.md)
+ [OPS06-BP02 Testar e validar as alterações](ops_mit_deploy_risks_test_val_chg.md)
+ [OPS06-BP03 Usar sistemas de gerenciamento para implantação](ops_mit_deploy_risks_deploy_mgmt_sys.md)
+ [OPS06-BP04 Testar usando implantações limitadas](ops_mit_deploy_risks_test_limited_deploy.md)
+ [OPS06-BP05 Implantar usando ambientes paralelos](ops_mit_deploy_risks_deploy_to_parallel_env.md)
+ [OPS06-BP06 Implantar alterações frequentes, pequenas e reversíveis](ops_mit_deploy_risks_freq_sm_rev_chg.md)
+ [OPS06-BP07 Automatizar totalmente a integração e a implantação](ops_mit_deploy_risks_auto_integ_deploy.md)
+ [OPS06-BP08 Automatizar os testes e a reversão](ops_mit_deploy_risks_auto_testing_and_rollback.md)

# OPS06-BP01 Planejar para alterações malsucedidas
<a name="ops_mit_deploy_risks_plan_for_unsucessful_changes"></a>

 Planeje reverter para um bom estado anterior ou a realização de reparos no ambiente de produção se uma mudança não tiver o resultado desejado. Esta preparação reduz o tempo de recuperação através de respostas mais rápidas. 

 **Antipadrões comuns:** 
+  Você executou uma implantação e seu aplicativo se tornou instável, mas parece haver usuários ativos no sistema. Você precisa decidir se deseja reverter a alteração e afetar os usuários ativos ou esperar para reverter a alteração sabendo que mesmo assim os usuários podem ser afetados. 
+  Depois de fazer uma alteração de rotina, os novos ambientes ficam acessíveis, mas uma de suas sub-redes se tornou inacessível. Você precisa decidir se deseja reverter tudo ou tentar corrigir a sub-rede inacessível. Enquanto você estiver fazendo essa determinação, a sub-rede permanece inacessível. 

 **Benefícios do estabelecimento desta prática recomendada:** Quando há um plano estabelecido para reduzir o tempo médio de recuperação (MTTR) de alterações malsucedidas, minimizando o impacto para os usuários finais. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Alto 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Planejar para alterações malsucedidas: planeje para reverter para um bom estado conhecido (ou seja, reverter a alteração) ou realizar reparos no ambiente de produção (ou seja, avançar com a alteração) se uma alteração não tiver o resultado desejado. Ao identificar alterações que não podem ser revertidas se mal-sucedidas, aplique a auditoria devida antes de confirmar a alteração. 

# OPS06-BP02 Testar e validar as alterações
<a name="ops_mit_deploy_risks_test_val_chg"></a>

 Teste as alterações e valide os resultados em todas as etapas do ciclo de vida, para confirmar novos recursos e minimizar o risco e o impacto de implementações com falha. 

 Na AWS, você pode criar ambientes paralelos temporários para reduzir o risco, o esforço e o custo da experimentação e dos testes. Automatize a implantação desses ambientes usando o [AWS CloudFormation](https://aws.amazon.com/cloudformation/) para garantir implementações consistentes dos seus ambientes temporários. 

 **Antipadrões comuns:** 
+  Você implanta um novo recurso incrível em seu aplicativo. Ele não funciona. Você não sabe. 
+  Você atualiza seus certificados. Você instala acidentalmente os certificados nos componentes incorretos. Você não sabe. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao testar e validar as alterações após a implantação, você pode identificar os problemas antecipadamente, oferecendo a oportunidade de reduzir o impacto sobre seus clientes. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Alto 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Testar e validar as alterações: teste as alterações e valide os resultados em todas as etapas do ciclo de vida (como desenvolvimento, teste e produção) a fim de confirmar novos recursos e minimizar o risco e o impacto de implantações com falha. 
  +  [AWS Cloud9](https://aws.amazon.com/cloud9/) 
  +  [O que é o AWS Cloud9?](https://docs.aws.amazon.com/cloud9/latest/user-guide/welcome.html) 
  +  [Como testar e depurar o AWS CodeDeploy localmente antes de enviar o código](https://aws.amazon.com/blogs/devops/how-to-test-and-debug-aws-codedeploy-locally-before-you-ship-your-code/) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [AWS Cloud9](https://aws.amazon.com/cloud9/) 
+  [Ferramentas do desenvolvedor da AWS](https://aws.amazon.com/products/developer-tools/) 
+  [Como testar e depurar o AWS CodeDeploy localmente antes de enviar o código](https://aws.amazon.com/blogs/devops/how-to-test-and-debug-aws-codedeploy-locally-before-you-ship-your-code/) 
+  [O que é o AWS Cloud9?](https://docs.aws.amazon.com/cloud9/latest/user-guide/welcome.html) 

# OPS06-BP03 Usar sistemas de gerenciamento para implantação
<a name="ops_mit_deploy_risks_deploy_mgmt_sys"></a>

 Use sistemas de gerenciamento para implantação a fim de rastrear e implementar mudanças. Isso reduz os erros causados pelos processos manuais e reduz o esforço para implantar alterações. 

 Na AWS, é possível criar pipelines de integração contínua/implantação contínua (CI/CD) usando serviços como: [Ferramentas do desenvolvedor da AWS](https://aws.amazon.com/products/developer-tools/) (por exemplo, AWS CodeCommit, [AWS CodeBuild](https://aws.amazon.com/codebuild/), [AWS CodePipeline](https://aws.amazon.com/codepipeline/), [AWS CodeDeploy](https://aws.amazon.com/codedeploy/)e aos [AWS CodeStar](https://aws.amazon.com/codestar/)). 

 **Antipadrões comuns:** 
+  Você implanta atualizações manualmente nos servidores de aplicativos em toda a frota e vários servidores não respondem devido a erros de atualização. 
+  Você implanta manualmente a frota do servidor de aplicativos ao longo de muitas horas. A inconsistência nas versões durante a alteração causa comportamentos inesperados. 

 **Benefícios do estabelecimento desta prática recomendada:** A adoção de sistemas de gerenciamento de implantação reduz o nível de esforço para implantar alterações e a frequência de erros causados por procedimentos manuais. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Usar sistemas de gerenciamento de implantação: use sistemas de gerenciamento de implantação para monitorar e implementar alterações. Isso reduzirá os erros causados pelos processos manuais e o nível de esforço para implantar as alterações. Automatize o pipeline de integração e implantação desde o check-in do código até o teste, a implantação e a validação. Isso reduz o tempo de execução, permite maior frequência de mudança e reduz ainda mais o nível de esforço. 
  +  [Introduction to AWS CodeDeploy: automated software deployment with Amazon Web Services (Introdução ao AWS CodeDeploy: implantação de software automatizada com a Amazon Web Services)](https://www.youtube.com/watch?v=Wx-ain8UryM) 
  +  [O que é o AWS CodeDeploy?](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html) 
  +  [O que é o AWS Elastic Beanstalk?](https://docs.aws.amazon.com/elasticbeanstalk/latest/dg/Welcome.html) 
  +  [O que é o Amazon API Gateway?](https://docs.aws.amazon.com/apigateway/latest/developerguide/welcome.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Guia do usuário do AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html) 
+  [Ferramentas do desenvolvedor da AWS](https://aws.amazon.com/products/developer-tools/) 
+  [Experimentar uma amostra da implantação azul/verde no AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/applications-create-blue-green.html) 
+  [O que é o AWS CodeDeploy?](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html) 
+  [O que é o AWS Elastic Beanstalk?](https://docs.aws.amazon.com/elasticbeanstalk/latest/dg/Welcome.html) 
+  [O que é o Amazon API Gateway?](https://docs.aws.amazon.com/apigateway/latest/developerguide/welcome.html) 

 **Vídeos relacionados:** 
+  [Deep Dive on Advanced Continuous Delivery Techniques Using AWS (Mergulhe nas técnicas avançadas de entrega contínua usando a AWS)](https://www.youtube.com/watch?v=Lrrgd0Kemhw) 
+  [Introduction to AWS CodeDeploy: automated software deployment with Amazon Web Services (Introdução ao AWS CodeDeploy: implantação de software automatizada com a Amazon Web Services)](https://www.youtube.com/watch?v=Wx-ain8UryM) 

# OPS06-BP04 Testar usando implantações limitadas
<a name="ops_mit_deploy_risks_test_limited_deploy"></a>

 Teste implantações limitadas junto com os sistemas existentes para confirmar os resultados desejados antes da implantação em grande escala. Use testes para implantação canário ou implantações individuais, por exemplo. 

 **Antipadrões comuns:** 
+  Você implanta uma alteração malsucedida em toda a produção de uma só vez. Você não sabe. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao testar e validar as alterações após a implantação limitada, você pode identificar problemas antecipadamente com impacto mínimo em seus clientes, oferecendo a oportunidade de reduzir ainda mais o impacto sobre seus clientes. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Testar usando implantações limitadas: teste com implantações limitadas junto com sistemas existentes para confirmar os resultados desejados antes da implantação em grande escala. Use testes para implantação canário ou implantações individuais, por exemplo. 
  +  [Guia do usuário do AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html) 
  +  [Implantações azul/verde com o AWS Elastic Beanstalk](https://docs.aws.amazon.com/elasticbeanstalk/latest/dg/using-features.CNAMESwap.html) 
  +  [Configurar uma implantação de lançamento canário com o API Gateway](https://docs.aws.amazon.com/apigateway/latest/developerguide/canary-release.html) 
  +  [Experimentar uma amostra da implantação azul/verde no AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/applications-create-blue-green.html) 
  +  [Como trabalhar com configurações de implantação no AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/deployment-configurations.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Guia do usuário do AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html) 
+  [Implantações azul/verde com o AWS Elastic Beanstalk](https://docs.aws.amazon.com/elasticbeanstalk/latest/dg/using-features.CNAMESwap.html) 
+  [Configurar uma implantação de lançamento canário com o API Gateway](https://docs.aws.amazon.com/apigateway/latest/developerguide/canary-release.html) 
+  [Experimentar uma amostra da implantação azul/verde no AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/applications-create-blue-green.html) 
+  [Como trabalhar com configurações de implantação no AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/deployment-configurations.html) 

# OPS06-BP05 Implantar usando ambientes paralelos
<a name="ops_mit_deploy_risks_deploy_to_parallel_env"></a>

 Implemente alterações em ambientes paralelos e faça a transição para o novo ambiente. Mantenha o ambiente anterior até que haja confirmação de uma implantação bem-sucedida. Ao fazer isso, o tempo de recuperação é minimizado, permitindo assim a reversão para o ambiente anterior. 

 **Antipadrões comuns:** 
+  Você executa uma implantação mutável modificando os sistemas existentes. Ao descobrir que a alteração não foi bem-sucedida, você será forçado a modificar os sistemas novamente para restaurar a versão antiga, aumentando o tempo de recuperação. 
+  Durante uma janela de manutenção, você desativará o ambiente antigo e começará a criar o novo ambiente. Muitas horas após o procedimento, você descobre problemas irrecuperáveis com a implantação. Embora extremamente cansado, você é forçado a encontrar os procedimentos de implantação anteriores e começar a reconstruir o ambiente antigo. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao usar ambientes paralelos, é possível pré-implantar o novo ambiente e fazer a transição para ele quando desejar. Se o novo ambiente não for bem-sucedido, você poderá se recuperar rapidamente fazendo a transição de volta para o ambiente original. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Implantar usando ambientes paralelos: implemente alterações em ambientes paralelos e faça a transição para o novo ambiente. Mantenha o ambiente anterior até que haja confirmação de uma implantação bem-sucedida. Isso minimiza o tempo de recuperação, permitindo assim a reversão para o ambiente anterior. Use infraestruturas imutáveis com implantações azul/verde, por exemplo. 
  +  [Como trabalhar com configurações de implantação no AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/deployment-configurations.html) 
  +  [Implantações azul/verde com o AWS Elastic Beanstalk](https://docs.aws.amazon.com/elasticbeanstalk/latest/dg/using-features.CNAMESwap.html) 
  +  [Configurar uma implantação de lançamento canário com o API Gateway](https://docs.aws.amazon.com/apigateway/latest/developerguide/canary-release.html) 
  +  [Experimentar uma amostra da implantação azul/verde no AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/applications-create-blue-green.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Guia do usuário do AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html) 
+  [Implantações azul/verde com o AWS Elastic Beanstalk](https://docs.aws.amazon.com/elasticbeanstalk/latest/dg/using-features.CNAMESwap.html) 
+  [Configurar uma implantação de lançamento canário com o API Gateway](https://docs.aws.amazon.com/apigateway/latest/developerguide/canary-release.html) 
+  [Experimentar uma amostra da implantação azul/verde no AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/applications-create-blue-green.html) 
+  [Como trabalhar com configurações de implantação no AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/deployment-configurations.html) 

 **Vídeos relacionados:** 
+  [Deep Dive on Advanced Continuous Delivery Techniques Using AWS (Mergulhe nas técnicas avançadas de entrega contínua usando a AWS)](https://www.youtube.com/watch?v=Lrrgd0Kemhw) 

# OPS06-BP06 Implantar alterações frequentes, pequenas e reversíveis
<a name="ops_mit_deploy_risks_freq_sm_rev_chg"></a>

 Use alterações frequentes, pequenas e reversíveis para reduzir o escopo de uma alteração. Isso resulta em solução de problemas mais fácil e correção mais rápida, com a opção de reverter uma alteração. 

 **Antipadrões comuns:** 
+  Você implanta uma nova versão do seu aplicativo trimestralmente. 
+  Você faz alterações no esquema de banco de dados com frequência. 
+  Você realiza atualizações manuais no local, substituindo instalações e configurações existentes. 

 **Benefícios do estabelecimento desta prática recomendada:** Você reconhece os benefícios dos esforços de desenvolvimento mais rapidamente implantando pequenas alterações com frequência. Quando as alterações são pequenas, é muito mais fácil identificar se elas têm consequências indesejadas. Quando as alterações são reversíveis, há menos risco de implementar a alteração à medida que a recuperação é simplificada. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Baixo 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Implantar alterações frequentes, pequenas e reversíveis: use alterações frequentes, pequenas e reversíveis para reduzir o escopo de uma alteração. Isso resulta em solução de problemas mais fácil e correção mais rápida, com a opção de reverter uma alteração. 

# OPS06-BP07 Automatizar totalmente a integração e a implantação
<a name="ops_mit_deploy_risks_auto_integ_deploy"></a>

 Automatize a construção, implantação e o teste da carga de trabalho. Isso reduz os erros causados pelos processos manuais e reduz o esforço para implantar alterações. 

 Aplique metadados usando o [Tags de recursos](https://docs.aws.amazon.com/general/latest/gr/aws_tagging.html) e [AWS Resource Groups](https://docs.aws.amazon.com/ARG/latest/APIReference/Welcome.html) seguindo uma estratégia [de marcação consistente](https://aws.amazon.com/answers/account-management/aws-tagging-strategies/) para permitir a identificação dos seus recursos. Identifique seus recursos para organização, contabilidade de custos, controles de acesso e direcione a execução de atividades operacionais automatizadas. 

 **Antipadrões comuns:** 
+  Na sexta-feira, você conclui a criação do novo código para a ramificação do recurso. Na segunda-feira, depois de executar os scripts de teste de qualidade em cada um dos scripts de testes unitários, você verificará o código para o próximo lançamento programado. 
+  Você tem a tarefa de codificar uma correção para um problema crítico que afeta um grande número de clientes em produção. Depois de testar a correção, você confirma o gerenciamento de alterações de e-mail e do código para solicitar aprovação para implantação na produção. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao implementar sistemas automatizados de gerenciamento de criação e implantação, você reduz os erros causados por processos manuais e o esforço para implantar alterações, permitindo que os membros da equipe se concentrem na entrega de valor empresarial. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Baixo 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Usar sistemas de gerenciamento de compilação e de implantação: use sistemas de gerenciamento de compilação e de implantação para rastrear e implementar alterações, reduzir erros causados por processos manuais e reduzir o nível de esforço. Automatize totalmente o pipeline de integração e implantação desde o check-in do código até a compilação, teste, implantação e validação. Isso reduz o tempo de execução, permite maior frequência de mudança e reduz o nível de esforço. 
  +  [O que é o AWS CodeBuild?](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) 
  +  [As melhores práticas de integração contínua para equipes de desenvolvimento de software](https://www.youtube.com/watch?v=GEPJ7Lo346A) 
  +  [Slalom: CI/CD para aplicações de tecnologia sem servidor na AWS](https://www.youtube.com/watch?v=tEpx5VaW4WE) 
  +  [Introduction to AWS CodeDeploy: automated software deployment with Amazon Web Services (Introdução ao AWS CodeDeploy: implantação de software automatizada com a Amazon Web Services)](https://www.youtube.com/watch?v=Wx-ain8UryM) 
  +  [O que é o AWS CodeDeploy?](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html) 
  +  [Deep Dive on Advanced Continuous Delivery Techniques Using AWS (Mergulhe nas técnicas avançadas de entrega contínua usando a AWS)](https://www.youtube.com/watch?v=Lrrgd0Kemhw) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Experimentar uma amostra da implantação azul/verde no AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/applications-create-blue-green.html) 
+  [O que é o AWS CodeBuild?](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) 
+  [O que é o AWS CodeDeploy?](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html) 

 **Vídeos relacionados:** 
+  [As melhores práticas de integração contínua para equipes de desenvolvimento de software](https://www.youtube.com/watch?v=GEPJ7Lo346A) 
+  [Deep Dive on Advanced Continuous Delivery Techniques Using AWS (Mergulhe nas técnicas avançadas de entrega contínua usando a AWS)](https://www.youtube.com/watch?v=Lrrgd0Kemhw) 
+  [Introduction to AWS CodeDeploy: automated software deployment with Amazon Web Services (Introdução ao AWS CodeDeploy: implantação de software automatizada com a Amazon Web Services)](https://www.youtube.com/watch?v=Wx-ain8UryM) 
+  [Slalom: CI/CD para aplicações de tecnologia sem servidor na AWS](https://www.youtube.com/watch?v=tEpx5VaW4WE) 

# OPS06-BP08 Automatizar os testes e a reversão
<a name="ops_mit_deploy_risks_auto_testing_and_rollback"></a>

 Automatize os testes dos ambientes implantados para confirmar os resultados desejados. Automatize a reversão para um bom estado anterior conhecido quando os resultados não forem alcançados, para minimizar o tempo de recuperação e reduzir os erros causados por processos manuais. 

 **Antipadrões comuns:** 
+  Você implanta alterações em sua carga de trabalho. Depois de verificar se a alteração foi concluída, você inicia os testes de pós-implantação. Depois de concluídos, você percebe que sua workload está inoperante e que os clientes estão desconectados. Em seguida, você começa a reverter para a versão anterior. Depois de um período prolongado para detectar o problema, o tempo de recuperação é estendido pela reimplantação manual. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao testar e validar alterações após a implantação, é possível identificar problemas imediatamente. Ao reverter automaticamente para a versão anterior, o impacto sobre os clientes é minimizado. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Baixo 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Automatizar testes e reversão: automatize testes de ambientes implantados para confirmar os resultados desejados. Automatize a reversão para um bom estado anterior conhecido quando os resultados não forem alcançados, para minimizar o tempo de recuperação e reduzir os erros causados por processos manuais. Por exemplo, faça transações sintéticas e detalhadas do usuário após a implantação, verifique os resultados e reverta a falha. 
  +  [Reimplantar e reverter uma implantação com o AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/deployments-rollback-and-redeploy.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Reimplantar e reverter uma implantação com o AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/deployments-rollback-and-redeploy.html) 

# OPS 7  Como você sabe que está pronto para oferecer suporte a uma carga de trabalho?
<a name="w2aac19b5b7c11"></a>

 Avalie a prontidão operacional de sua carga de trabalho, processos/procedimentos e pessoal para entender os riscos operacionais relacionados. 

**Topics**
+ [OPS07-BP01 Garantir a capacidade da equipe](ops_ready_to_support_personnel_capability.md)
+ [OPS07-BP02 Garantir uma análise consistente da prontidão operacional](ops_ready_to_support_const_orr.md)
+ [OPS07-BP03 Usar runbooks para realizar procedimentos](ops_ready_to_support_use_runbooks.md)
+ [OPS07-BP04 Usar manuais para investigar problemas](ops_ready_to_support_use_playbooks.md)
+ [OPS07-BP05 Tomar decisões embasadas para implantar sistemas e alterações](ops_ready_to_support_informed_deploy_decisions.md)

# OPS07-BP01 Garantir a capacidade da equipe
<a name="ops_ready_to_support_personnel_capability"></a>

 Tenha um mecanismo para validar que você tem o número adequado de pessoal treinado para fornecer suporte às necessidades operacionais. Treine e ajuste a capacidade de pessoal conforme necessário para manter o suporte eficiente. 

 Você precisará ter membros da equipe suficientes para cobrir todas as atividades (inclusive em plantão). Garanta que suas equipes tenham as habilidades necessárias para terem êxito no treinamento sobre as workload, as ferramentas das operações e a AWS. 

 A AWS fornece recursos, incluindo o [Centro de recursos de conceitos básicos da AWS](https://aws.amazon.com/getting-started/), [Blogs da AWS](https://aws.amazon.com/blogs/), [AWS Online Tech Talks](https://aws.amazon.com/getting-started/), [Eventos e webinars da AWS](https://aws.amazon.com/events/)e os [Laboratórios do AWS Well-Architected](https://wellarchitectedlabs.com/), que fornecem orientações, exemplos e demonstrações detalhadas para educar suas equipes. Além disso, o [Treinamento da AWS and Certification](https://aws.amazon.com/training/) fornece algum treinamento gratuito por meio de cursos digitais autoguiados sobre os conceitos básicos da AWS. Também é possível inscrever-se em treinamento administrado por instrutor para oferecer suporte adicional ao desenvolvimento das habilidades em AWS de suas equipes. 

 **Antipadrões comuns:** 
+  Implantar uma carga de trabalho sem membros qualificados na equipe para oferecer suporte à plataforma e aos serviços em uso. 
+  Implantar uma carga de trabalho sem membros da equipe disponíveis durante as horas pretendidas de suporte. 
+  Implantar uma carga de trabalho sem membros suficientes da equipe para oferecer suporte se houver membros da equipe em licença ou afastados por doença. 
+  Implantar cargas de trabalho adicionais sem analisar o impacto adicional sobre os membros da equipe que oferecem suporte e outras cargas de trabalho. 

 **Benefícios do estabelecimento desta prática recomendada:** Ter membros da equipe qualificados possibilita o suporte eficaz da sua carga de trabalho. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Alto 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Capacidade da equipe: valide se a equipe com treinamento é grande o suficiente para oferecer suporte de forma eficaz à workload. 
  +  Tamanho da equipe: verifique se você tem membros da equipe suficientes para cobrir as atividades operacionais, como tarefas de plantão. 
  +  Habilidades da equipe: verifique se os membros da equipe têm treinamento suficiente da AWS, de workload e de ferramentas operacionais para realizarem suas tarefas. 
    +  [Eventos e webinars da AWS](https://aws.amazon.com/about-aws/events/) 
    +  [Nossas boas-vindas ao Treinamento da AWS and Certification](https://aws.amazon.com/training/) 
  +  Analisar os recursos: analise o tamanho e as habilidades da equipe conforme as condições operacionais e as workloads mudam, para garantir que haja capacidade suficiente para manter a excelência operacional. Faça ajustes para garantir que o tamanho e a habilidade da equipe correspondam aos requisitos operacionais para as cargas de trabalho para as quais a equipe fornece suporte. 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Blogs da AWS](https://aws.amazon.com/blogs/) 
+  [Eventos e webinars da AWS](https://aws.amazon.com/about-aws/events/) 
+  [Centro de recursos de conceitos básicos da AWS](https://aws.amazon.com/getting-started/) 
+  [AWS Online Tech Talks](https://aws.amazon.com/getting-started/) 
+  [Nossas boas-vindas ao Treinamento da AWS and Certification](https://aws.amazon.com/training/) 

 **Exemplos relacionados:** 
+  [Laboratórios do Well-Architected](https://wellarchitectedlabs.com/) 

# OPS07-BP02 Garantir uma análise consistente da prontidão operacional
<a name="ops_ready_to_support_const_orr"></a>

Use Análises de prontidão operacional (ORRs) para validar que você pode operar sua workload. A ORR é um mecanismo desenvolvido na Amazon para validar que as equipes podem operar as workloads com segurança. Uma ORR é um processo de análise e inspeção que usa uma lista de verificação de requisitos. Uma ORR é uma experiência de autoatendimento que as equipes usam para certificar suas workloads. As ORRs incluem práticas recomendadas de lições aprendidas de nossos anos de experiência na criação de software. 

 Uma lista de verificação de ORR é composta de recomendações de arquitetura, processo operacional, gerenciamento de evento e qualidade de lançamento. Nosso processo de Correção de erros (CoE) é um motivador principal desses itens. Sua própria análise pós-incidente deve impulsionar a evolução de sua própria ORR. Uma ORR não é apenas sobre seguir as práticas recomendadas, mas evitar a recorrência de eventos que você já viu. Por fim, os requisitos de segurança, governança e conformidade também podem ser incluídos em uma ORR. 

 Execute ORRs antes do lançamento de uma workload para disponibilidade geral e por todo o ciclo de vida de desenvolvimento do software. A execução da ORR antes do lançamento aumenta a capacidade de operar a workload com segurança. Execute a ORR periodicamente na workload para identificar qualquer desvio das práticas recomendadas. Você pode ter listas de verificação da ORR para o lançamento de outros serviços e ORRs para avaliações periódicas. Isso ajuda a manter você atualizado sobre as novas práticas recomendadas que surgem e incorporar as lições aprendidas da análise pós-incidente. À medida que seu uso da nuvem amadurece, é possível criar requisitos de ORR em sua arquitetura como padrões. 

 **Resultado desejado:**  você tem uma lista de verificação da ORR com as práticas recomendadas para sua organização. As ORRs são realizadas antes do lançamento das workloads. As ORRs são executadas periodicamente ao longo do ciclo de vida da workload. 

 **Antipadrões comuns:** 
+ Você lança uma workload sem saber se pode operá-la. 
+ Os requisitos de governança e segurança não estão incluídos na certificação de uma workload para o lançamento. 
+ As workloads não são reavaliadas periodicamente. 
+ As workloads são lançadas sem a aplicação dos procedimentos exigidos. 
+ Você vê a repetição das mesmas falhas da causa raiz em várias workloads. 

 **Benefícios de estabelecer esta prática recomendada:** 
+  suas workloads incluem práticas recomendadas de arquitetura, processo e gerenciamento. 
+  As lições aprendidas são incorporadas em seu processo de ORR. 
+  Os procedimentos exigidos estão em vigor no lançamento das workloads. 
+  As ORRs são executadas durante todo o ciclo de vida do software das workloads. 

 **Nível de risco caso essa prática recomendada não seja estabelecida:** alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Uma ORR é composta por dois elementos: um processo e uma lista de verificação. O processo da ORR deve ser adotado pela organização e ter o apoio de um patrocinador executivo. No mínimo, as ORRs devem ser realizadas antes do lançamento da workload para disponibilidade geral. Execute a ORR ao longo de todo o ciclo de vida de desenvolvimento do software para mantê-la atualizada com as práticas recomendadas ou os novos requisitos. A lista de verificação da ORR deve incluir itens de configuração, requisitos de segurança e governança e práticas recomendadas de sua organização. Ao longo do tempo, você pode usar serviços como o [AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html), o [AWS Security Hub CSPM](https://docs.aws.amazon.com/securityhub/latest/userguide/what-is-securityhub.html)e o [AWS Control Tower Guardrails](https://docs.aws.amazon.com/controltower/latest/userguide/guardrails.html), para criar práticas recomendadas com base na ORR visando as barreiras de proteção para detecção automáticas das práticas recomendadas. 

 **Exemplo de cliente** 

 Depois de vários incidentes na produção, a Loja UmaEmpresa decidiu implementar um processo de ORR. Ela criou uma lista de verificação composta de práticas recomendadas, requisitos de governança e conformidade e lições aprendidas de interrupções. Novas workloads passam pelo processo de ORR antes do lançamento. É realizada uma ORR anualmente para cada workload com um subconjunto de práticas recomendadas a incorporar novas práticas recomendadas e requisitos que são adicionados à lista de verificação da ORR. Ao longo do tempo, a Loja UmaEmpresa usou o [AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html) para detectar algumas práticas recomendadas, acelerando o processo de ORR. 

 **Etapas da implementação** 

 Para saber mais sobre as ORRs, leia o [whitepaper de Análises de prontidão operacional (ORR)](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/wa-operational-readiness-reviews.html). Ele fornece informações detalhadas sobre o histórico do processo de ORR, como criar sua própria prática de ORR e como desenvolver sua lista de verificação da ORR. As etapas a seguir são uma versão resumida desse documento. Para uma compreensão aprofundada do que são as ORRs e de como criar sua própria, recomendamos a leitura desse whitepaper. 

1. Reúna as principais partes interessadas, incluindo os representantes de segurança, operações e desenvolvimento. 

1. Peça para cada parte interessada fornecer pelo menos um requisito. Para a primeira iteração, tente limitar o número de itens para trinta ou menos. 
   +  [Apêndice B: os exemplos de perguntas da ORR](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/appendix-b-example-orr-questions.html) do whitepaper de Análises de prontidão operacional (ORR) contém exemplos de perguntas que você pode usar para começar. 

1. Reúna seus requisitos em uma planilha. 
   + Você pode usar o [Custom Lenses](https://docs.aws.amazon.com/wellarchitected/latest/userguide/lenses-custom.html) no [AWS Well-Architected Tool](https://console.aws.amazon.com/wellarchiected/) para desenvolver sua ORR e compartilhá-la em suas contas e no AWS Organization. 

1. Identifique uma workload na qual realizar a ORR. O ideal seria em uma workload em pré-lançamento ou uma workload interna. 

1. Execute a lista de verificação completa da ORR e anote as descobertas feitas. As descobertas podem não ser corretas caso esteja ocorrendo uma mitigação. Para descobertas que não tenham uma mitigação, acrescente-as à sua lista de pendências e implemente-as antes do lançamento. 

1. Continue a adicionar práticas recomendadas e requisitos à sua lista de verificação de ORR ao longo do tempo. 

 Os clientes do Suporte com Enterprise Support podem solicitar o [workshop de Análises de prontidão operacional](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/) com seu gerente de conta técnico. O workshop é uma sessão interativa de *trabalho em retrospecto* para que você consiga desenvolver sua própria lista de verificação de ORR. 

 **Nível de esforço do plano de implementação:** alto. Adotar uma prática de ORR em sua organização exige a adesão de um patrocinador executivo e das partes interessadas. Crie e atualize a lista de verificação com as opiniões de toda a sua organização. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+ [OPS01-BP03 Avaliar os requisitos de governança](ops_priorities_governance_reqs.md) – Os requisitos de governança são uma opção natural para uma lista de verificação da ORR. 
+ [OPS01-BP04 Avaliar os requisitos de conformidade](ops_priorities_compliance_reqs.md) – Os requisitos de conformidade, às vezes são incluídos em uma lista de verificação de ORR. Outras vezes, eles constituem um processo separado. 
+ [OPS03-BP07 Fornecer recursos adequados às equipes](ops_org_culture_team_res_appro.md) – A capacidade da equipe é uma boa candidata para um requisito de ORR. 
+ [OPS06-BP01 Planejar para alterações malsucedidas](ops_mit_deploy_risks_plan_for_unsucessful_changes.md) – Um plano de reversão ou avanço deve ser estabelecido antes do lançamento da workload. 
+ [OPS07-BP01 Garantir a capacidade da equipe](ops_ready_to_support_personnel_capability.md) – Para comportar uma workload, você deve ter o pessoal necessário. 
+ [SEC01-BP03 Identificar e validar objetivos de controle](https://docs.aws.amazon.com/wellarchitected/latest/framework/sec_securely_operate_control_objectives.html) – Os objetivos de controle de segurança compõem excelentes requisitos de ORR. 
+ [REL13-BP01 Definir os objetivos de recuperação para tempo de inatividade e perda de dados](https://docs.aws.amazon.com/wellarchitected/latest/framework/rel_planning_for_recovery_objective_defined_recovery.html) – Os planos de recuperação de desastres são um ótimo requisito de ORR. 
+ [COST02-BP01 Desenvolver políticas com base nos requisitos da sua organização](https://docs.aws.amazon.com/wellarchitected/latest/framework/cost_govern_usage_policies.html) – As políticas de gerenciamento de custos são ótimas para incluir em sua lista de verificação de ORR. 

 **Documentos relacionados:** 
+  [AWS Control Tower - Guardrails in AWS Control Tower (AWS Control Tower: barreiras de proteção no AWS Control Tower)](https://docs.aws.amazon.com/controltower/latest/userguide/guardrails.html) 
+  [AWS Well-Architected Tool - Custom Lenses](https://docs.aws.amazon.com/wellarchitected/latest/userguide/lenses-custom.html) 
+  [Operational Readiness Review Template by Adrian Hornsby (Modelo de Análise de prontidão operacional, por Adrian Hornsby)](https://medium.com/the-cloud-architect/operational-readiness-review-template-e23a4bfd8d79) 
+  [Whitepaper de Análises de prontidão operacional (ORR)](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/wa-operational-readiness-reviews.html) 

 **Vídeos relacionados:** 
+  [AWS Supports You \$1 Building an Effective Operational Readiness Review (ORR) (Apoio do AWS Support: criação de uma Análise de prontidão operacional (ORR) eficaz)](https://www.youtube.com/watch?v=Keo6zWMQqS8) 

 **Exemplos relacionados:** 
+  [Sample Operational Readiness Review (ORR) Lens (Exemplo da perspectiva da Análise de prontidão operacional (ORR))](https://github.com/aws-samples/custom-lens-wa-sample/tree/main/ORR-Lens) 

 **Serviços relacionados:** 
+  [AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html) 
+  [AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/what-is-control-tower.html) 
+  [AWS Security Hub CSPM](https://docs.aws.amazon.com/securityhub/latest/userguide/what-is-securityhub.html) 
+  [AWS Well-Architected Tool](https://docs.aws.amazon.com/wellarchitected/latest/userguide/intro.html) 

# OPS07-BP03 Usar runbooks para realizar procedimentos
<a name="ops_ready_to_support_use_runbooks"></a>

 A *runbook* é um processo documentado para alcançar um resultado específico. Runbooks consistem em uma série de etapas que alguém segue para realizar alguma coisa. Runbooks são usados em operações desde os primórdios da aviação. Nas operações na nuvem, usamos runbooks para reduzir o risco e alcançar os resultados desejados. Em essência, um runbook é uma lista de verificação para concluir uma tarefa. 

 Runbooks são fundamentais para a operação de uma workload. Da integração de um novo membro da equipe à implantação de um lançamento importante, os runbooks são os processos codificados que fornecem resultados consistentes independentemente de que os usa. Os runbooks devem estar publicados em um local central e devem ser atualizados à medida que o processo evolui, uma vez que a atualização dos runbooks é um aspecto fundamental de um processo de gerenciamento de mudanças. Também devem incluir orientação sobre tratamento de erros, ferramentas, permissões, exceções e encaminhamentos em caso de problema. 

 À medida que sua organização amadurece, comece a automatizar os runbooks. Comece com runbooks que sejam curtos e usados com frequência. Use linguagens de scripts para automatizar as etapas ou facilitar a realização delas. À medida que você automatiza os primeiros runbooks, vai dedicar tempo à automação de runbooks mais complexos. Com o tempo, a maioria dos seus runbooks deverão ter algum nível de automação. 

 **Resultado desejado:** sua equipe tem um conjunto de guias detalhados para realizar tarefas de workload. Os runbooks contêm o resultado desejado, as ferramentas e permissões necessárias e as instruções para tratamento de erros. Eles estão armazenados em um local central e são atualizados frequentemente. 

 **Antipadrões comuns:** 
+  Depender da memória para concluir cada etapa de um processo. 
+  Implantar mudanças manualmente sem uma lista de verificação. 
+  Vários membros da equipe realizando o mesmo processo, mas com etapas ou resultados diferentes. 
+  Deixar que os runbooks fiquem desatualizados em relação às mudanças no sistema e à automação. 

 **Benefícios do estabelecimento desta prática recomendada:** 
+  Redução das taxas de erros em tarefas manuais. 
+  Operações realizadas de maneira consistente. 
+  Novos membros da equipe podem começar a realizar tarefas mais cedo. 
+  Os runbooks podem ser automatizados para reduzir o esforço. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação de implementação
<a name="implementation-guidance"></a>

 Os runbooks podem assumir diversos formatos dependendo do nível de maturidade da sua organização. No mínimo, devem consistir em um documento de texto detalhado. O resultado desejado deve estar claramente identificado. Documentar claramente as permissões ou ferramentas especiais necessárias. Fornecer orientação detalhada sobre tratamento de erros e encaminhamentos em caso de problema. Listar o proprietário do runbook e publicá-lo em um local central. Depois que o runbook estiver documentado, valide-o pedindo que outro membro da equipe o execute. À medida que os procedimentos evoluem, atualize os runbooks de acordo com seu processo de gerenciamento de mudanças. 

 Os runbooks em texto devem ser automatizados à medida que a organização amadurece. Usando serviços como as [automações do AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html), você pode transformar texto plano em automações que podem ser executadas na workload. Essas automações podem ser executadas em resposta a eventos, reduzindo a sobrecarga operacional de manutenção da workload. 

 **Exemplo de cliente** 

 A AnyCompany Retail precisa realizar atualizações no esquema de banco de dados durante implantações de software. A equipe de operações na nuvem trabalhou com a equipe de administração do banco de dados para criar um runbook para implantação manual dessas mudanças. O runbook lista cada etapa do processo em um formato de lista de verificação. Ele inclui uma seção sobre tratamento de erros em caso de problema. Eles publicaram o runbook na wiki interna junto com outros runbooks. A equipe de operações na nuvem planeja automatizar o runbook em um sprint futuro. 

## Etapas da implementação
<a name="implementation-steps"></a>

 Se você não tem um repositório de documentos, um repositório de controle de versão é um ótimo lugar para começar a criar sua biblioteca de runbooks. Você pode criar runbooks usando Markdown. Disponibilizamos um modelo de runbook que você pode usar para começar a criar runbooks. 

```
# Título do runbook ## Informações do runbook | ID do runbook | Descrição | Ferramentas usadas | Permissões especiais | Criador do runbook | Última atualização | Contato para encaminhamento | |-------|-------|-------|-------|-------|-------|-------| | RUN001 | Para que serve este runbook? Qual é o resultado desejado? | Ferramentas | Permissões | Seu nome | 21-09-2022 | Nome para encaminhamento | ## Etapas 1. Primeira etapa 2. Segunda etapa
```

1.  Se você não tiver um repositório de documentação ou uma wiki, crie um repositório de controle de versão em seu sistema de controle de versão. 

1.  Identifique um processo que não tenha um runbook. Um processo ideal é um que seja realizado quase regularmente, que tenha poucas etapas e que tenha falhas de baixo impacto. 

1.  No repositório de documentos, crie um rascunho de documento em Markdown usando o modelo. Preencha `Título do runbook` e os campos necessários em `Informações do runbook`. 

1.  Começando pela primeira etapa, preencha a seção `Etapas` do runbook. 

1.  Dê o runbook a um membro da equipe. Peça que o use para validar as etapas. Se algo estiver faltando ou não estiver claro, atualize o runbook. 

1.  Disponibilize o runbook em seu armazenamento interno de documentos. Depois, informe a sua equipe e outras partes interessadas. 

1.  Com o passar do tempo, você terá uma biblioteca de runbooks. À medida que essa biblioteca cresce, comece a trabalhar na automatização dos runbooks. 

 **Nível de esforço do plano de implementação:** baixo. O padrão mínimo para um runbook é um guia de texto detalhado. A automatização dos runbooks pode aumentar o esforço de implementação. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS02-BP02 Processos e procedimentos com proprietários identificados](ops_ops_model_def_proc_owners.md): os runbooks devem ter um proprietário responsável por mantê-los. 
+  [OPS07-BP04 Usar manuais para investigar problemas](ops_ready_to_support_use_playbooks.md): os runbooks e playbooks são semelhantes, com uma diferença importante: um runbook tem um resultado desejado. Em muitos casos, os runbooks são acionados depois que um playbook identifica uma causa raiz. 
+  [OPS10-BP01 Usar um processo para gerenciamento de eventos, incidentes e problemas](ops_event_response_event_incident_problem_process.md): os runbooks fazem parte de uma boa prática de gerenciamento de eventos, incidentes e problemas. 
+  [OPS10-BP02 Ter um processo por alerta](ops_event_response_process_per_alert.md): os runbooks e playbooks devem ser usados para responder a alertas. Com o tempo, essas reações devem ser automatizadas. 
+  [OPS11-BP04 Executar o gerenciamento de conhecimento](ops_evolve_ops_knowledge_management.md): a manutenção dos runbooks é essencial para o gerenciamento de conhecimento. 

 **Documentos relacionados:** 
+ [Como alcançar excelência operacional usando playbooks e runbooks automatizados](https://aws.amazon.com/blogs/mt/achieving-operational-excellence-using-automated-playbook-and-runbook/) 
+ [AWS Systems Manager: trabalhar com runbooks](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html) 
+ [Playbook para grandes migrações da AWS - Tarefa 4: Como melhorar runbooks de migração](https://docs.aws.amazon.com/prescriptive-guidance/latest/large-migration-migration-playbook/task-four-migration-runbooks.html) 
+ [Como usar runbooks do AWS Systems Manager Automation para resolver tarefas operacionais](https://aws.amazon.com/blogs/mt/use-aws-systems-manager-automation-runbooks-to-resolve-operational-tasks/) 

 **Vídeos relacionados:** 
+  [AWS re:Invent 2019: DIY guide to runbooks, incident reports, and incident response (SEC318-R1) (Guia DIY para runbooks, relatórios de incidentes e resposta a incidentes)](https://www.youtube.com/watch?v=E1NaYN_fJUo) 
+  [How to automate IT Operations on AWS \$1 Amazon Web Services (Como automatizar operações de TI na AWS \$1 Amazon Web Services)](https://www.youtube.com/watch?v=GuWj_mlyTug) 
+  [Integrate Scripts into AWS Systems Manager (Integração de scripts no AWS Systems Manager)](https://www.youtube.com/watch?v=Seh1RbnF-uE) 

 **Exemplos relacionados:** 
+  [AWS Systems Manager: demonstrações de automação](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk.html) 
+  [AWS Systems Manager: runbook para restaurar um volume raiz usando o snapshot mais recente](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-document-sample-restore.html)
+  [Criar um runbook de resposta a incidentes da AWS usando cadernos Jupyter e CloudTrail Lake](https://catalog.us-east-1.prod.workshops.aws/workshops/a5801f0c-7bd6-4282-91ae-4dfeb926a035/en-US) 
+  [Gitlab: runbooks](https://gitlab.com/gitlab-com/runbooks) 
+  [Rubix: uma biblioteca de Python para criação de runbooks em cadernos Jupyter](https://github.com/Nurtch/rubix) 
+  [Como usar o gerador de documentos para criar um runbook personalizado](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk-document-builder.html) 
+  [Well-Architected Labs: automatização de operações com playbooks e runbooks](https://wellarchitectedlabs.com/operational-excellence/200_labs/200_automating_operations_with_playbooks_and_runbooks/) 

 **Serviços relacionados:** 
+  [AWS Systems Manager Automation](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html) 

# OPS07-BP04 Usar manuais para investigar problemas
<a name="ops_ready_to_support_use_playbooks"></a>

 Os manuais são guias detalhados usados para investigar incidentes. Quando incidentes ocorrem, os manuais são usados para investigar, definir o escopo do impacto e identificar a causa raiz. Os manuais são usados em diversos cenários, desde falhas em implantações até incidentes de segurança. Em muitos casos, os manuais identificam a causa raiz mitigada por um runbook. Os manuais são essenciais aos planos de resposta a incidentes de sua organização. 

 Um bom manual abrange vários aspectos principais. Ele guia o usuário, detalhadamente, ao longo do processo de descoberta. Considerando várias perspectivas, quais etapas devem ser seguidas para diagnosticar um incidente? Defina claramente no manual se são necessárias ferramentas especiais ou permissões elevadas. Ter um plano de comunicação para atualizar as partes interessadas sobre o status da investigação é essencial. Em situações em que a causa raiz ainda não foi identificada, o manual deve ter um plano de escalação. Se a causa raiz tiver sido identificada, o manual deverá indicar um runbook que descreva como resolvê-la. Os manuais devem ser armazenados em um local central e atualizados com frequência. Caso os manuais sejam usados para alertas específicos, forneça às equipes indicadores para o manual no alerta. 

 À medida que sua organização for amadurecendo, automatize seus manuais. Comece com manuais que abordem incidentes de baixo risco. Use scripts para automatizar as etapas de descoberta. Tenha runbooks complementares para mitigar as causas raízes comuns. 

 **Resultado desejado:** Sua organização tem manuais para incidentes comuns. Os manuais são armazenados em um local central e estão disponíveis para os membros da equipe. Os manuais são atualizados com frequência. São criados runbooks complementares para todas as causas raízes conhecidas. 

 **Antipadrões comuns:** 
+  Não há uma maneira padrão de investigar um incidente. 
+  Os membros da equipe precisam confiar na própria memória ou no conhecimento institucional para solucionar uma falha na implantação. 
+  Os novos membros da equipe aprendem a investigar os problemas por meio de tentativa e erro. 
+  As práticas recomendadas para a investigação dos problemas não são compartilhadas entre as equipes. 

 **Benefícios de estabelecer esta prática recomendada:** 
+  Os manuais impulsionam seus esforços para mitigar os incidentes. 
+  Diferentes membros da equipe podem usar o mesmo manual para identificar uma causa raiz de maneira consistente. 
+  As causas raízes conhecidas podem ter runbooks desenvolvidos para elas, o que acelera o tempo de recuperação. 
+  Os manuais permitem que os membros da equipe comecem a contribuir o quanto antes. 
+  As equipes podem escalar seus processos com manuais repetíveis. 

 **Nível de risco exposto se essa prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 A maneira que você cria e usa os manuais depende da maturidade de sua organização. Se você é iniciante na nuvem, crie manuais no formato de texto em um repositório central de documentos. À medida que sua organização amadurecer, os manuais poderão passar a ser semiautomatizados com linguagens de script, como Python. Esses scripts podem ser executados em um caderno Jupyter para acelerar a descoberta. As organizações avançadas têm manuais totalmente automatizados para problemas comuns que são corrigidos automaticamente com runbooks. 

 Comece a criar seus manuais listando incidentes comuns que ocorrem com sua workload. Para começar, escolha manuais para incidentes com baixo risco e nos quais a causa raiz tenha sido restrita a poucos problemas. Quando você tiver manuais para os cenários mais simples, passe para cenários de alto risco ou cenários em que a causa raiz não seja bem conhecida. 

 Seus manuais em texto deverão ser automatizados à medida que sua organização amadurecer. Usando serviços, como o [AWS Systems Manager Automations](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html), um texto sem formatação pode ser transformado em automações. Essas automações podem ser executadas em sua workload para acelerar as investigações. Elas podem ser ativadas em resposta a eventos, o que reduz o tempo necessário para descobrir e resolver incidentes. 

 Os clientes podem usar o [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) para responder a incidentes. Esse serviço fornece uma interface única para fazer a triagem de incidentes, informar as partes interessas durante a descoberta e a mitigação e colaborar durante todo o incidente. Ele usa o AWS Systems Manager Automations para acelerar a detecção e a recuperação. 

 **Exemplo de cliente** 

 Um incidente na produção afetou a Loja UmaEmpresa. O engenheiro de plantão usou um manual para investigar o problema. À medida que foi avançando pelas etapas, ele manteve atualizadas as principais partes interessadas, identificadas no manual. O engenheiro identificou a causa raiz como uma condição de corrida em um serviço de back-end. Usando um runbook, o engenheiro reiniciou o serviço, colocando a Loja UmaEmpresa online novamente. 

## Etapas da implementação
<a name="implementation-steps"></a>

 Se você não tem um repositório de documentos, sugerimos criar um repositório de controle de versão para a biblioteca do manual. É possível criar os manuais usando o Markdown, que é compatível com a maioria dos sistemas de automação de manuais. Se você estiver iniciando do zero, use o modelo de exemplo de manual a seguir. 

```
# Título do manual ## Informações do manual | ID do manual | Descrição | Ferramentas usadas | Permissões especiais | Autor do manual | Última atualização | Ponto de contato de escalação | Partes interessadas | Plano de comunicação | |-------|-------|-------|-------|-------|-------|-------|-------|-------| | RUN001 | Para que é este manual? Ele é usado para qual incidente? | Ferramentas | Permissões | Seu nome | 21/9/2022 | Nome para escalação | Nome da parte interessada | Como as atualizações serão comunicadas durante a investigação? | ## Etapas 1. Etapa um 2. Etapa dois
```

1.  Se você não tiver um repositório de documentos ou uma wiki, crie um repositório de controle de versão para seus manuais no sistema de controle de versão. 

1.  Identifique um problema comum que requer investigação. Ele deve ser um cenário em que a causa raiz esteja limitada a poucos problemas e a resolução seja de baixo risco. 

1.  Usando o modelo do Markdown, preencha a seção `Nome do manual` e os campos em `Informações do manual`. 

1.  Preencha as etapas de resolução de problemas. Seja o mais claro possível sobre quais ações devem ser executadas ou quais áreas devem ser investigadas. 

1.  Dê o manual a um membro da equipe e peça para essa pessoa analisá-lo a fim de validá-lo. Caso algo esteja faltando ou não esteja claro, atualize o manual. 

1.  Publique o manual no repositório de documentos e informe sua equipe e as partes interessadas. 

1.  Essa biblioteca de manuais crescerá à medida que você adicionar outros manuais. Quando você tiver vários manuais, comece a automatizá-los usando ferramentas como o AWS Systems Manager Automations a fim de manter a automação e os manuais sincronizados. 

 **Nível de esforço do plano de implementação:** Baixo. Os manuais devem ser documentos de texto armazenados em um local central. Organizações mais consolidadas passarão a automatizar os respectivos manuais. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS02-BP02 Processos e procedimentos com proprietários identificados](ops_ops_model_def_proc_owners.md): os manuais devem ter um proprietário responsável por mantê-los. 
+  [OPS07-BP03 Usar runbooks para realizar procedimentos](ops_ready_to_support_use_runbooks.md): os runbooks e os manuais são semelhantes, com uma diferença importante: um runbook tem um resultado desejado. Em muitos casos, os runbooks são usados quando um manual identifica uma causa raiz. 
+  [OPS10-BP01 Usar um processo para gerenciamento de eventos, incidentes e problemas](ops_event_response_event_incident_problem_process.md): os manuais fazem parte de uma boa prática de gerenciamento de eventos, incidentes e problemas. 
+  [OPS10-BP02 Ter um processo por alerta](ops_event_response_process_per_alert.md): os runbooks e manuais devem ser usados para responder a alertas. Com o tempo, essas reações devem ser automatizadas. 
+  [OPS11-BP04 Executar o gerenciamento de conhecimento](ops_evolve_ops_knowledge_management.md): a manutenção dos manuais é essencial para o gerenciamento de conhecimento. 

 **Documentos relacionados:** 
+ [ Achieving Operational Excellence using automated playbook and runbook (Como alcançar excelência operacional usando manuais e runbooks automatizados) ](https://aws.amazon.com/blogs/mt/achieving-operational-excellence-using-automated-playbook-and-runbook/)
+  [AWS Systems Manager: Working with runbooks ( AWS Systems Manager: trabalho com runbooks)](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html) 
+ [ Use AWS Systems Manager Automation runbooks to resolve operational tasks (Usar runbooks do AWS Systems Manager Automation para resolver tarefas operacionais) ](https://aws.amazon.com/blogs/mt/use-aws-systems-manager-automation-runbooks-to-resolve-operational-tasks/)

 **Vídeos relacionados:** 
+ [AWS re:Invent 2019: DIY guide to runbooks, incident reports, and incident response (SEC318-R1) (Guia DIY para runbooks, relatórios de incidentes e resposta a incidentes) ](https://www.youtube.com/watch?v=E1NaYN_fJUo)
+ [AWS Systems Manager Incident Manager - AWS Virtual Workshops (AWS Systems Manager Incident Manager - workshops virtuais da AWS) ](https://www.youtube.com/watch?v=KNOc0DxuBSY)
+ [ Integrate Scripts into AWS Systems Manager (Integração de scripts no AWS Systems Manager) ](https://www.youtube.com/watch?v=Seh1RbnF-uE)

 **Exemplos relacionados:** 
+ [AWS Customer Playbook Framework (Framework do manual do cliente daAWS) ](https://github.com/aws-samples/aws-customer-playbook-framework)
+ [AWS Systems Manager: Automation walkthroughs (AWS Systems Manager: demonstrações de automação) ](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk.html)
+ [ Building an AWS incident response runbook using Jupyter notebooks and CloudTrail Lake (Criar um runbook de resposta a incidentes da AWS usando cadernos Jupyter e o CloudTrail Lake) ](https://catalog.workshops.aws/workshops/a5801f0c-7bd6-4282-91ae-4dfeb926a035/en-US)
+ [ Rubix – A Python library for building runbooks in Jupyter Notebooks (Rubix: uma biblioteca de Python para criação de runbooks em cadernos Jupyter) ](https://github.com/Nurtch/rubix)
+ [ Using Document Builder to create a custom runbook (Como usar o gerador de documentos para criar um runbook personalizado) ](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk-document-builder.html)
+ [ Well-Architected Labs: Automating operations with Playbooks and Runbooks (Well-Architected Labs: automatização de operações com manuais e runbooks) ](https://wellarchitectedlabs.com/operational-excellence/200_labs/200_automating_operations_with_playbooks_and_runbooks/)
+ [ Well-Architected Labs: Incident response playbook with Jupyter (Well-Architected Labs: manual de resposta a incidentes com o Jupyter) ](https://www.wellarchitectedlabs.com/security/300_labs/300_incident_response_playbook_with_jupyter-aws_iam/)

 **Serviços relacionados:** 
+ [AWS Systems Manager Automation ](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html)
+ [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html)

# OPS07-BP05 Tomar decisões embasadas para implantar sistemas e alterações
<a name="ops_ready_to_support_informed_deploy_decisions"></a>

 Avalie os recursos da equipe para oferecer suporte à carga de trabalho e à conformidade da carga de trabalho com a governança. Avalie isso em relação aos benefícios da implantação ao determinar se deseja fazer a transição para um sistema ou mudar para produção. Compreenda os benefícios e riscos para tomar decisões informadas. 

 Uma estratégia pre-mortem é um exercício em que uma equipe simula uma falha para desenvolver estratégias de mitigação. Use estratégias pre-mortem para prever falhas e criar procedimentos, quando apropriado. Ao fazer alterações nas listas de verificação usadas para avaliar suas cargas de trabalho, planeje o que você fará com sistemas ativos que não estejam mais em conformidade. 

 **Antipadrões comuns:** 
+  Decidir implantar uma carga de trabalho sem entender os riscos de segurança presentes na carga de trabalho. 
+  Decidir implantar uma carga de trabalho sem entender se ela está em conformidade com sua governança e seus padrões. 
+  Decidir implantar uma carga de trabalho sem entender se sua equipe pode oferecer suporte a ela. 
+  Decidir implantar uma carga de trabalho sem entender como ela beneficia a organização. 

 **Benefícios do estabelecimento desta prática recomendada:** Ter membros da equipe qualificados possibilita o suporte eficaz da sua carga de trabalho. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Baixo 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Tomar decisões embasadas para implantar workloads e alterações: avalie os recursos da equipe para apoiar a workload e a conformidade da workload com a governança. Avalie isso em relação aos benefícios da implantação ao determinar se deseja fazer a transição para um sistema ou mudar para produção. Compreenda os benefícios e riscos e tome decisões informadas.