# REL13-BP05 Automatizar a recuperação
<a name="rel_planning_for_recovery_auto_recovery"></a>

 Implemente mecanismos de recuperação testados e automatizados que sejam confiáveis, observáveis e reproduzíveis para reduzir o risco e o impacto comercial da falha. 

 **Resultado desejado:** você implementou um fluxo de trabalho de automação bem documentado, padronizado e completamente testado para processos de recuperação. Sua automação de recuperação corrige automaticamente pequenos problemas que apresentam baixo risco de perda ou indisponibilidade de dados. Você pode invocar rapidamente processos de recuperação para incidentes graves, observar o comportamento de remediação enquanto eles operam e encerrar os processos se observar situações perigosas ou falhas. 

 **Práticas comuns que devem ser evitadas:** 
+  Você depende de componentes ou mecanismos que estão em estado de falha ou degradação como parte do seu plano de recuperação. 
+  Seus processos de recuperação exigem intervenção manual, como acesso ao console (também conhecido como *operações de clique*). 
+  Você inicia automaticamente os procedimentos de recuperação em situações que apresentam um alto risco de perda ou indisponibilidade de dados. 
+  Você não inclui um mecanismo para abortar um procedimento de recuperação (como um *cabo Andon* ou um *grande botão vermelho de parada*) que não está funcionando ou que apresenta riscos adicionais. 

 **Benefícios de implementar essa prática recomendada:** 
+  Maior confiabilidade, previsibilidade e consistência das operações de recuperação. 
+  Capacidade de atingir objetivos de recuperação mais rigorosos, incluindo Objetivo de Tempo de Recuperação (RTO) e Objetivo de Ponto de Recuperação (RPO). 
+  Probabilidade reduzida de falha na recuperação durante um incidente. 
+  Risco reduzido de falhas associadas a processos de recuperação manual propensos a erros humanos. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Para implementar a recuperação automatizada, você precisa de uma abordagem abrangente que use serviços da AWS e práticas recomendadas. Para começar, identifique componentes críticos e possíveis pontos de falha em sua workload. Desenvolva processos automatizados que possam recuperar suas workloads e dados de falhas sem intervenção humana. 

 Desenvolva a automação da recuperação usando princípios de infraestrutura como código (IaC). Isso torna seu ambiente de recuperação consistente com o ambiente de origem e permite o controle de versão de seus processos de recuperação. Para orquestrar fluxos de trabalho de recuperação complexos, considere soluções como o [AWS Systems Manager Automation](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html) ou o [AWS Step Functions](https://aws.amazon.com/step-functions/). 

 A automação de processos de recuperação oferece benefícios significativos e pode facilitar o alcance do objetivo de tempo de recuperação (RTO) e do objetivo de ponto de recuperação (RPO). No entanto, podem ocorrer situações inesperadas que podem provocar falhas ou criar novos riscos, como tempo de inatividade adicional e perda de dados. Para mitigar esse risco, forneça a capacidade de interromper rapidamente uma automação de recuperação em andamento. Uma vez interrompida, você pode investigar e tomar medidas corretivas. 

 Para workloads compatíveis, considere soluções como o AWS Elastic Disaster Recovery (AWS DRS) para fornecer failover automatizado. AWS O DRS replica continuamente suas máquinas (incluindo o sistema operacional, a configuração do estado do sistema, bancos de dados, aplicações e arquivos) em uma área de armazenamento de baixo custo em sua Conta da AWS de destino e região preferida. Se ocorrer um incidente, o AWS DRS automatiza a conversão de seus servidores replicados em workloads totalmente provisionadas em sua região de recuperação na. AWS 

 A manutenção e o aprimoramento da recuperação automatizada são um processo contínuo. Teste e refine continuamente os procedimentos de recuperação com base nas lições aprendidas e mantenha-se atualizado sobre novos serviços e recursos da AWS que podem aprimorar os recursos de recuperação. 

### Etapas de implementação
<a name="implementation-steps"></a>

1.  **Planeje a recuperação automatizada** 

   1.  Faça uma análise completa da arquitetura, dos componentes e das dependências da workload para identificar e planejar mecanismos de recuperação automatizados. Categorize as dependências da workload em dependências *rígidas* e *flexíveis*. Dependências rígidas são aquelas sem as quais a workload não pode operar e para as quais nenhum substituto pode ser fornecido. Dependências flexíveis são aquelas que a workload normalmente usa, mas que são substituíveis por sistemas ou processos substitutos temporários ou que podem ser tratadas por meio de uma [degradação gradual](https://docs.aws.amazon.com/wellarchitected/latest/reliability-pillar/rel_mitigate_interaction_failure_graceful_degradation). 

   1.  Estabeleça processos para identificar e recuperar dados perdidos ou corrompidos. 

   1.  Defina as etapas para confirmar um estado estável recuperado após a conclusão das ações de recuperação. 

   1.  Considere todas as ações necessárias para preparar o sistema recuperado para o serviço completo, como pré-aquecimento e preenchimento de caches. 

   1.  Considere os problemas que podem ser encontrados durante o processo de recuperação e como detectá-los e corrigi-los. 

   1.  Considere cenários em que o local primário e o respectivo ambiente de gerenciamento estejam inacessíveis. Verifique se as ações de recuperação podem ser executadas de forma independente, sem depender do local primário. Considere soluções como o [Controlador de Recuperação de Aplicações (ARC) da Amazon](https://aws.amazon.com/application-recovery-controller/) para redirecionar o tráfego sem a necessidade de alterar manualmente os registros DNS. 

1.  **Desenvolva um processo de recuperação automatizado** 

   1.  Implemente mecanismos automatizados de detecção de falhas e failover para recuperação sem usar as mãos. Crie painéis, como com o [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/), para relatar o progresso e a integridade dos procedimentos automatizados de recuperação. Inclua procedimentos para validar a recuperação bem-sucedida. Forneça um mecanismo para abortar uma recuperação em andamento. 

   1.  Crie [manuais](https://docs.aws.amazon.com/wellarchitected/latest/reliability-pillar/rel_testing_resiliency_playbook_resiliency) como um processo alternativo para falhas que não podem ser recuperadas automaticamente e leve em consideração seu plano de recuperação de [desastres](https://aws.amazon.com/disaster-recovery/faqs/#Core_concepts). 

   1.  Teste os processos de recuperação conforme discutido em [REL13-BP03](https://docs.aws.amazon.com/wellarchitected/latest/framework/rel_planning_for_recovery_dr_tested.html). 

1.  **Prepare-se para a recuperação** 

   1.  Avalie o estado do seu local de recuperação e implante componentes essenciais nele com antecedência. Para conferir mais detalhes, consulte [REL13-BP04](https://docs.aws.amazon.com/wellarchitected/latest/reliability-pillar/rel_planning_for_recovery_config_drift.html). 

   1.  Defina funções, responsabilidades e processos de tomada de decisão claros para operações de recuperação, envolvendo partes interessadas e equipes relevantes em toda a organização. 

   1.  Defina as condições para iniciar seus processos de recuperação. 

   1.  Crie um plano para reverter o processo de recuperação e retornar ao local primário, se necessário ou depois que ele for considerado seguro. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [REL07-BP01 Usar automação ao obter ou escalar recursos](https://docs.aws.amazon.com/wellarchitected/latest/framework/rel_adapt_to_changes_autoscale_adapt.html) 
+  [REL11-BP01 Monitorar todos os componentes da workload para detectar falhas](https://docs.aws.amazon.com/wellarchitected/latest/framework/rel_withstand_component_failures_monitoring_health.html) 
+  [REL13-BP02 Usar estratégias de recuperação definidas para cumprir os objetivos de recuperação](https://docs.aws.amazon.com/wellarchitected/latest/reliability-pillar/rel_planning_for_recovery_disaster_recovery.html) 
+  [REL13-BP03 Testar a implementação da recuperação de desastres para validá-la](https://docs.aws.amazon.com/wellarchitected/latest/framework/rel_planning_for_recovery_dr_tested.html) 
+  [REL13-BP04 Gerenciar o desvio de configuração no local ou na região de recuperação de desastres](https://docs.aws.amazon.com/wellarchitected/latest/reliability-pillar/rel_planning_for_recovery_config_drift.html) 

 **Documentos relacionados:** 
+  [Blog de arquitetura da AWS: série de recuperação de desastres](https://aws.amazon.com/blogs/architecture/tag/disaster-recovery-series/) 
+  [Recuperação de desastres de workloads na AWS: recuperação na nuvem (whitepaper da AWS)](https://docs.aws.amazon.com/whitepapers/latest/disaster-recovery-workloads-on-aws/disaster-recovery-workloads-on-aws.html) 
+  [Orchestrate Disaster Recovery Automation using Amazon Route 53 ARC and AWS Step Functions](https://aws.amazon.com/blogs/networking-and-content-delivery/orchestrate-disaster-recovery-automation-using-amazon-route-53-arc-and-aws-step-functions/) 
+  [Build AWS Systems Manager Automation runbooks using AWS CDK](https://aws.amazon.com/blogs/mtbuild-aws-systems-manager-automation-runbooks-using-aws-cdk/) 
+  [AWS Marketplace: produtos que podem ser usados para recuperação de desastres](https://aws.amazon.com/marketplace/search/results?searchTerms=Disaster+recovery) 
+  [AWS Systems Manager Automation](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html) 
+  [AWS Elastic Disaster Recovery](https://aws.amazon.com/disaster-recovery/) 
+  [Usar o Elastic Disaster Recovery para failover e failback](https://docs.aws.amazon.com/drs/latest/userguide/failback.html) 
+  [Recursos do AWS Elastic Disaster Recovery](https://aws.amazon.com/disaster-recovery/resources/) 
+  [Parceiro da APN: parceiros que podem ajudar com a recuperação de desastres](https://aws.amazon.com/partners/find/results/?keyword=Disaster+Recovery) 

 **Vídeos relacionados:** 
+  [AWS re:Invent 2018: Padrões de arquitetura para aplicações ativas-ativas multirregiões (ARC209-R2)](https://youtu.be/2e29I3dA8o4) 
+  [AWS re:Invent 2022: AWS On Air ft. AWS Failback for AWS Elastic Disaster Recovery](https://youtu.be/Ok-vpV8b1Hs)