

# OPS04-BP04 Implementar a telemetria de dependências
<a name="ops_observability_dependency_telemetry"></a>

 A telemetria de dependências é essencial para monitorar a integridade e a performance dos serviços e componentes externos dos quais a workload depende. Ela fornece insights valiosos sobre acessibilidade, tempos limite e outros eventos críticos relacionados a dependências, como DNS, bancos de dados ou APIs de terceiros. Ao instrumentar sua aplicação para emitir métricas, logs e rastreamentos sobre essas dependências, você adquire uma compreensão mais clara dos possíveis gargalos, problemas de performance ou falhas que podem afetar a workload. 

 **Resultado desejado:** as dependências das quais a workload depende estão funcionando conforme o esperado, permitindo que você resolva problemas de forma proativa e garanta a performance ideal da workload. 

 **Práticas comuns que devem ser evitadas:** 
+  **Negligenciar as dependências externas:** focar apenas nas métricas internas da aplicação e negligenciar as métricas relacionadas às dependências externas. 
+  **Ausência de monitoramento proativo**: aguardar o surgimento de problemas em vez de monitorar continuamente a integridade e a performance da dependência. 
+  **Monitoramento em silos:** usar várias ferramentas de monitoramento diferentes, o que pode resultar em visualizações fragmentadas e inconsistentes da integridade da dependência. 

 **Benefícios de implementar esta prática recomendada:** 
+  **Maior confiabilidade da workload:** garantia de que as dependências externas estejam consistentemente disponíveis e tenham uma performance ideal. 
+  **Detecção e resolução mais rápidas de problemas:** identificação e resolução proativa de problemas com dependências antes que elas afetem a workload. 
+  **Visão abrangente:** obtenção de uma visão holística dos componentes internos e externos que influenciam a integridade da workload. 
+  **Escalabilidade aprimorada da workload:** compreensão dos limites de escalabilidade e das características de performance das dependências externas. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Alto 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Implemente a telemetria de dependências começando com a identificação dos serviços, da infraestrutura e dos processos dos quais a workload depende. Quantifique quais são as boas condições quando essas dependências estão funcionando conforme o esperado e determine quais dados serão necessários para medi-las. Com essas informações, você pode criar painéis e alertas que forneçam insights para suas equipes de operações sobre o estado dessas dependências. Use ferramentas da AWS para descobrir e quantificar os impactos quando as dependências não tiverem a performance necessária. Revise continuamente sua estratégia para considerar as mudanças nas prioridades, metas e insights obtidos. 

### Etapas de implementação
<a name="implementation-steps"></a>

 Para implementar a telemetria de dependências de forma eficaz: 

1.  **Identifique dependências externas:** colabore com as partes interessadas para identificar as dependências externas das quais a workload depende. As dependências externas podem abranger serviços como bancos de dados externos, APIs de terceiros, rotas de conectividade de rede para outros ambientes e serviços de DNS. O primeiro passo para uma telemetria de dependências eficaz é entender de forma abrangente quais são essas dependências. 

1.  **Desenvolver uma estratégia de monitoramento:** depois de obter uma visão clara de suas dependências externas, elabore uma estratégia de monitoramento personalizada para elas. Isso envolve entender a importância de cada dependência, seu comportamento esperado e quaisquer contratos ou metas de nível de serviço associados (SLA ou SLTs). Configure alertas proativos para receber notificações sobre mudanças de status ou desvios de performance. 

1.  **Use o [monitoramento de rede](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Network-Monitoring-Sections.html):** use o [Internet Monitor](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-InternetMonitor.html) e o [Network Monitor](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/what-is-network-monitor.html) para obter informações abrangentes sobre as condições globais da Internet e da rede. Essas ferramentas ajudam você a entender e reagir a interrupções ou degradações de performance que afetam as dependências externas. 

1.  **Mantenha-se a par do [AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health/):** o AWS Health é a fonte de informações confiável sobre a integridade dos seus recursos da Nuvem AWS. Use o AWS Health para visualizar e receber notificações sobre quaisquer eventos de serviço atuais e alterações futuras, como eventos planejados de ciclo de vida, a fim de que possa tomar medidas para mitigar os impactos. 

   1.  [Crie notificações de eventos do AWS Health ajustados à finalidade](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) para canais de e-mail e chat por meio do [Notificações de Usuários da AWS](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) e integre-as programaticamente às [suas ferramentas de monitoramento e alerta por meio do Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) ou da [API do AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Para planejar e acompanhar o progresso de eventos de integridade que exijam ações, utilize o Amazon EventBridge ou a API do AWS Health para fazer a integração com ferramentas de gerenciamento de alterações ou de ITSM que você já esteja usando (como [Jira](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) ou [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)). 

   1.  Se você usar o AWS Organizations, habilite a [visualização da organização para o AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html) a fim de agregar eventos do AWS Health em todas as contas. 

1.  **Instrumente sua aplicação com o [AWS X-Ray](https://aws.amazon.com/xray/):** o AWS X-Ray fornece informações sobre a performance das aplicações e de suas respectivas dependências subjacentes. Ao rastrear as solicitações do início ao fim, você pode identificar gargalos ou falhas nos serviços ou componentes externos dos quais sua aplicação depende. 

1.  **Use o [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/):** esse serviço orientado por machine learning identifica problemas operacionais, prevê quando problemas críticos podem ocorrer e recomenda ações específicas a serem tomadas. Ele é inestimável para ter informações sobre dependências e determinar que elas não são a fonte dos problemas operacionais. 

1.  **Monitore regularmente:** monitore continuamente métricas e logs relacionados a dependências externas. Configure alertas para comportamento inesperado ou diminuição de performance. 

1.  **Valide após as alterações:** sempre que houver uma atualização ou alteração em qualquer uma das dependências externas, valide sua performance e verifique o alinhamento com os requisitos da sua aplicação. 

 **Nível de esforço do plano de implementação:** Médio 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS04-BP01 Definir KPIs da workload](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_identify_kpis.html) 
+  [OPS04-BP02 Implementar a telemetria de aplicações](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_application_telemetry.html) 
+  [OPS04-BP03 Implementar a telemetria de atividades dos usuários](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_customer_telemetry.html) 
+  [OPS04-BP05 Implementar a rastreabilidade das transações](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_dist_trace.html) 
+  [OP08-BP04 Criar alertas acionáveis](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_workload_observability_create_alerts.html) 

 **Documentos relacionados:** 
+  [Guia do usuário do Amazon Personal Health Dashboard](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) 
+  [Guia do usuário do AWS Internet Monitor](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-InternetMonitor.html) 
+  [AWS X-Ray Guia do desenvolvedor](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [Guia do usuário do AWS DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 

 **Vídeos relacionados:** 
+  [Visibilidade sobre como as questões da Internet afetam a performance de aplicações](https://www.youtube.com/watch?v=Kuc_SG_aBgQ) 
+  [Introdução ao Amazon DevOps Guru](https://www.youtube.com/watch?v=2uA8q-8mTZY) 
+  [Gerenciar eventos do ciclo de vida dos recursos em grande escala com o AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA) 

 **Exemplos relacionados:** 
+  [AWS Health Aware](https://github.com/aws-samples/aws-health-aware/) 
+  [Usar a filtragem baseada em tags para gerenciar o monitoramento e os alertas do AWS Health em grande escala](https://aws.amazon.com/blogs/mt/using-tag-based-filtering-to-manage-health-monitoring-and-alerting-at-scale/) 