

# OPS 9. Como compreender a integridade das suas operações?
<a name="ops-09"></a>

 Defina, capture e analise as métricas de operações para obter visibilidade dos eventos de operações, para que você possa tomar as ações apropriadas. 

**Topics**
+ [

# OPS09-BP01 Medir metas operacionais e KPIs com métricas
](ops_operations_health_measure_ops_goals_kpis.md)
+ [

# OPS09-BP02 Comunicar o status e as tendências para garantir a visibilidade da operação
](ops_operations_health_communicate_status_trends.md)
+ [

# OPS09-BP03 Revisar as métricas operacionais e priorizar melhorias
](ops_operations_health_review_ops_metrics_prioritize_improvement.md)

# OPS09-BP01 Medir metas operacionais e KPIs com métricas
<a name="ops_operations_health_measure_ops_goals_kpis"></a>

 Obtenha metas e KPIs que definam o sucesso das operações de sua organização e determine se as métricas os refletem. Defina linhas de base como ponto de referência e reavalie regularmente. Desenvolva mecanismos para coletar essas métricas das equipes para avaliação. As métricas de [DevOps Research and Assessment (DORA)](https://dora.dev/guides/dora-metrics-four-keys/) fornecem um método popular para medir o progresso em relação às práticas de DevOps de entrega de software. 

 **Resultado desejado:** 
+ A organização publica e compartilha as metas e os KPIs das equipes de operação.
+ Você estabelece métricas que refletem esses KPIs. Os exemplos podem incluir:
  +  Profundidade da fila de tíquetes ou idade média do tíquete 
  +  Contagem de tíquetes agrupada por tipo de problema 
  +  Tempo gasto trabalhando em problemas com ou sem um procedimento operacional padronizado (SOP) 
  +  Tempo gasto na recuperação de uma falha no envio de código 
  +  Volume de chamadas 

 **Práticas comuns que devem ser evitadas:** 
+  Os prazos de implantação são perdidos porque os desenvolvedores são contratados para realizar tarefas de solução de problemas. As equipes de desenvolvimento demandam mais pessoal, mas não conseguem quantificar quantos precisam porque o tempo perdido não pode ser medido. 
+  Um atendimento de Nível 1 foi configurado para lidar com chamadas de usuários. Com o tempo, mais workloads foram adicionadas, mas nenhum número de funcionários foi alocado para o atendimento de Nível 1. A satisfação do cliente sofre à medida que os tempos de atendimento aumentam e os problemas ficam mais tempo sem resolução, mas a gerência não vê indicadores disso, impedindo qualquer ação. 
+  Uma workload problemática foi transferida para uma equipe de operações separada para manutenção. Diferentemente de outras workloads, a nova não foi fornecida com documentação e runbooks adequados. Dessa forma, as equipes passam mais tempo solucionando problemas e lidando com falhas. No entanto, não há métricas que documentem isso, o que dificulta a prestação de contas. 

 **Benefícios de implementar esta prática recomendada:** quando o monitoramento da workload mostra o estado de nossas aplicações e serviços, as equipes de operações de monitoramento oferecem aos proprietários insights sobre mudanças entre os consumidores dessas workloads, como mudanças nas necessidades de negócios. Meça a eficácia dessas equipes e avalie-as em relação às metas de negócios, criando métricas que possam refletir o estado das operações. As métricas podem destacar problemas de suporte ou identificar quando há desvios de uma meta de nível de serviço. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

Agende um horário com líderes de negócios e partes interessadas para determinar quais serão as metas gerais do serviço. Determine quais devem ser as tarefas de várias equipes de operações e quais desafios elas podem enfrentar. Com isso, pense em indicadores-chave de performance (KPIs) que possam refletir essas metas operacionais. Pode ser a satisfação do cliente, o tempo decorrido da concepção à implantação do recurso, o tempo médio de resolução de problemas ou eficiências de custo.

 Trabalhando a partir de KPIs, identifique as métricas e as fontes de dados que podem refletir melhor essas metas. A satisfação do cliente pode ser uma combinação de várias métricas, como tempos de espera ou resposta de chamadas, índices de satisfação e tipos de problemas levantados. Os tempos de implantação podem ser a soma do tempo necessário para testes e implantação e quaisquer correções pós-implantação que precisem ser adicionadas. As estatísticas que mostram o tempo gasto em diferentes tipos de problemas (ou a contagem desses problemas) podem fornecer uma visão de onde é necessário um esforço direcionado. 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+ [ Quick: Usar KPIs ](https://docs.aws.amazon.com/quicksight/latest/user/kpi.html)
+ [ Amazon CloudWatch: usar métricas ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)
+ [ Criar painéis ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Como rastrear KPIs de otimização de custos com o painel de KPI ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [AWS DevOps Guidance](https://docs.aws.amazon.com/wellarchitected/latest/devops-guidance/devops-guidance.html)

 **Exemplos relacionados:** 
+ [Monitor the performance of your software delivery using native AWS monitoring and observability tools](https://catalog.us-east-1.prod.workshops.aws/workshops/3b7f3d77-c6ef-44b2-aa29-d2719b8be897/en-US)
+ [Equilibre a velocidade de implantação e a estabilidade com as métricas do DORA](https://aws.amazon.com/blogs/devops/balance-deployment-speed-and-stability-with-dora-metrics/)
+ [Exemplo de métricas operacionais de MLOps no setor de serviços financeiros](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-unlock-value-data-financial-services/operational-metrics.html)
+ [ Como rastrear KPIs de otimização de custos com o painel de KPI ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)

# OPS09-BP02 Comunicar o status e as tendências para garantir a visibilidade da operação
<a name="ops_operations_health_communicate_status_trends"></a>

 É necessário conhecer o estado de suas operações e a direção das tendências para identificar quando os resultados podem estar em risco, se trabalho adicional pode ou não receber apoio ou os efeitos que as mudanças causaram em suas equipes. Durante eventos operacionais, ter páginas de status que os usuários e as equipes operacionais possam consultar para obter informações pode reduzir a pressão nos canais de comunicação e disseminar informações de forma proativa. 

 **Resultado desejado:** 
+  Os líderes de operações têm uma visão rápida para ver em que tipo de volume de chamadas suas equipes estão operando e quais esforços podem estar em andamento, como implantações. 
+  Os alertas são disseminados para as partes interessadas e comunidades de usuários quando ocorrem impactos nas operações normais. 
+  A liderança da organização e as partes interessadas podem verificar uma página de status em resposta a um alerta ou impacto e obter informações sobre um evento operacional, como pontos de contato, informações sobre tíquetes e tempos estimados de recuperação. 
+  Os relatórios são disponibilizados para a liderança e outras partes interessadas para mostrar estatísticas operacionais, como volumes de chamadas durante um período de tempo, índices de satisfação do usuário, números de tíquetes pendentes e suas idades. 

 **Práticas comuns que devem ser evitadas:** 
+  Uma workload diminui, deixando um serviço indisponível. O volume de chamadas aumenta à medida que os usuários solicitam saber o que está acontecendo. Os gerentes aumentam o volume de solicitações para saber quem está resolvendo um problema. Várias equipes de operações duplicam esforços na tentativa de investigar. 
+  O desejo por uma nova capacidade faz com que vários funcionários sejam transferidos para um esforço de engenharia. Nenhum preenchimento é fornecido e os tempos de resolução de problemas aumentam. Essas informações não são capturadas e a liderança toma conhecimento do problema somente após várias semanas de comentários de insatisfação do usuário. 

 **Benefícios de implementar esta prática recomendada:** durante eventos operacionais em que a empresa é afetada, muito tempo e energia podem ser desperdiçados com a consulta de informações por várias equipes em uma tentativa de entender a situação. Ao estabelecer páginas de status e painéis amplamente divulgados, as partes interessadas podem obter rapidamente informações, como se um problema foi detectado ou não, quem liderou o problema ou quando é esperado um retorno às operações normais. Isso permite que os membros da equipe dediquem mais tempo à resolução de problemas e passem menos tempo comunicando o status a outras pessoas. 

 Além disso, painéis e relatórios podem fornecer informações aos tomadores de decisão e às partes interessadas para ver como as equipes de operações são capazes de responder às necessidades de negócios e como seus recursos estão sendo alocados. Isso é crucial para determinar se os recursos adequados estão disponíveis para apoiar os negócios. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Crie painéis que mostrem as principais métricas atuais para suas equipes de operações e as torne facilmente acessíveis, tanto para os líderes de operações quanto para a gerência. 

 Crie páginas de status que possam ser atualizadas rapidamente para mostrar quando um incidente ou evento está ocorrendo, quem é o proprietário e quem está coordenando a resposta. Compartilhe todas as etapas ou soluções alternativas que os usuários devem considerar nesta página e divulgue amplamente a localização. Incentive os usuários a verificar esse local primeiro quando confrontados com um problema desconhecido. 

 Colete e forneça relatórios que mostrem a integridade das operações ao longo do tempo e distribua-os aos líderes e tomadores de decisão para ilustrar o trabalho das operações junto com os desafios e as necessidades. 

 Compartilhe entre as equipes essas métricas e relatórios que melhor refletem as metas e os KPIs e onde eles foram influentes na promoção da mudança. Dedique tempo a essas atividades para aumentar a importância das operações dentro das equipes e entre elas. 

 Use o [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) com seus próprios painéis ou integre eventos do AWS Health a eles, para que suas equipes possam correlacionar os problemas da aplicação ao status do serviço da AWS. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+ [OPS09-BP01 Medir metas operacionais e KPIs com métricas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_measure_ops_goals_kpis.html)

 **Documentos relacionados:** 
+ [Avaliar o progresso](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-cloud-operating-model/measure-progress.html)
+ [Criar painéis para visibilidade da operação](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)

 **Exemplos relacionados:** 
+ [Operações de dados](https://aws.amazon.com/solutions/app-development/data-operations)
+ [Como rastrear KPIs de otimização de custos com o painel de KPI](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [A importância dos indicadores-chave de performance (KPIs) para migrações para a nuvem em grande escala](https://aws.amazon.com/blogs/mt/the-importance-of-key-performance-indicators-kpis-for-large-scale-cloud-migrations/)

# OPS09-BP03 Revisar as métricas operacionais e priorizar melhorias
<a name="ops_operations_health_review_ops_metrics_prioritize_improvement"></a>

 Reservar tempo e dedicar recursos para analisar o estado das operações garante que atender à linha de negócios do dia a dia continue sendo uma prioridade. Reúna líderes de operações e partes interessadas para revisar regularmente as métricas, reafirmar ou modificar metas e objetivos e priorizar melhorias. 

 **Resultado desejado:** 
+  Os líderes de operações e a equipe se reúnem regularmente para revisar as métricas durante um determinado período de relatório. Os desafios são comunicados, as vitórias são celebradas e as lições aprendidas são compartilhadas. 
+  As partes interessadas e os líderes de negócios são regularmente informados sobre o estado das operações e solicitados a fornecer informações sobre metas, KPIs e iniciativas futuras. As compensações entre prestação de serviços, operações e manutenção são discutidas e contextualizadas. 

 **Práticas comuns que devem ser evitadas:** 
+  Um novo produto é lançado, mas as equipes operacionais de nível 1 e nível 2 não são adequadamente treinadas para prestar suporte nem recebem pessoal adicional. Métricas que mostram a diminuição nos tempos de resolução de tíquetes e o aumento nos volumes de incidentes não são vistas pelos líderes. Uma ação é tomada semanas depois, quando os números de assinaturas começam a cair à medida que usuários insatisfeitos saem da plataforma. 
+  Um processo manual para realizar a manutenção de uma workload está em vigor há muito tempo. Embora o desejo de automatizar estivesse presente, essa era uma prioridade baixa, considerando a baixa importância do sistema. No entanto, com o tempo, o sistema cresceu em importância e agora esses processos manuais consomem a maior parte do tempo das operações. Nenhum recurso está agendado para fornecer mais ferramentas às operações, causando o esgotamento da equipe à medida que as workloads aumentam. A liderança percebe o que está acontecendo quando é relatado que funcionários estão indo trabalhar para outros concorrentes. 

 **Benefícios de implementar esta prática recomendada:** em algumas organizações, pode ser um desafio alocar o mesmo tempo e atenção dedicados à prestação de serviços e a novos produtos ou ofertas. Quando isso ocorre, a linha de negócios pode sofrer enquanto o nível de serviço esperado se deteriora lentamente. Isso ocorre porque as operações não mudam e evoluem com o crescimento dos negócios e logo podem ser deixadas para trás. Sem uma análise regular dos insights que as operações coletam, o risco para a empresa pode se tornar visível somente quando for tarde demais. Ao alocar tempo para revisar métricas e procedimentos tanto entre a equipe de operações quanto com a liderança, o papel crucial que as operações desempenham permanece visível e os riscos podem ser identificados muito antes de atingirem níveis críticos. As equipes de operações obtêm uma visão melhor das mudanças e iniciativas comerciais iminentes, permitindo que esforços proativos sejam realizados. A visibilidade da liderança nas métricas operacionais mostra o papel que essas equipes desempenham na satisfação do cliente, tanto interno quanto externo, e permite que ela avalie melhor as opções de prioridades ou garanta que as operações tenham tempo e recursos para mudar e evoluir com novas iniciativas de negócios e workload. 

 **Nível de risco exposto se esta prática recomendada não for estabelecida:** Médio 

## Orientação para implementação
<a name="implementation-guidance"></a>

 Dedique tempo para analisar as métricas operacionais entre as partes interessadas e as equipes operacionais e analisar os dados do relatório. Coloque esses relatórios nos contextos das metas e objetivos da organização para determinar se eles estão sendo cumpridos. Identifique fontes de ambiguidade onde as metas não são claras ou onde pode haver conflitos entre o que é pedido e o que é fornecido. 

 Identifique onde o tempo, as pessoas e as ferramentas podem ajudar nos resultados das operações. Determine quais KPIs isso afetaria e quais deveriam ser as metas de sucesso. Revise regularmente para garantir que as operações tenham recursos suficientes para apoiar a linha de negócios. 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+ [Amazon Athena](https://aws.amazon.com/athena/)
+ [Referência de métricas e dimensões do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html)
+ [Amazon Quick](https://aws.amazon.com/quicksight/)
+ [AWS Glue](https://aws.amazon.com/glue/)
+ [AWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html)
+ [Coletar métricas e logs de instâncias do Amazon EC2 e servidores on-premises com o agente do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html)
+ [Usar métricas do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)