

# OPS 9. ¿Cómo hace para comprender el estado de las operaciones?
<a name="ops-09"></a>

 Defina, capture y analice las métricas de las operaciones para obtener visibilidad de los eventos de operaciones y poder tomar las medidas adecuadas. 

**Topics**
+ [

# OPS09-BP01 Medición de los objetivos operativos y los KPI con métricas
](ops_operations_health_measure_ops_goals_kpis.md)
+ [

# OPS09-BP02 Comunicación del estado y las tendencias para garantizar la visibilidad de la operación
](ops_operations_health_communicate_status_trends.md)
+ [

# OPS09-BP03 Revisión de las métricas de las operaciones y priorización de las mejoras
](ops_operations_health_review_ops_metrics_prioritize_improvement.md)

# OPS09-BP01 Medición de los objetivos operativos y los KPI con métricas
<a name="ops_operations_health_measure_ops_goals_kpis"></a>

 Obtenga objetivos y KPI que definan el éxito de las operaciones de su organización y determine las métricas que los reflejen. Establezca líneas de base como puntos de referencia y reevalúelas periódicamente. Desarrolle mecanismos para recopilar estas métricas de los equipos para su evaluación. Las métricas de [DevOps Research and Assessment (DORA)](https://dora.dev/guides/dora-metrics-four-keys/) proporcionan un método de uso extendido para medir el progreso en el uso de prácticas de DevOps de entrega de software. 

 **Resultado deseado:** 
+ La organización publica y comparte los objetivos y los KPI de los equipos de operaciones.
+ Establece métricas que reflejan estos KPI. Algunos ejemplos podrían ser:
  +  Profundidad de la cola de tickets o antigüedad media de los tickets. 
  +  Recuento de tickets agrupado por tipo de problema. 
  +  Tiempo dedicado a resolver problemas con o sin un procedimiento operativo estandarizado (SOP). 
  +  Cantidad de tiempo empleado en recuperarse de un error producido al introducir código. 
  +  Volumen de llamadas 

 **Patrones comunes de uso no recomendados:** 
+  No se cumplen los plazos de implementación porque los desarrolladores se ven obligados a llevar a cabo tareas de solución de problemas. Los equipos de desarrollo abogan por más personal, pero no pueden indicar cuántas personas necesitan porque no se puede medir el tiempo empleado. 
+  Se configuró un servicio de asistencia de nivel 1 para gestionar las llamadas de los usuarios. Con el tiempo, se agregaron más cargas de trabajo, pero no se asignó personal al servicio de asistencia de nivel 1. La satisfacción de los clientes se resiente a medida que aumenta la duración de las llamadas y los problemas tardan más en resolverse, pero la administración no ve ningún indicador de ello, lo que impide tomar medidas. 
+  Una carga de trabajo problemática se ha transferido a un equipo de operaciones independiente para su gestión. A diferencia de otras cargas de trabajo, esta nueva carga no se suministró con la documentación y los manuales de procedimientos adecuados. Por lo tanto, los equipos dedican más tiempo a solucionar problemas y hacer frente a errores. Sin embargo, no hay métricas que lo documenten, lo que dificulta la rendición de cuentas. 

 **Beneficios de establecer esta práctica recomendada:** mientras que la supervisión de la carga de trabajo muestra el estado de nuestras aplicaciones y servicios, la supervisión de los equipos de operaciones proporciona a los propietarios información sobre los cambios que se producen entre los consumidores de esas cargas de trabajo, como los cambios en las necesidades empresariales. Mida la eficacia de estos equipos y evalúelos con respecto a los objetivos empresariales mediante la creación de métricas que puedan reflejar el estado de las operaciones. Las métricas pueden resaltar los problemas de asistencia o identificar cuándo se producen desviaciones respecto a un objetivo de nivel de servicio. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
<a name="implementation-guidance"></a>

Programe tiempo con la dirección empresarial y las partes interesadas para determinar los objetivos generales del servicio. Determine cuáles deberían ser las tareas de los distintos equipos de operaciones y qué desafíos podrían presentárseles. Con estos, haga una lluvia de ideas sobre los indicadores clave de rendimiento (KPI) para reflejar los objetivos operativos. Podría ser la satisfacción del cliente, el tiempo transcurrido desde la concepción de la característica hasta la implementación, el tiempo medio de resolución de problemas o las eficiencias de costes.

 A partir de los KPI, identifique las métricas y los orígenes de datos que podrían reflejar mejor estos objetivos. La satisfacción del cliente podría ser una combinación de varios indicadores, como los tiempos de espera o respuesta de las llamadas, las puntuaciones de satisfacción y los tipos de problemas planteados. Los tiempos de implementación podrían ser la suma del tiempo necesario para las pruebas y la implementación, además de las correcciones posteriores a la implementación que deban agregarse. Las estadísticas que muestran el tiempo dedicado a diferentes tipos de problemas (o el recuento de esos problemas) pueden proporcionar una panorámica de dónde se necesita un esfuerzo específico. 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+ [Quick: uso de KPI ](https://docs.aws.amazon.com/quicksight/latest/user/kpi.html)
+ [ Uso de métricas de Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)
+ [ Creación de paneles ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ How to track your cost optimization KPIs with KPI Dashboard ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [Guía sobre AWS DevOps](https://docs.aws.amazon.com/wellarchitected/latest/devops-guidance/devops-guidance.html)

 **Ejemplos relacionados:** 
+ [Monitoree el rendimiento de su entrega de software mediante herramientas nativas de AWS de monitoreo y observabilidad](https://catalog.us-east-1.prod.workshops.aws/workshops/3b7f3d77-c6ef-44b2-aa29-d2719b8be897/en-US)
+ [Equilibre la velocidad y la estabilidad de la implementación con las métricas de DORA](https://aws.amazon.com/blogs/devops/balance-deployment-speed-and-stability-with-dora-metrics/)
+ [Ejemplo de métricas operativas de MLOP en el sector de servicios financieros](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-unlock-value-data-financial-services/operational-metrics.html)
+ [ How to track your cost optimization KPIs with the KPI Dashboard ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)

# OPS09-BP02 Comunicación del estado y las tendencias para garantizar la visibilidad de la operación
<a name="ops_operations_health_communicate_status_trends"></a>

 Es necesario conocer el estado de sus operaciones y la dirección de sus tendencias para identificar qué resultados corren peligro, si se puede respaldar o no el trabajo adicional o los efectos que los cambios han tenido en sus equipos. Durante los eventos de operaciones, disponer de páginas de estado que los usuarios y los equipos de operaciones puedan consultar para obtener información puede reducir la presión sobre los canales de comunicación y difundir la información de forma proactiva. 

 **Resultado deseado:** 
+  La dirección de operaciones puede ver de un vistazo el volumen de llamadas que reciben sus equipos y las actividades que se están llevando a cabo, como las implementaciones. 
+  Las alertas se difunden a las partes interesadas y las comunidades de usuarios cuando se producen repercusiones en las operaciones normales. 
+  La dirección de la organización y las partes interesadas pueden consultar una página de estado en respuesta a una alerta o una repercusión y obtener información sobre un evento operativo, como puntos de contacto, información de tickets y tiempos de recuperación estimados. 
+  Los informes se ponen a disposición de la dirección y otras partes interesadas para mostrar las estadísticas de las operaciones, como el volumen de llamadas durante un periodo de tiempo, las puntuaciones de satisfacción de los usuarios, el número de entradas pendientes y su antigüedad. 

 **Patrones comunes de uso no recomendados:** 
+  Una carga de trabajo deja de funcionar y un servicio no está disponible. El volumen de llamadas aumenta a medida que los usuarios quieren saber qué pasa. Los administradores contribuyen al aumento del volumen de solicitudes, pues quieren saber quién está trabajando en el problema. Varios equipos de operaciones duplican sus esfuerzos al tratar de investigar. 
+  El interés por una nueva capacidad lleva a la reasignación de varios miembros del personal a tareas de ingeniería. No se proporcionan refuerzos y los tiempos de resolución de problemas aumentan. Esta información no se recopila, y la dirección no se da cuenta del problema hasta después de varias semanas y de que los usuarios muestren su insatisfacción. 

 **Beneficios de establecer esta práctica recomendada:** durante los eventos operativos que afectan a la empresa, se puede desperdiciar mucho tiempo y energía solicitando información a varios equipos para intentar comprender la situación. Al establecer paneles y páginas de estado ampliamente difundidos, las partes interesadas pueden obtener rápidamente información sobre si se detectó o no un problema, quién se encarga del problema o cuándo se espera que las operaciones vuelvan a la normalidad. Esto evita que los miembros del equipo dediquen demasiado tiempo a comunicar su estado a los demás y dediquen más tiempo a abordar los problemas. 

 Además, los paneles y los informes pueden proporcionar información a los responsables de la toma de decisiones y a las partes interesadas para que evalúen cómo los equipos de operaciones pueden responder a las necesidades empresariales y cómo se asignan sus recursos. Esto es crucial para determinar si se cuenta con los recursos adecuados para respaldar a la empresa. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Cree paneles en los que se muestren las métricas clave actuales de sus equipos de operaciones y póngalos a disposición tanto de la dirección de operaciones como de la administración. 

 Cree páginas de estado que se puedan actualizar rápidamente para mostrar cuándo se produce un incidente o evento, quién es el propietario y quién coordina la respuesta. Comparta en esta página todos los pasos o soluciones que los usuarios deberían tener en cuenta y difunda ampliamente la ubicación. Anime a los usuarios a comprobar primero esta ubicación cuando se enfrenten a un problema desconocido. 

 Recopile y proporcione informes que muestren el estado de las operaciones a lo largo del tiempo y distribúyalos entre la dirección y los responsables de la toma de decisiones para ilustrar el trabajo de operaciones junto con los desafíos y las necesidades. 

 Comparta con los equipos las métricas e informes que mejor reflejen los objetivos y los KPI y en qué aspectos han influido a la hora de impulsar el cambio. Dedique tiempo a estas actividades para aumentar la importancia de las operaciones dentro de los equipos y entre ellos. 

 Utilice [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) junto a paneles propios o integre eventos de AWS Health en ellos para que los equipos puedan correlacionar los problemas de la aplicación con el estado del servicio AWS. 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+ [OPS09-BP01 Medición de los objetivos operativos y los KPI con métricas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_measure_ops_goals_kpis.html)

 **Documentos relacionados:** 
+ [Measure Progress](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-cloud-operating-model/measure-progress.html)
+ [La creación de paneles para la visibilidad operativa](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)

 **Ejemplos relacionados:** 
+ [Operaciones de datos](https://aws.amazon.com/solutions/app-development/data-operations)
+ [ How to track your cost optimization KPIs with KPI Dashboard ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [La importancia de los indicadores clave de rendimiento (KPI) para las migraciones a gran escala a la nube](https://aws.amazon.com/blogs/mt/the-importance-of-key-performance-indicators-kpis-for-large-scale-cloud-migrations/)

# OPS09-BP03 Revisión de las métricas de las operaciones y priorización de las mejoras
<a name="ops_operations_health_review_ops_metrics_prioritize_improvement"></a>

 Destinar tiempo y recursos dedicados a revisar el estado de las operaciones garantiza que atender la línea empresarial diaria siga siendo una prioridad. Reúna a la dirección de operaciones y las partes interesadas para revisar periódicamente las métricas, reafirmar o modificar las metas y los objetivos y dar prioridad a las mejoras. 

 **Resultado deseado:** 
+  La dirección y el personal de operaciones se reúnen periódicamente para revisar las métricas durante un periodo de informe determinado. Se comunican los desafíos, se celebran las victorias y se comparten las lecciones aprendidas. 
+  Las partes interesadas y la dirección empresarial reciben información periódica sobre el estado de las operaciones y se les pide su opinión sobre los objetivos, los KPI y las iniciativas futuras. Se analizan y contextualizan las compensaciones entre la prestación de servicios, las operaciones y el mantenimiento. 

 **Patrones comunes de uso no recomendados:** 
+  Se lanza un nuevo producto, pero los equipos de operaciones de nivel 1 y nivel 2 no cuentan con la formación adecuada para ofrecer soporte ni cuentan con personal adicional. La dirección no ve las métricas que muestran el empeoramiento de los tiempos de resolución de los tickets y el aumento del volumen de incidentes. No se toman medidas hasta que han transcurrido varias semanas, cuando el número de suscriptores comienza a caer porque los usuarios descontentos abandonan la plataforma. 
+  Hace mucho tiempo que existe un proceso manual para efectuar el mantenimiento de una carga de trabajo. Si bien había interés por automatizar, esta era una prioridad baja dada la poca importancia del sistema. Sin embargo, con el tiempo, el sistema ha ido ganando importancia y ahora estos procesos manuales consumen la mayor parte del tiempo de las operaciones. No hay recursos programados para proporcionar más herramientas a las operaciones, lo que provoca el agotamiento del personal a medida que aumentan las cargas de trabajo. La dirección se da cuenta cuando se les informa que el personal se va a la competencia. 

 **Beneficios de establecer esta práctica recomendada:** en algunas organizaciones, puede ser desafiante asignar el mismo tiempo y atención que se dedica a la prestación de servicios y a los nuevos productos u ofertas. Cuando esto ocurre, la línea empresarial puede resentirse a medida que el nivel de servicio esperado se deteriora lentamente. Esto se debe a que las operaciones no cambian ni evolucionan con el crecimiento de la empresa y pronto pueden quedarse rezagadas. Sin una revisión periódica de la información que recopilan las operaciones, es posible que el riesgo para la empresa solo resulte evidente cuando sea demasiado tarde. Al asignar tiempo para revisar las métricas y los procedimientos tanto entre el personal de operaciones como con la dirección, el papel crucial que desempeñan las operaciones permanece visible y los riesgos se pueden identificar mucho antes de que alcancen niveles críticos. Los equipos de operaciones obtienen una mejor perspectiva de los cambios e iniciativas empresariales inminentes, lo que permite llevar a cabo esfuerzos proactivos. La visibilidad de la dirección de las métricas de las operaciones muestra el papel que desempeñan estos equipos en la satisfacción del cliente, tanto interna como externa, y les permite sopesar mejor las opciones en función de las prioridades, o garantizar que las operaciones tengan el tiempo y los recursos para cambiar y evolucionar con las nuevas iniciativas empresariales y de carga de trabajo. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Dedique tiempo a revisar las métricas de las operaciones entre las partes interesadas y los equipos de operaciones y a revisar los datos de los informes. Analice estos informes en el contexto de las metas y los objetivos de la organización para determinar si se están cumpliendo. Identifique los orígenes de ambigüedad en los que las metas no estén claras o en las que pueda haber conflictos entre lo que se pide y lo que se da. 

 Identifique dónde pueden ayudar el tiempo, las personas y las herramientas a obtener resultados operativos. Determine a qué KPI afectaría esto y cuáles deberían ser los objetivos de éxito. Revisite todo esto periódicamente a fin de garantizar que las operaciones cuenten con los recursos suficientes para respaldar la línea empresarial. 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+ [ Amazon Athena ](https://aws.amazon.com/athena/)
+ [Referencia de métricas y dimensiones de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html)
+ [Amazon Quick](https://aws.amazon.com/quicksight/)
+ [AWS Glue](https://aws.amazon.com/glue/)
+ [AWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html)
+ [Recopilación de métricas y registros de instancias de Amazon EC2 y en los servidores en las instalaciones con el agente de Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html)
+ [Uso de métricas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)