# Excelencia operativa
Excelencia operativa

La excelencia operativa (OE) es el compromiso de crear software correctamente, al mismo tiempo que se ofrece de forma coherente una excelente experiencia de cliente. El pilar de excelencia operativa contiene las prácticas recomendadas para organizar su equipo, diseñar su carga de trabajo, ejecutarla a escala y hacerla evolucionar con el tiempo. Encontrará una guía prescriptiva acerca de la implementación en el [documento técnico sobre el pilar de excelencia operativa](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/welcome.html). 

**Topics**
+ [

# Organization
](a-organization.md)
+ [

# Prepare
](a-prepare.md)
+ [

# Operación
](a-operate.md)
+ [

# Evolución
](a-evolve.md)

# Organization
Organization

**Topics**
+ [

# OPS 1. ¿Cómo determina cuáles son sus prioridades?
](ops-01.md)
+ [

# OPS 2. ¿Cómo estructura su organización para respaldar los resultados empresariales?
](ops-02.md)
+ [

# OPS 3. ¿Cómo ayuda la cultura de su organización a lograr los resultados empresariales?
](ops-03.md)

# OPS 1. ¿Cómo determina cuáles son sus prioridades?


 Todos deben comprender su parte para lograr el éxito empresarial. Si se tienen objetivos compartidos, se podrán priorizar los recursos. Esto hará que los esfuerzos se traduzcan en un mayor rendimiento. 

**Topics**
+ [

# OPS01-BP01 Evaluación de las necesidades de los clientes externos
](ops_priorities_ext_cust_needs.md)
+ [

# OPS01-BP02 Evaluación de las necesidades de los clientes internos
](ops_priorities_int_cust_needs.md)
+ [

# OPS01-BP03 Evaluación de los requisitos de gobernanza
](ops_priorities_governance_reqs.md)
+ [

# OPS01-BP04 Evaluación de los requisitos de cumplimiento
](ops_priorities_compliance_reqs.md)
+ [

# OPS01-BP05 Evaluación del panorama de amenazas
](ops_priorities_eval_threat_landscape.md)
+ [

# OPS01-BP06 Evaluación de las compensaciones al administrar los beneficios y los riesgos
](ops_priorities_eval_tradeoffs.md)

# OPS01-BP01 Evaluación de las necesidades de los clientes externos
OPS01-BP01 Evaluación de las necesidades de los clientes externos

 Involucre a las partes interesadas clave, incluidos los equipos de negocio, desarrollo y operaciones, para determinar dónde centrar los esfuerzos en función de las necesidades de los clientes externos. De este modo, se asegurará de comprender a fondo el respaldo operativo que se requiere para lograr los resultados empresariales deseados. 

 **Resultado deseado:** 
+  Trabaja en sentido inverso a partir de los resultados de los clientes. 
+  Entiende cómo sus prácticas operativas respaldan los resultados y objetivos empresariales. 
+  Involucra a todas las partes pertinentes. 
+  Dispone de mecanismos para recopilar las necesidades de los clientes externos. 

 **Patrones comunes de uso no recomendados:** 
+  Ha decidido no ofrecer asistencia a los clientes fuera de las horas laborables centrales, pero no ha revisado los datos históricos de solicitud de asistencia. No sabe si esto afectará a sus clientes. 
+  Está desarrollando una característica nueva, pero no ha involucrado a sus clientes para saber si les interesa, y si les interesa, de qué forma, y tampoco ha experimentado para validar la necesidad y la forma de la entrega. 

 **Beneficios de establecer esta práctica recomendada:** es más probable que los clientes cuyas necesidades se satisfagan sigan siendo clientes. Evaluar y comprender las necesidades de los clientes externos le permitirá saber dónde centrar sus esfuerzos para aportar valor a la empresa. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 **Conozca los objetivos empresariales**: el éxito de una empresa se consigue por medio de metas compartidas y un entendimiento entre las partes interesadas, incluidos los equipos de negocio, desarrollo y operaciones. 

 **Revisión de los objetivos empresariales, las necesidades y las prioridades de los clientes externos:** involucre a las partes interesadas clave, incluidos los equipos de negocios, desarrollo y operaciones, para analizar los objetivos, las necesidades y las prioridades de los clientes externos. Esto garantiza que comprenda a fondo la asistencia operativa que se requiere para lograr los resultados de la empresa y de los clientes. 

 **Establecimiento de un entendimiento compartido:** establezca un entendimiento compartido de las funciones empresariales de la carga de trabajo, los roles de cada uno de los equipos que manejan la carga de trabajo y cómo estos factores facilitan sus objetivos empresariales compartidos entre los clientes internos y externos. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS11-BP03 Implementación de bucles de retroalimentación](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_feedback_loops.html) 

# OPS01-BP02 Evaluación de las necesidades de los clientes internos
OPS01-BP02 Evaluación de las necesidades de los clientes internos

 Para determinar dónde centrar los esfuerzos en función de las necesidades de los clientes internos, involucre a las partes interesadas clave, incluidos los equipos de negocios, desarrollo y operaciones. Así se asegurará de que comprende exhaustivamente la asistencia operativa que se requiere para lograr resultados comerciales. 

 **Resultado deseado:** 
+  Utiliza sus prioridades establecidas para centrar sus esfuerzos de mejora en las que tendrán mayor repercusión (por ejemplo, el desarrollo de las competencias del equipo, la mejora del rendimiento de la carga de trabajo, la reducción de los costos, la automatización de los manuales de procedimientos o la mejora de la supervisión). 
+  Actualiza sus prioridades a medida que cambian las necesidades. 

 **Patrones comunes de uso no recomendados:** 
+  Ha decidido cambiar las asignaciones de direcciones IP de sus equipos de producto, sin consultar con ellos, para facilitar la administración de su red. No sabe cómo afectará esto a sus equipos de producto. 
+  Está implementando una nueva herramienta de desarrollo, pero no ha involucrado a sus clientes internos para averiguar si es necesaria o si es compatible con sus prácticas actuales. 
+  Está implementando un nuevo sistema de supervisión, pero no ha contactado con sus clientes internos para averiguar si tienen necesidades de supervisión o de elaboración de informes que deban tenerse en cuenta. 

 **Beneficios de establecer esta práctica recomendada:** evaluar y comprender las necesidades internas de los clientes sirve de base para priorizar sus esfuerzos por ofrecer valor empresarial. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación
+  Conozca los objetivos empresariales: el éxito de una empresa se consigue por medio de metas compartidas y un entendimiento entre las partes interesadas, incluidos los equipos de negocio, desarrollo y operaciones. 
+  Revise los objetivos empresariales, las necesidades y las prioridades de los clientes internos: involucre a las partes interesadas clave, incluidos los equipos de negocios, desarrollo y operaciones, para analizar los objetivos, las necesidades y las prioridades de los clientes internos. Esto garantiza que comprenda a fondo la asistencia operativa que se requiere para lograr los resultados de la empresa y de los clientes. 
+  Establezca un entendimiento compartido: establezca un entendimiento compartido de las funciones empresariales de la carga de trabajo, los roles de cada uno de los equipos que manejan la carga de trabajo y cómo estos factores facilitan sus objetivos empresariales compartidos entre los clientes internos y externos. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:**
+  [OPS11-BP03 Implementación de bucles de retroalimentación](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_feedback_loops.html) 

# OPS01-BP03 Evaluación de los requisitos de gobernanza
OPS01-BP03 Evaluación de los requisitos de gobernanza

 La gobernanza es el conjunto de políticas, normas o marcos que utiliza una empresa para conseguir sus objetivos empresariales. Los requisitos de gobernanza se generan en su organización. Pueden afectar a los tipos de tecnologías que elija o influir en la forma de utilizar su carga de trabajo. Incorpore los requisitos de gobernanza de la organización a su carga de trabajo. El cumplimiento es la capacidad de demostrar que ha implementado los requisitos de gobernanza. 

 **Resultado deseado:** 
+  Los requisitos de gobernanza se incorporan al diseño arquitectónico y al funcionamiento de su carga de trabajo. 
+  Puede aportar pruebas de que ha seguido los requisitos de gobernanza. 
+  Los requisitos de gobernanza se revisan y actualizan periódicamente. 

 **Patrones comunes de uso no recomendados:** 
+ Su organización exige que la cuenta raíz disponga de autenticación multifactor. No ha implementado este requisito y la cuenta raíz está comprometida.
+ Durante el diseño de la carga de trabajo, elegirá un tipo de instancia que no ha aprobado el departamento de TI. No puede lanzar la carga de trabajo y debe llevar a cabo un rediseño.
+ Debe disponer de un plan de recuperación de desastres. No ha creado ninguno y la carga de trabajo sufre una interrupción prolongada.
+  Su equipo quiere utilizar nuevas instancias, pero sus requisitos de gobernanza no se han actualizado para permitirlo. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Seguir los requisitos de gobernanza alinea su carga de trabajo con las políticas de la organización. 
+  Los requisitos de gobernanza reflejan los estándares del sector y las prácticas recomendadas para su organización. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

Colabore con las partes interesadas y las organizaciones de gobernanza para identificar los requisitos de gobernanza. Incluya los requisitos de gobernanza en su carga de trabajo. Sea capaz de demostrar que ha seguido los requisitos de gobernanza.

 **Ejemplo de cliente** 

 En AnyCompany Retail, el equipo de operaciones en la nube colabora con las partes interesadas de toda la organización para desarrollar los requisitos de gobernanza. Por ejemplo, prohíben el acceso SSH a las instancias de Amazon EC2. Si los equipos necesitan acceso al sistema, deberán utilizar AWS Systems Manager Session Manager. El equipo de operaciones en la nube actualiza periódicamente los requisitos de gobernanza a medida que hay disponibles nuevos servicios. 

 **Pasos para la implementación** 

1.  Identifique a las partes interesadas para su carga de trabajo, incluidos los equipos centralizados. 

1.  Colabore con las partes interesadas para identificar los requisitos de gobernanza. 

1.  Una vez generada la lista, priorice los elementos de mejora y comience a implementarlos en su carga de trabajo. 

   1.  Utilice servicios como [AWS Config](https://aws.amazon.com/blogs/industries/best-practices-for-aws-organizations-service-control-policies-in-a-multi-account-environment/) para crear una gobernanza como código y validar que se cumplan los requisitos de gobernanza. 

   1.  Si utiliza [AWS Organizations](https://docs.aws.amazon.com/organizations/latest/userguide/orgs_manage_policies_scps.html), puede aprovechar las políticas de control de servicios para implementar los requisitos de gobernanza. 

1.  Proporcione documentación que valide la implementación. 

 **Nivel de esfuerzo para el plan de implementación:** medio. La implementación de los requisitos de gobernanza que faltan puede dar lugar a un reajuste de su carga de trabajo. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS01-BP04 Evaluación de los requisitos de cumplimiento](ops_priorities_compliance_reqs.md): el cumplimiento es como la gobernanza, pero proviene de fuera de la organización. 

 **Documentos relacionados:** 
+ [AWS Management and Governance Cloud Environment Guide ](https://docs.aws.amazon.com/wellarchitected/latest/management-and-governance-guide/management-and-governance-cloud-environment-guide.html)
+ [ Best Practices for AWS Organizations Service Control Policies in a Multi-Account Environment ](https://aws.amazon.com/blogs/industries/best-practices-for-aws-organizations-service-control-policies-in-a-multi-account-environment/)
+ [Governance in the Nube de AWS: The Right Balance Between Agility and Safety](https://aws.amazon.com/blogs/apn/governance-in-the-aws-cloud-the-right-balance-between-agility-and-safety/)
+ [¿Qué es el enfoque de gobernanza, riesgo y cumplimiento (GRC)?](https://aws.amazon.com/what-is/grc/)

 **Videos relacionados:** 
+ [AWS Management and Governance: Configuration, Compliance, and Audit - AWS Online Tech Talks](https://www.youtube.com/watch?v=79ud1ZAaoj0)
+ [AWS re:Inforce 2019: Governance for the Cloud Age (DEM12-R1) ](https://www.youtube.com/watch?v=y3WmHnavuN8)
+ [AWS re:Invent 2020: Achieve compliance as code using AWS Config](https://www.youtube.com/watch?v=m8vTwvbzOfw)
+ [AWS re:Invent 2020: Agile governance on AWS GovCloud (US)](https://www.youtube.com/watch?v=hv6B17eriHQ)

 **Ejemplos relacionados:** 
+ [AWS Config Conformance Pack Samples](https://docs.aws.amazon.com/config/latest/developerguide/conformancepack-sample-templates.html)

 **Servicios relacionados:** 
+ [AWS Config](https://aws.amazon.com/config/)
+ [AWS Organizations - Service Control Policies](https://docs.aws.amazon.com/organizations/latest/userguide/orgs_manage_policies_scps.html)

# OPS01-BP04 Evaluación de los requisitos de cumplimiento
OPS01-BP04 Evaluación de los requisitos de cumplimiento

Los requisitos de cumplimiento normativo, del sector e internos son importantes a la hora de definir las prioridades de la organización. Es posible que su marco de cumplimiento le impida utilizar determinadas tecnologías o ubicaciones geográficas. Aplique la diligencia debida si no se identifican marcos de cumplimiento externos. Genere auditorías o informes que validen el cumplimiento.

 Si indica que su producto se ajusta a estándares de cumplimiento específicos, debe tener un proceso interno que garantice el cumplimiento continuo. Algunos ejemplos de estándares de cumplimiento son PCI DSS, FedRAMP e HIPAA. Las estándares de cumplimiento aplicables se determinan en función de diversos factores, como los tipos de datos que la solución almacena o transmite, o las regiones geográficas compatibles con la solución. 

 **Resultado deseado:** 
+  Los requisitos de cumplimiento normativo, sectorial e interno se incorporan a la selección de arquitectura. 
+  Puede validar el cumplimiento y generar informes de auditoría. 

 **Patrones comunes de uso no recomendados:** 
+ Algunas partes de su carga de trabajo entran dentro del marco del estándar de seguridad de datos de la industria de tarjetas de pago (PCI DSS), pero su carga de trabajo almacena los datos de las tarjetas de crédito sin cifrar.
+ Sus desarrolladores y arquitectos de software desconocen el marco de cumplimiento al que debe adherirse su organización.
+  La auditoría anual de sistemas y organizaciones de control (SOC2) de tipo II tendrá lugar en breve y no puede verificar que los controles están aplicados. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Evaluar y comprender los requisitos de cumplimiento se aplican a su carga de trabajo determinarán cómo priorizar sus esfuerzos para ofrecer valor empresarial. 
+  Elige las ubicaciones y las tecnologías adecuadas que sean congruentes con su marco de cumplimiento. 
+  Diseñar su carga de trabajo para que pueda auditar lo ayuda a demostrar que se atiene a su marco de cumplimiento. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 La implementación de esta práctica recomendada significa que se incorporan los requisitos de cumplimiento a su proceso de diseño de la arquitectura. Los miembros de su equipo conocen el marco de cumplimiento necesario. Valida el cumplimiento de acuerdo con el marco. 

 **Ejemplo de cliente** 

 AnyCompany Retail almacena la información de las tarjetas de crédito de los clientes. Los desarrolladores del equipo de almacenamiento de tarjetas saben que deben cumplir el marco PCI-DSS. Han tomado medidas para verificar que la información de las tarjetas de crédito se almacena y se accede a ella de forma segura de acuerdo con el marco PCI-DSS. Cada año colaboran con su equipo de seguridad para validar el cumplimiento. 

 **Pasos para la implementación** 

1.  Colabore con sus equipos de seguridad y gobernanza para determinar qué marcos de cumplimiento sectorial, normativo o interno debe cumplir su carga de trabajo. Incorpore los marcos de cumplimiento a su carga de trabajo. 

   1.  Valide el cumplimiento continuo de los recursos de AWS con servicios como [AWS Compute Optimizer](https://docs.aws.amazon.com/compute-optimizer/latest/ug/what-is-compute-optimizer.html) y [AWS Security Hub CSPM](https://docs.aws.amazon.com/securityhub/latest/userguide/what-is-securityhub.html). 

1.  Informe a los miembros de su equipo sobre los requisitos de cumplimiento para que puedan utilizar y hacer evolucionar la carga de trabajo de acuerdo con ellos. Los requisitos de cumplimiento deben incluirse en las opciones de arquitectura y tecnología. 

1.  En función del marco de cumplimiento, puede que deba generar un informe de auditoría o de cumplimiento. Colabore con su organización para automatizar este proceso en la medida de lo posible. 

   1.  Utilice servicios como [AWS Audit Manager](https://docs.aws.amazon.com/audit-manager/latest/userguide/what-is.html) para validar el cumplimiento y generar informes de auditoría. 

   1.  Puede descargar documentos de seguridad y cumplimiento de AWS con [AWS Artifact](https://docs.aws.amazon.com/artifact/latest/ug/what-is-aws-artifact.html). 

 **Nivel de esfuerzo para el plan de implementación:** medio. La implementación de marcos de cumplimiento puede suponer un desafío. La generación de informes de auditoría o documentos de cumplimiento agrega complejidad adicional. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [SSEC01-BP03 Identificación y validación de los objetivos de control:](https://docs.aws.amazon.com/wellarchitected/latest/framework/sec_securely_operate_control_objectives.html) los objetivos de control de seguridad son una parte importante del cumplimiento general. 
+  [SEC01-BP06 Automatización de la implementación de controles de seguridad estándares:](https://docs.aws.amazon.com/wellarchitected/latest/framework/sec_securely_operate_test_validate_pipeline.html) como parte de sus canalizaciones, valide los controles de seguridad. También puede generar documentación de cumplimiento para los nuevos cambios. 
+  [SEC07-BP02 Definición de los controles de protección de datos:](https://docs.aws.amazon.com/wellarchitected/latest/framework/sec_data_classification_define_protection.html) muchos marcos de cumplimiento se basan en políticas de control y almacenamiento de datos. 
+  [SEC10-BP03 Preparación de las capacidades forenses:](https://docs.aws.amazon.com/wellarchitected/latest/framework/sec_incident_response_prepare_forensic.html) a veces se pueden utilizar capacidades forenses para auditar el cumplimiento. 

 **Documentos relacionados:** 
+ [Centro de cumplimiento de AWS](https://aws.amazon.com/financial-services/security-compliance/compliance-center/)
+ [Recursos de conformidad de AWS](https://aws.amazon.com/compliance/resources/)
+ [Documento técnico sobre riesgo y cumplimiento de AWS](https://docs.aws.amazon.com/whitepapers/latest/aws-risk-and-compliance/welcome.html)
+ [Modelo de responsabilidad compartida de AWS](https://aws.amazon.com/compliance/shared-responsibility-model/)
+ [Servicios de AWS en el ámbito del programa de conformidad](https://aws.amazon.com/compliance/services-in-scope/)

 **Videos relacionados:** 
+ [AWS re:Invent 2020: Achieve compliance as code using AWS Compute Optimizer](https://www.youtube.com/watch?v=m8vTwvbzOfw)
+ [AWS re:Invent 2021 - Cloud compliance, assurance, and auditing](https://www.youtube.com/watch?v=pdrYGVgb08Y)
+ [AWS Summit ATL 2022 - Implementing compliance, assurance, and auditing on AWS (COP202)](https://www.youtube.com/watch?v=i7XrWimhqew)

 **Ejemplos relacionados:** 
+ [PCI DSS and AWS Foundational Security Best Practices on AWS](https://aws.amazon.com/solutions/partners/compliance-pci-fsbp-remediation/)

 **Servicios relacionados:** 
+ [AWS Artifact](https://docs.aws.amazon.com/artifact/latest/ug/what-is-aws-artifact.html)
+ [AWS Audit Manager](https://docs.aws.amazon.com/audit-manager/latest/userguide/what-is.html)
+ [AWS Compute Optimizer](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html)
+ [AWS Security Hub CSPM](https://docs.aws.amazon.com/securityhub/latest/userguide/what-is-securityhub.html)

# OPS01-BP05 Evaluación del panorama de amenazas
OPS01-BP05 Evaluación del panorama de amenazas

 Evalúe las amenazas para la empresa (por ejemplo, las empresas de la competencia, los riesgos y responsabilidades empresariales, los riesgos operativos y las amenazas para la seguridad de la información) y mantenga la información actualizada en un registro de riesgos. Incluya la repercusión de los riesgos a la hora de determinar dónde centrar los esfuerzos. 

 El [Marco de Well-Architected](https://aws.amazon.com/architecture/well-architected/) hace hincapié en aprender, medir y mejorar. Proporciona un enfoque coherente para evaluar las arquitecturas e implementar diseños que se escalarán con el tiempo. AWS proporciona la [AWS Well-Architected Tool](https://aws.amazon.com/well-architected-tool/) para ayudarle a revisar su enfoque antes del desarrollo, el estado de sus cargas de trabajo antes de la producción y el estado de sus cargas de trabajo durante la producción. Puede compararlos con las prácticas recomendadas de arquitectura de AWS más recientes, supervisar el estado general de sus cargas de trabajo y obtener información sobre posibles riesgos. 

 Los clientes de AWS son elegibles para una revisión de Well-Architected de sus cargas de trabajo de importancia crítica para [medir sus arquitecturas](https://aws.amazon.com/premiumsupport/programs/) con las prácticas recomendadas de AWS. Los clientes de Enterprise Support son elegibles para una [revisión de operaciones](https://aws.amazon.com/premiumsupport/programs/) diseñada para ayudarlos a identificar las lagunas en su enfoque para operar en la nube. 

 La participación de todos los equipos en estas revisiones ayuda a establecer un entendimiento común de sus cargas de trabajo y de cómo los roles del equipo contribuyen al éxito. Las necesidades identificadas a través de la revisión pueden ayudar a dar forma a sus prioridades. 

 [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/) es una herramienta que proporciona acceso a un conjunto básico de comprobaciones que recomiendan optimizaciones para su entorno y que pueden ayudar a dar forma a sus prioridades. Los [clientes de Business y Enterprise Support](https://aws.amazon.com/premiumsupport/plans/) reciben acceso a comprobaciones adicionales centradas en la seguridad, la fiabilidad, el rendimiento y la optimización de los costos que pueden ayudar a configurar sus prioridades. 

 **Resultado deseado:** 
+  Revisa y toma medidas regularmente en función de los resultados de Well-Architected y Trusted Advisor. 
+  Conoce las revisiones que se han aplicado más recientemente a sus servicios. 
+  Conoce el riesgo y la repercusión de las amenazas conocidas y actúa en consecuencia. 
+  Implementa mitigaciones de la forma necesaria. 
+  Comunica acciones y el contexto. 

 **Patrones comunes de uso no recomendados:** 
+  Está utilizando una versión antigua de una biblioteca de software en su producto. No está al corriente de las actualizaciones de seguridad de la biblioteca por problemas que pueden tener un impacto no deseado en la carga de trabajo. 
+  Su competidor acaba de lanzar una versión de su producto que resuelve muchas de las quejas de sus clientes sobre su producto. No ha priorizado la resolución de ninguno de estos problemas conocidos. 
+  Los reguladores han estado persiguiendo a empresas como la suya que no cumplen con los requisitos legales de conformidad de la normativa. No ha priorizado el cumplimiento de ninguno de sus requisitos pendientes. 

 **Beneficios de establecer esta práctica recomendada:** identifica y comprende las amenazas a su organización y carga de trabajo, lo que lo ayuda a determinar qué amenazas debe abordar, su prioridad y los recursos necesarios para hacerlo. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación
+  **Evaluación del panorama de amenazas:** evalúe las amenazas a la empresa (por ejemplo, competencia, riesgos y responsabilidades comerciales, riesgos operativos y amenazas a la seguridad de la información), de modo que pueda incluir su impacto al determinar dónde centrar los esfuerzos. 
  +  [Últimos boletines de seguridad de AWS](https://aws.amazon.com/security/security-bulletins/) 
  +  [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/trustedadvisor/) 
+  **Mantenimiento de un modelo de amenazas:** establezca y mantenga un modelo de amenazas que identifique las amenazas potenciales, las mitigaciones planificadas y en curso, y su prioridad. Revise la probabilidad de que las amenazas se manifiesten en forma de incidentes, el costo de recuperación de dichos incidentes y el daño causado esperado, así como el costo de prevención de los incidentes. Revise las prioridades a medida que cambie el contenido del modelo de amenazas. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [SEC01-BP07 Identificación de amenazas y priorización de mitigaciones con un modelo de amenazas](https://docs.aws.amazon.com/wellarchitected/latest/security-pillar/sec_securely_operate_threat_model.html) 

 **Documentos relacionados:** 
+  [Cumplimiento de Nube de AWS](https://aws.amazon.com/compliance/) 
+  [Últimos boletines de seguridad de AWS](https://aws.amazon.com/security/security-bulletins/) 
+  [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/trustedadvisor/) 

 **Videos relacionados:** 
+  [AWS re:Inforce 2023 - A tool to help improve your threat modeling](https://youtu.be/CaYCsmjuiHg?si=e_CXPGqRF4WeBr1u) 

# OPS01-BP06 Evaluación de las compensaciones al administrar los beneficios y los riesgos
OPS01-BP06 Evaluación de las compensaciones al administrar los beneficios y los riesgos

 Los intereses contrapuestos de diversas partes pueden complicar la priorización de esfuerzos, el desarrollo de capacidades y la obtención de resultados que se ajusten a las estrategias empresariales. Por ejemplo, es posible que se le pida que acelere la comercialización de nuevas características en lugar de optimizar los costos de la infraestructura de TI. Esto puede poner en conflicto a dos partes interesadas. En estas situaciones, es necesario trasladar las decisiones a una autoridad superior para resolver el conflicto. Los datos son necesarios para eliminar el factor emocional del proceso de toma de decisiones. 

 Podría presentarse el mismo reto en un nivel táctico. Por ejemplo, la elección entre utilizar tecnologías de bases de datos relacionales o no relacionales puede tener una importante repercusión en el funcionamiento de una aplicación. Es fundamental conocer los resultados predecibles de las distintas opciones. 

 AWS puede ayudarlo a capacitar a sus equipos sobre AWS y sus servicios para aumentar su comprensión de cómo sus elecciones pueden tener un impacto en su carga de trabajo. Debe utilizar los recursos proporcionados por [Soporte](https://aws.amazon.com/premiumsupport/programs/) ([Centro de conocimientos de AWS](https://aws.amazon.com/premiumsupport/knowledge-center/), [foros de debate de AWS](https://forums.aws.amazon.com/index.jspa) y [Centro de Soporte](https://console.aws.amazon.com/support/home/)) y la [documentación de AWS](https://docs.aws.amazon.com/) para capacitar a sus equipos. Si tiene más preguntas, contacte con Soporte. 

 AWS también comparte las prácticas recomendadas y las patrones operativos en [la Amazon Builders' Library](https://aws.amazon.com/builders-library/). Hay una gran variedad de información útil disponible a través del [Blog de AWS](https://aws.amazon.com/blogs/) y [The Official AWS Podcast](https://aws.amazon.com/podcasts/aws-podcast/). 

 **Resultado deseado:** cuenta con un marco de gobierno de toma de decisiones claramente definido para facilitar las decisiones importantes en todos los niveles de su organización de entrega en la nube. Este marco incluye características como un registro de riesgos, roles definidos que están autorizados a tomar decisiones y modelos definidos para cada nivel de decisión que puede tomarse. Este marco define de antemano cómo se resuelven los conflictos, qué datos deben presentarse y cómo se priorizan las opciones para que, una vez tomadas las decisiones, pueda ponerlas en marcha sin demora. El marco de toma de decisiones incluye un enfoque estandarizado para revisar y sopesar los beneficios y los riesgos de cada decisión con el fin de entender si compensa. Esto puede incluir factores externos, como el cumplimiento de los requisitos normativos. 

 **Patrones comunes de uso no recomendados:** 
+  Sus inversores le piden que demuestre que cumple los estándares de seguridad de datos del sector de las tarjetas de pago (PCI DSS). No ha considerado las ventajas y desventajas de satisfacer su solicitud y de continuar con sus esfuerzos actuales de desarrollo. En su lugar, sigue adelante con sus esfuerzos de desarrollo sin demostrar el cumplimiento. Sus inversores dejan de apoyar a su empresa porque les preocupa la seguridad de la plataforma y las inversiones que han hecho en ella. 
+  Ha decidido incluir una biblioteca que uno de los desarrolladores ha encontrado en Internet. No ha evaluado los riesgos de adoptar esta biblioteca de una fuente desconocida y no sabe si contiene vulnerabilidades o código malicioso. 
+  La justificación empresarial original de su migración se basaba en la modernización del 60 % de las cargas de trabajo de sus aplicaciones. Sin embargo, debido a dificultades técnicas, se tomó la decisión de modernizar solo el 20 %, lo que se tradujo en una reducción de los beneficios previstos a largo plazo, un aumento de la carga de trabajo de los equipos de infraestructura para dar asistencia manual a los sistemas heredados y una mayor necesidad de desarrollar nuevas competencias en sus equipos de infraestructura, que no tenían previsto este cambio. 

 **Beneficios de establecer esta práctica recomendada:** alinear y respaldar plenamente las prioridades empresariales a nivel de los consejos de administración, comprender los riesgos que implica lograr el éxito, tomar decisiones informadas y actuar de forma adecuada cuando los riesgos impiden las posibilidades de éxito. Comprender las implicaciones y consecuencias que tienen sus decisiones le ayudará a priorizar las opciones que tiene y a lograr que los líderes lleguen a un acuerdo más rápidamente, lo que se traducirá en mejores resultados empresariales. Identificar los beneficios disponibles de sus opciones y ser consciente de los riesgos para su organización lo ayuda a tomar decisiones basadas en datos, en lugar de en anécdotas. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 La administración de los beneficios y los riesgos debe definirla un órgano de gobierno que determine los requisitos para la toma de decisiones clave. Desea que las decisiones se tomen y se prioricen en función de cómo benefician a la organización, con conocimiento de los riesgos que conllevan. Tener información precisa es fundamental para tomar las decisiones de la organización. Esto debe basarse en mediciones sólidas y definirse de acuerdo con las prácticas habituales del sector en materia de análisis de costos y beneficios. Para tomar este tipo de decisiones, busque un equilibrio entre la autoridad centralizada y la descentralizada. Siempre hay un punto medio y es importante comprender cómo afecta cada elección a las estrategias definidas y a los resultados empresariales deseados. 

### Pasos para la implementación
Pasos para la implementación

1.  Formalice las prácticas de medición de beneficios dentro de un marco integral de gobernanza en la nube. 

   1.  Equilibre el control central de la toma de decisiones con la autoridad descentralizada para algunas decisiones. 

   1.  Tenga en cuenta que los arduos procesos de toma de decisiones impuestos en cada decisión pueden ralentizarle. 

   1.  Incorpore factores externos en su proceso de toma de decisiones (por ejemplo, requisitos de cumplimiento). 

1.  Establezca un marco de toma de decisiones consensuado para los distintos niveles de decisiones, que incluya quién está obligado a desbloquear las decisiones que estén sujetas a intereses conflictivos. 

   1.  Centralice las decisiones unidireccionales que podrían ser irreversibles. 

   1.  Permita que los líderes de la organización de nivel inferior tomen decisiones bidireccionales. 

1.  Conozca y administre los beneficios y los riesgos. Equilibre los beneficios de las decisiones con los riesgos involucrados. 

   1.  **Identificación de beneficios**: identifique los beneficios en función de los objetivos, las necesidades y las prioridades comerciales. Entre algunos ejemplos, se incluyen la repercusión del caso empresarial, el tiempo de comercialización, la seguridad, la fiabilidad, el rendimiento y el costo. 

   1.  **Identificación de riesgos**: identifique los riesgos en función de los objetivos comerciales, las necesidades y las prioridades. Los ejemplos incluyen tiempo de comercialización, seguridad, fiabilidad, rendimiento y costo. 

   1.  **Evaluación de los beneficios frente a los riesgos y toma de decisiones fundamentadas**: determine el impacto de los beneficios y los riesgos en función de los objetivos, las necesidades y las prioridades de sus partes interesadas clave, incluidos el negocio, el desarrollo y las operaciones. Evalúe el valor del beneficio frente a la probabilidad de que el riesgo se materialice y el costo de su impacto. Por ejemplo, enfatizar la velocidad de comercialización sobre la fiabilidad podría suponer una ventaja competitiva. Sin embargo, podría dar lugar a una reducción del tiempo de actividad si hay problemas de fiabilidad. 

1.  Imponga de forma programada decisiones clave que automaticen el cumplimiento de los requisitos de conformidad. 

1.  Utilice marcos y capacidades conocidos del sector, como el análisis del flujo de valor y LEAN, para establecer una base de referencia del rendimiento actual y las métricas empresariales y definir las iteraciones del progreso hacia la mejora de estas métricas. 

 **Nivel de esfuerzo para el plan de implementación:** medio-alto 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS01-BP05 Evaluación del panorama de amenazas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_priorities_eval_threat_landscape.html) 

 **Documentos relacionados:** 
+  [Elementos de la cultura del día 1 de Amazon \$1 Tome decisiones de alta velocidad y alta calidad](https://aws.amazon.com/executive-insights/content/how-amazon-defines-and-operationalizes-a-day-1-culture/) 
+  [Gobernanza de la nube](https://aws.amazon.com/cloudops/cloud-governance/) 
+  [Management & Governance Cloud Environment](https://docs.aws.amazon.com/wellarchitected/latest/management-and-governance-guide/management-and-governance-cloud-environment-guide.html?did=wp_card&trk=wp_card) 
+  [Governance in the Cloud and in the Digital Age: Parts One & Two](https://aws.amazon.com/blogs/enterprise-strategy/governance-in-the-cloud-and-in-the-digital-age-part-one/) 

 **Videos relacionados:** 
+  [Podcast \$1 Jeff Bezos \$1 On how to make decisions](https://www.youtube.com/watch?v=VFwCGECvq4I) 

 **Ejemplos relacionados:** 
+  [Make informed decisions using data (The DevOps Sagas)](https://docs.aws.amazon.com/wellarchitected/latest/devops-guidance/oa.bcl.10-make-informed-decisions-using-data.html) 
+  [Using development value stream mapping to identify constraints to DevOps outcomes](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-devops-value-stream-mapping/introduction.html) 

# OPS 2. ¿Cómo estructura su organización para respaldar los resultados empresariales?


 Sus equipos deben comprender su papel en la consecución de los resultados empresariales. Los equipos deben comprender la función que desempeñan en el éxito de otros equipos, así como la que desempeñan los demás equipos en su propio éxito, y tener objetivos en común. Comprender la responsabilidad, la propiedad, cómo se toman las decisiones y quién tiene autoridad para tomarlas ayudará a centrar los esfuerzos y a maximizar los beneficios de sus equipos. 

**Topics**
+ [

# OPS02-BP01 Recursos con propietarios identificados
](ops_ops_model_def_resource_owners.md)
+ [

# OPS02-BP02 Procesos y procedimientos con propietarios identificados
](ops_ops_model_def_proc_owners.md)
+ [

# OPS02-BP03 Actividades operativas con propietarios identificados responsables de su rendimiento
](ops_ops_model_def_activity_owners.md)
+ [

# OPS02-BP04 Mecanismos existentes para administrar las responsabilidades y la propiedad
](ops_ops_model_def_responsibilities_ownership.md)
+ [

# OPS02-BP05 Mecanismos para solicitar adiciones, cambios y excepciones
](ops_ops_model_req_add_chg_exception.md)
+ [

# OPS02-BP06 Responsabilidades predefinidas o negociadas entre equipos
](ops_ops_model_def_neg_team_agreements.md)

# OPS02-BP01 Recursos con propietarios identificados
OPS02-BP01 Recursos con propietarios identificados

 Los recursos para su carga de trabajo deben tener propietarios identificados para el control de cambios, la resolución de problemas y otras funciones. Se asignan propietarios para las cargas de trabajo, las cuentas, la infraestructura, las plataformas y las aplicaciones. La propiedad se registra mediante herramientas como un registro central o metadatos adjuntos a los recursos. El valor empresarial de los componentes determina los procesos y los procedimientos que se les aplican. 

 **Resultado deseado:** 
+  Los recursos tienen propietarios identificados mediante metadatos o un registro central. 
+  Los miembros del equipo pueden identificar a quién pertenecen los recursos. 
+  Las cuentas tienen un único propietario siempre que sea posible. 

 **Patrones comunes de uso no recomendados:** 
+  Los contactos alternativos para sus Cuentas de AWS no están asignados. 
+  Los recursos carecen de etiquetas que identifiquen a qué equipos pertenecen. 
+  Tiene una cola de ITSM sin una asignación de correo electrónico. 
+  Dos equipos tienen la propiedad solapada de un elemento fundamental de la infraestructura. 

 **Beneficios de establecer esta práctica recomendada:** 
+  El control de cambios de los recursos resulta sencillo con una propiedad asignada. 
+  Puede implicar a los propietarios adecuados a la hora de solucionar problemas. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 Defina qué significa la propiedad para los casos de uso de los recursos en su entorno. La propiedad puede indicar quién supervisa los cambios en el recurso, quién lo respalda durante la resolución de problemas o quién es responsable desde el punto de vista financiero. Especifique y registre los propietarios de los recursos, incluido el nombre, la información de contacto, la organización y el equipo. 

 **Ejemplo de cliente** 

 AnyCompany Retail define la propiedad como el equipo o la persona que se encarga de los cambios y de la asistencia a los recursos. Usa AWS Organizations para administrar sus Cuentas de AWS. Los contactos alternativos de la cuenta se configuran mediante bandejas de entrada de grupo. Cada cola de ITSM se asigna a un alias de correo electrónico. Las etiquetas identifican a quién pertenecen los recursos de AWS. Para otras plataformas e infraestructuras, tiene una página wiki en la que se identifican la propiedad y la información de contacto. 

### Pasos para la implementación
Pasos para la implementación

1.  Empiece con la definición de la propiedad de su organización. La propiedad puede implicar quién es el propietario del riesgo del recurso, quién es el propietario de los cambios en el recurso o quién presta asistencia al recurso cuando se solucionan problemas. La propiedad también podría implicar la propiedad financiera o administrativa del recurso. 

1.  Se usa [AWS Organizations](https://aws.amazon.com/organizations/) para administrar cuentas. Puede administrar los contactos alternativos de sus cuentas de forma centralizada. 

   1.  Si utiliza las direcciones de correo electrónico y los números de teléfono de la empresa como información de contacto, podrá comunicarse aunque la persona a la que pertenezca dicha dirección o teléfono haya abandonado la organización. Por ejemplo, cree listas de correo electrónico diferentes para la facturación, las operaciones y la seguridad, y configure estos contactos como Facturación, Seguridad y Operaciones en cada Cuenta de AWS activa. Las notificaciones de AWS llegarán a diversas personas y se responderán incluso si alguien está de vacaciones, cambia de rol o deja la empresa. 

   1.  En caso de que [AWS Organizations](https://aws.amazon.com/organizations/) no administre una cuenta, los contactos alternativos de esta permitirán que AWS pueda ponerse en contacto con las personas adecuadas si fuera necesario. Configure los contactos alternativos de la cuenta para que apunten a un grupo en lugar de a una persona. 

1.  Utilice etiquetas para identificar a los propietarios de los recursos de AWS. Puede especificar tanto los propietarios como su información de contacto en etiquetas independientes. 

   1.  Puede usar reglas de [AWS Config](https://aws.amazon.com/config/) para garantizar que los recursos tengan las etiquetas de propiedad requeridas. 

   1.  Para obtener instrucciones detalladas sobre cómo crear una estrategia de etiquetado para su organización, consulte el [documento técnico sobre prácticas recomendadas de etiquetado de AWS](https://docs.aws.amazon.com/whitepapers/latest/tagging-best-practices/tagging-best-practices.html). 

1.  Utilice [Amazon Q Business](https://aws.amazon.com/q/business/), un asistente conversacional que utiliza IA generativa para mejorar la productividad de la fuerza laboral, responder preguntas y completar tareas en función de la información de los sistemas empresariales. 

   1.  Conecte Amazon Q Business al origen de datos de su empresa. Amazon Q Business ofrece conectores prediseñados para más de 40 orígenes de datos compatibles, incluidos Amazon Simple Storage Service (Amazon S3), Microsoft SharePoint, Salesforce y Atlassian Confluence. Para obtener más información, consulte [Conectores de Amazon Q Business](https://aws.amazon.com/q/business/connectors/). 

1.  Para otros recursos, plataformas e infraestructuras, cree documentación que identifique la propiedad. Todos los miembros del equipo deben poder acceder a ella. 

 **Nivel de esfuerzo para el plan de implementación:** bajo. Utilice la información de contacto de la cuenta y las etiquetas para asignar la propiedad de los recursos de AWS. Para otros recursos puede utilizar algo tan simple como una tabla en un wiki para registrar la propiedad y la información de contacto o una herramienta ITSM para asignar la propiedad. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS02-BP02 Procesos y procedimientos con propietarios identificados](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_proc_owners.html) 
+  [OPS02-BP04 Mecanismos existentes para administrar las responsabilidades y la propiedad](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_responsibilities_ownership.html) 

 **Documentos relacionados:** 
+  [AWS Account Management - Updating contact information](https://docs.aws.amazon.com/accounts/latest/reference/manage-acct-update-contact.html) 
+  [AWS Organizations - Updating alternative contacts in your organization](https://docs.aws.amazon.com/organizations/latest/userguide/orgs_manage_accounts_update_contacts.html) 
+  [Documento técnico sobre prácticas recomendadas de etiquetado de AWS](https://docs.aws.amazon.com/whitepapers/latest/tagging-best-practices/tagging-best-practices.html) 
+  [Build private and secure enterprise generative AI apps with Amazon Q Business and AWS IAM Identity Center](https://aws.amazon.com/blogs/machine-learning/build-private-and-secure-enterprise-generative-ai-apps-with-amazon-q-business-and-aws-iam-identity-center/) 
+  [Amazon Q Business, now generally available, helps boost workforce productivity with generative AI](https://aws.amazon.com/blogs/aws/amazon-q-business-now-generally-available-helps-boost-workforce-productivity-with-generative-ai/) 
+  [Nube de AWS Operations & Migrations Blog - Implementing automated and centralized tagging controls with AWS Config and AWS Organizations](https://aws.amazon.com/blogs/mt/implementing-automated-and-centralized-tagging-controls-with-aws-config-and-aws-organizations/) 
+  [AWS Security Blog - Extend your pre-commit hooks with AWS CloudFormation Guard](https://aws.amazon.com/blogs/security/extend-your-pre-commit-hooks-with-aws-cloudformation-guard/) 
+  [AWS DevOps Blog - Integrating AWS CloudFormation Guard into CI/CD pipelines](https://aws.amazon.com/blogs/devops/integrating-aws-cloudformation-guard/) 

 **Talleres relacionados:** 
+  [AWS Workshop: Tagging](https://catalog.workshops.aws/tagging/) 

 **Ejemplos relacionados:** 
+  [Reglas de AWS Config - Amazon EC2 with required tags and valid values](https://github.com/awslabs/aws-config-rules/blob/master/python/ec2_require_tags_with_valid_values.py) 

 **Servicios relacionados:** 
+  [Reglas de AWS Config - required-tags](https://docs.aws.amazon.com/config/latest/developerguide/required-tags.html) 
+  [AWS Organizations](https://aws.amazon.com/organizations/) 

# OPS02-BP02 Procesos y procedimientos con propietarios identificados
OPS02-BP02 Procesos y procedimientos con propietarios identificados

 Conozca quién tiene la propiedad de la definición de procesos y procedimientos específicos, por qué se utilizan esos procesos y procedimientos y por qué existe esa propiedad. Comprender las razones por las que se utilizan procesos y procedimientos específicos permite identificar las oportunidades de mejora. 

 **Resultado deseado:** su organización cuenta con un conjunto de procesos y procedimientos bien definidos y mantenidos para las tareas operativas. El proceso y los procedimientos se almacenan en una ubicación central y están disponibles para los miembros de su equipo. El proceso y los procedimientos se actualizan con frecuencia, a través de la propiedad claramente asignada. Siempre que es posible, los scripts, las plantillas y los documentos de automatización se implementan como código. 

 **Patrones comunes de uso no recomendados:** 
+  Los procesos no se documentan. Pueden existir scripts fragmentados en estaciones de trabajo de operadores aisladas. 
+  Solo unas pocas personas o el equipo de manera informal saben cómo usar los scripts. 
+  Está previsto actualizar un proceso heredado, pero la propiedad de la actualización no está clara y el autor original ya no forma parte de la organización. 
+  Los procesos y los scripts no se pueden detectar, por lo que no están disponibles cuando son necesarios (por ejemplo, en respuesta a un incidente). 

 **Beneficios de establecer esta práctica recomendada:** 
+  Los procesos y procedimientos impulsan sus esfuerzos para gestionar sus cargas de trabajo. 
+  Los nuevos miembros del equipo se hacen eficaces más rápidamente. 
+  Reducción del tiempo para mitigar los incidentes. 
+  Los diferentes miembros del equipo (y equipos) pueden usar los mismos procesos y procedimientos de manera coherente. 
+  Los equipos pueden escalar sus procesos con procesos repetibles. 
+  Los procesos y procedimientos estandarizados ayudan a mitigar el impacto de transferir las responsabilidades de las cargas de trabajo entre los equipos. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación
+  Los procesos y procedimientos tienen propietarios identificados que son responsables de su definición. 
  +  Identifique las actividades operativas que se han llevado a cabo para ayudar a sus cargas de trabajo. Documente estas actividades en un lugar accesible. 
  +  Identifique de forma exclusiva a la persona o equipo responsable de la especificación de una actividad. Son responsables de verificar que un miembro del equipo con la formación adecuada y con los permisos, el acceso y las herramientas correctas pueda hacerla con éxito. Si hay problemas para llevar a cabo la actividad, los miembros del equipo que la llevan a cabo son responsables de proporcionar la información detallada necesaria para mejorar la actividad. 
  +  Refleje la propiedad en los metadatos del artefacto de la actividad a través de servicios como AWS Systems Manager, documentos y AWS Lambda. Capture la propiedad de los recursos mediante etiquetas o grupos de recursos y especifique la propiedad y la información de contacto. Utilice AWS Organizations para crear políticas de etiquetas y asegurarse de que se registra la información de contacto y de propiedad. 
+  Con el tiempo, estos procedimientos deberían evolucionar para que puedan ejecutarse como código, lo que reduce la necesidad de intervención humana. 
  +  Por ejemplo, considere la posibilidad de usar funciones de AWS Lambda, plantillas de CloudFormation o documentos de automatización de AWS Systems Manager. 
  +  Lleve a cabo el control de versiones en los repositorios apropiados. 
  +  Incluya un etiquetado de recursos adecuado para que los propietarios y la documentación puedan identificarse fácilmente. 

 **Ejemplo de cliente** 

 AnyCompany Retail define la propiedad como el equipo o individuo que posee los procesos de una aplicación o grupos de aplicaciones (que comparten prácticas y tecnologías arquitectónicas comunes). Inicialmente, los procesos y procedimientos se documentan como guías paso a paso en el sistema de administración de documentos y se pueden encontrar mediante etiquetas en la Cuenta de AWS que aloja la aplicación y en grupos específicos de recursos dentro de la cuenta. Usa AWS Organizations para administrar sus Cuentas de AWS. Con el tiempo, estos procesos se convierten en código y los recursos se definen con infraestructura como código (por ejemplo, plantillas de CloudFormation o AWS Cloud Development Kit (AWS CDK)). Los procesos operativos se convierten en documentos de automatización en funciones de AWS Systems Manager o AWS Lambda, que pueden iniciarse como tareas programadas, en respuesta a eventos como alarmas de AWS CloudWatch o eventos de AWS EventBridge, o iniciarse mediante solicitudes dentro de una plataforma de administración de servicios de TI (ITSM). Todos los procesos tienen etiquetas para identificar la propiedad. La documentación de la automatización y el proceso se mantiene en las páginas wiki generadas por el repositorio de código del proceso. 

### Pasos para la implementación
Pasos para la implementación

1.  Documente los procesos y procedimientos existentes. 

   1.  Revíselos y manténgalos actualizados. 

   1.  Identifique un propietario para cada proceso o procedimiento. 

   1.  Colóquelos bajo control de versiones. 

   1.  Siempre que sea posible, comparta procesos y procedimientos entre cargas de trabajo y entornos que compartan diseños arquitectónicos. 

1.  Establezca mecanismos para recibir comentarios y mejorar. 

   1.  Defina políticas sobre la frecuencia con la que se deben revisar los procesos. 

   1.  Defina los procesos de los revisores y aprobadores. 

   1.  Implemente problemas o una cola de tickets para que se proporcionen comentarios y se haga un seguimiento de ellos. 

   1.  Siempre que sea posible, los procesos y procedimientos deben contar con la aprobación previa y la clasificación de riesgos de una junta de aprobación de cambios (CAB). 

1.  Verifique que los procesos y procedimientos sean accesibles y fáciles de encontrar para quienes tienen que ejecutarlos. 

   1.  Utilice etiquetas para indicar dónde se puede acceder a los procesos y procedimientos de la carga de trabajo. 

   1.  Utilice mensajes de error y eventos significativos para indicar los procesos o procedimientos adecuados para abordar un problema. 

   1.  Use wikis y la administración de documentos, y haga que los procesos y procedimientos se puedan buscar de manera uniforme en toda la organización. 

1.  Utilice [Amazon Q Business](https://aws.amazon.com/q/business/), un asistente conversacional que utiliza IA generativa para mejorar la productividad de la fuerza laboral, responder preguntas y completar tareas en función de la información de los sistemas empresariales. 

   1.  Conecte Amazon Q Business al origen de datos de su empresa. Amazon Q Business ofrece conectores prediseñados para más de 40 orígenes de datos compatibles, incluidos Amazon S3, Microsoft SharePoint, Salesforce y Atlassian Confluence. Para obtener más información, consulte [Conectores de Amazon Q](https://aws.amazon.com/q/business/connectors/). 

1.  Automatice cuando sea necesario. 

   1.  Las automatizaciones deben desarrollarse cuando los servicios y las tecnologías proporcionan una API. 

   1.  Imparta formaciones adecuadas sobre los procesos. Desarrolle casos de usuario y los requisitos para automatizar esos procesos. 

   1.  Mida la utilización de los procesos y procedimientos correctamente, y cree problemas o tickets para respaldar la mejora iterativa. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS02-BP01 Recursos con propietarios identificados](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_resource_owners.html) 
+  [OPS02-BP04 Mecanismos existentes para administrar las responsabilidades y la propiedad](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_responsibilities_ownership.html) 
+  [OPS11-BP04 Administración de conocimientos](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_knowledge_management.html) 

 **Documentos relacionados:** 
+  [AWS Documento técnico de : Introducción a DevOps en AWS](https://docs.aws.amazon.com/whitepapers/latest/introduction-devops-aws/automation.html) 
+  [Documento técnico de AWS: Prácticas recomendadas para el etiquetado de los recursos de AWS](https://docs.aws.amazon.com/whitepapers/latest/tagging-best-practices/tagging-best-practices.html) 
+  [Documento técnico de AWS: Organizing Your AWS Environment Using Multiple Accounts](https://docs.aws.amazon.com/whitepapers/latest/organizing-your-aws-environment/organizing-your-aws-environment.html) 
+ [Nube de AWS Operations and Migrations Blog - Using Amazon Q Business to streamline your operations ](https://aws.amazon.com/blogs/mt/streamline-operations-using-amazon-q-for-business/)
+  [Nube de AWS Operations & Migrations Blog - Build a Cloud Automation Practice for Operational Excellence: Best Practices from AWS Managed Services](https://aws.amazon.com/blogs/mt/build-a-cloud-automation-practice-for-operational-excellence-best-practices-from-aws-managed-services/) 
+  [Nube de AWS Operations & Migrations Blog - Implementing automated and centralized tagging controls with AWS Config and AWS Organizations](https://aws.amazon.com/blogs/mt/implementing-automated-and-centralized-tagging-controls-with-aws-config-and-aws-organizations/) 
+  [AWS Security Blog - Extend your pre-commit hooks with AWS CloudFormation Guard](https://aws.amazon.com/blogs/security/extend-your-pre-commit-hooks-with-aws-cloudformation-guard/) 
+  [AWS DevOps Blog - Integrating AWS CloudFormation Guard into CI/CD pipelines](https://aws.amazon.com/blogs/devops/integrating-aws-cloudformation-guard/) 

 **Talleres relacionados:** 
+  [AWS Well-Architected Operational Excellence Workshop](https://catalog.workshops.aws/well-architected-operational-excellence/en-US/) 
+  [AWS Workshop: Tagging](https://catalog.workshops.aws/tagging/) 

 **Videos relacionados:** 
+  [How to automate IT Operations on AWS](https://www.youtube.com/watch?v=GuWj_mlyTug) 
+  [AWS re:Invent 2020 - Automate anything with AWS Systems Manager](https://www.youtube.com/watch?v=AaI2xkW85yE) 
+  [AWS re:Inforce 2022 - Automating patch management and compliance using AWS (NIS306)](https://www.youtube.com/watch?v=gL3baXQJvc0) 
+  [Soportes You - Diving Deep into AWS Systems Manager](https://www.youtube.com/watch?v=xHNLNTa2xGU) 

 **Servicios relacionados:** 
+  [AWS Systems Manager - Automation](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html) 
+  [AWS Service Management Connector](https://aws.amazon.com/service-management-connector/) 

# OPS02-BP03 Actividades operativas con propietarios identificados responsables de su rendimiento
OPS02-BP03 Actividades operativas con propietarios identificados responsables de su rendimiento

 Averigüe quién tiene la responsabilidad de efectuar actividades específicas en las cargas de trabajo definidas y por qué existe esa responsabilidad. Conocer quién tiene la responsabilidad de efectuar las actividades sirve para saber quién llevará a cabo la actividad, validará el resultado y proporcionará información al propietario de la actividad. 

 **Resultado deseado:** 

 La organización define claramente las responsabilidades para llevar a cabo actividades específicas en cargas de trabajo definidas y responder a los eventos que genera la carga de trabajo. La organización documenta la propiedad y los procesos que se llevan a cabo y hace que esta información sea fácil de encontrar. Revisa y actualiza las responsabilidades cuando se producen cambios organizativos, y los equipos hacen un seguimiento y miden el rendimiento de las actividades de identificación de defectos e ineficiencias. Implementa mecanismos de obtener comentarios para hacer un seguimiento de los defectos y las mejoras y apoya la mejora iterativa. 

 **Patrones comunes de uso no recomendados:** 
+  No documenta las responsabilidades. 
+  Existen scripts fragmentados en estaciones de trabajo de operadores aisladas. Solo unas pocas personas saben cómo usarlos o se refieren a ellos de manera informal como *conocimiento de equipo*. 
+  Hay que actualizar un proceso heredado, pero nadie sabe quién es el propietario del proceso y el autor original ya no forma parte de la organización. 
+  Los procesos y los scripts no se pueden encontrar y no están disponibles cuando son necesarios (por ejemplo, en respuesta a un incidente). 

 **Beneficios de establecer esta práctica recomendada:** 
+  Sabe quién es responsable de llevar a cabo una actividad, a quién debe notificar cuando sea necesario tomar una medida y quién toma la medida, valida el resultado y proporciona comentarios al propietario de la actividad. 
+  Los procesos y procedimientos impulsan sus esfuerzos para gestionar sus cargas de trabajo. 
+  Los nuevos miembros del equipo se hacen eficaces más rápidamente. 
+  Reduce el tiempo necesario para mitigar los incidentes. 
+  Los diferentes equipos utilizan los mismos procesos y procedimientos para llevar a cabo las tareas de manera uniforme. 
+  Los equipos pueden escalar sus procesos con procesos repetibles. 
+  Los procesos y procedimientos estandarizados ayudan a mitigar la repercusión de transferir las responsabilidades de las cargas de trabajo entre los equipos. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 Para empezar a definir las responsabilidades, comience por la documentación existente, como las matrices de responsabilidades, los procesos y procedimientos, los roles y responsabilidades, y las herramientas y la automatización. Revise y organice debates sobre las responsabilidades de los procesos documentados. Lleve a cabo una revisión con los equipos para identificar desajustes entre las responsabilidades de los documentos y los procesos. Analice los servicios que se ofrecen con los clientes internos de ese equipo para identificar las diferencias de expectativas entre los equipos. 

 Analice y aborde las discrepancias. Identifique oportunidades de mejora y busque las actividades que se solicitan con frecuencia y requieren muchos recursos, que suelen ser firmes candidatas a una mejora. Examine las prácticas recomendadas, los patrones y la orientación prescriptiva para simplificar y estandarizar las mejoras. Registre las oportunidades de mejora y haga un seguimiento de las mejoras hasta el final. 

 Con el tiempo, estos procedimientos deberían evolucionar para ejecutarse como código, lo que reduce la necesidad de intervención humana. Por ejemplo, los procedimientos se pueden iniciar como funciones de AWS Lambda, plantillas de CloudFormation o documentos de Automatización de AWS Systems Manager. Verifique que estos procedimientos estén controlados por versiones en los repositorios apropiados e incluyan el etiquetado de recursos adecuado para que los equipos puedan identificar fácilmente a los propietarios y la documentación. Documente la responsabilidad de llevar a cabo las actividades y, a continuación, supervise las automatizaciones para que se inicien y funcionen correctamente, así como la obtención de los resultados deseados. 

 **Ejemplo de cliente** 

 AnyCompany Retail define la propiedad como el equipo o individuo que posee los procesos de una aplicación o grupos de aplicaciones que comparten prácticas y tecnologías arquitectónicas comunes. Inicialmente, la empresa documenta los procesos y procedimientos como guías paso a paso en el sistema de administración documental. Hacen que los procedimientos sean fáciles de encontrar mediante etiquetas en la Cuenta de AWS que aloja la aplicación y en grupos específicos de recursos de la cuenta, y utilizan AWS Organizations para administrar sus Cuentas de AWS. Con el tiempo, AnyCompany Retail convierte estos procesos en código y define los recursos con la infraestructura como código (a través de servicios como plantillas de CloudFormation o AWS Cloud Development Kit (AWS CDK)). Los procesos operativos se convierten en documentos de automatización en funciones de AWS Systems Manager o AWS Lambda, que pueden iniciarse como tareas programadas, en respuesta a eventos como alarmas de Amazon CloudWatch o eventos de Amazon EventBridge, o mediante solicitudes dentro de una plataforma de administración de servicios de TI (ITSM). Todos los procesos tienen etiquetas para identificar a quién pertenecen. Los equipos administran la documentación para la automatización y el proceso dentro de las páginas wiki que genera el repositorio de código para el proceso. 

### Pasos para la implementación
Pasos para la implementación

1.  Documente los procesos y procedimientos existentes. 

   1.  Revise y verifique que estén actualizados. 

   1.  Verifique que cada proceso o procedimiento tenga un propietario. 

   1.  Ponga los procedimientos bajo un control de versiones. 

   1.  Siempre que sea posible, comparta procesos y procedimientos entre cargas de trabajo y entornos que compartan diseños arquitectónicos. 

1.  Establezca mecanismos para recibir comentarios y mejorar. 

   1.  Defina políticas sobre la frecuencia con la que se deben revisar los procesos. 

   1.  Defina los procesos de los revisores y aprobadores. 

   1.  Implemente problemas o una cola de tickets para proporcionar comentarios y hacer un seguimiento de ellos. 

   1.  Siempre que sea posible, proporcione una aprobación previa y una clasificación de riesgos de los procesos y procedimientos que ha obtenido de una junta de aprobación de cambios (CAB). 

1.  Haga que los procesos y procedimientos sean accesibles y fáciles de encontrar para los usuarios que necesitan ejecutarlos. 

   1.  Utilice etiquetas para indicar dónde se puede acceder a los procesos y procedimientos de la carga de trabajo. 

   1.  Utilice mensajes de error y eventos fáciles de entender para indicar los procesos o procedimientos adecuados para abordar el problema. 

   1.  Use wikis o la administración de documentos para que los procesos y procedimientos se puedan buscar de manera uniforme en toda la organización. 

1.  Automatice cuando sea apropiado. 

   1.  Cuando los servicios y las tecnologías tengan una API, desarrolle automatizaciones. 

   1.  Verifique que los procesos se entiendan bien y desarrolle los casos de usuario y los requisitos para automatizar esos procesos. 

   1.  Determine si los procesos y procedimientos se utilizan de forma satisfactoria y haga un seguimiento de los problemas para facilitar una mejora iterativa. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS02-BP01 Recursos con propietarios identificados](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_resource_owners.html) 
+  [OPS02-BP02 Procesos y procedimientos con propietarios identificados](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_resource_owners.html) 
+  [OPS02-BP04 Mecanismos existentes para administrar las responsabilidades y la propiedad](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_responsibilities_ownership.html) 
+  [OPS02-BP05 Mecanismos para solicitar adiciones, cambios y excepciones](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_find_owner.html) 
+  [OPS11-BP04 Administración de conocimientos](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_knowledge_management.html) 

 **Documentos relacionados:** 
+  [Documento técnico de AWS: Introducción a DevOps en AWS](https://docs.aws.amazon.com/whitepapers/latest/introduction-devops-aws/automation.html) 
+  [Documento técnico de AWS: Best Practices for Tagging AWS Resources](https://docs.aws.amazon.com/whitepapers/latest/tagging-best-practices/tagging-best-practices.html) 
+  [Documento técnico de AWS: Organizing Your AWS Environment Using Multiple Accounts](https://docs.aws.amazon.com/whitepapers/latest/organizing-your-aws-environment/organizing-your-aws-environment.html) 
+  [Nube de AWS Operations & Migrations Blog: Build a Cloud Automation Practice for Operational Excellence: Best Practices from AWS Managed Services](https://aws.amazon.com/blogs/mt/build-a-cloud-automation-practice-for-operational-excellence-best-practices-from-aws-managed-services/) 
+  [AWS Workshop: Tagging](https://catalog.workshops.aws/tagging/) 
+  [AWS Service Management Connector](https://aws.amazon.com/service-management-connector/) 

 **Videos relacionados:** 
+  [AWS Knowledge Center Live \$1 Tagging AWS Resources](https://www.youtube.com/watch?v=MX9DaAQS15I) 
+  [AWS re:Invent 2020 \$1 Automate anything with AWS Systems Manager](https://www.youtube.com/watch?v=AaI2xkW85yE) 
+  [AWS re:Inforce 2022 \$1 Automating patch management and compliance using AWS (NIS306)](https://www.youtube.com/watch?v=gL3baXQJvc0) 
+  [Soportes You \$1 Diving Deep into AWS Systems Manager](https://www.youtube.com/watch?v=xHNLNTa2xGU) 

# OPS02-BP04 Mecanismos existentes para administrar las responsabilidades y la propiedad
OPS02-BP04 Mecanismos existentes para administrar las responsabilidades y la propiedad

 Conozca las responsabilidades de su rol y cómo contribuye a los resultados empresariales, ya que este conocimiento determina la prioridad de sus tareas y por qué su rol es importante. Esto ayuda a los miembros del equipo a reconocer las necesidades y responder de la forma adecuada. Cuando los miembros del equipo conocen su rol, pueden establecer la propiedad, identificar oportunidades de mejora y saber cómo influir o hacer los cambios apropiados. 

 En ocasiones, es posible que una responsabilidad no tenga un propietario claro. En estas situaciones, diseñe un mecanismo para resolver esta carencia. Cree una ruta de derivación bien definida a alguien con autoridad para asignar la propiedad o planificar la forma de satisfacer la necesidad. 

 **Resultado deseado:** los equipos de su organización tienen responsabilidades claramente definidas que incluyen su relación con los recursos, las acciones que se deben llevar a cabo, los procesos y los procedimientos. Estas responsabilidades se corresponden con las responsabilidades y objetivos del equipo, así como con las responsabilidades de otros equipos. Debe documentar las rutas de derivación de una manera uniforme y fácil de encontrar y debe introducir estas decisiones en artefactos de documentación, como matrices de responsabilidad, definiciones de equipos o páginas wiki. 

 **Patrones comunes de uso no recomendados:** 
+  Las responsabilidades del equipo son ambiguas o están mal definidas. 
+  Los roles del equipo no se corresponden con las responsabilidades. 
+  El equipo no ajusta sus metas y objetivos a sus responsabilidades, lo que dificulta la medición del éxito. 
+  Las responsabilidades de los miembros del equipo no se corresponden con las del equipo ni con la organización en general. 
+  Su equipo no mantiene actualizadas las responsabilidades, lo que las hace incoherentes con las tareas que lleva a cabo. 
+  Las rutas de derivación para determinar las responsabilidades no están definidas o no son claras. 
+  Las rutas de derivación no tienen un único propietario que garantice una respuesta oportuna. 
+  Los roles, las responsabilidades y las rutas de derivación no son fáciles de encontrar y no están disponibles cuando son necesarios (por ejemplo, en respuesta a un incidente). 

 **Beneficios de establecer esta práctica recomendada:** 
+  Cuando sepa quién tiene la responsabilidad o la propiedad, podrá contactar con el equipo o el miembro del equipo adecuado para presentar una solicitud o la transición de una tarea. 
+  Para reducir el riesgo de inacción y de que existan necesidades no atendidas, ha identificado a una persona que tiene la autoridad para asignar la responsabilidad o la propiedad. 
+  Cuando define claramente el alcance de una responsabilidad, los miembros de su equipo ganan autonomía y propiedad. 
+  Sus responsabilidades determinan las decisiones que toma, las acciones que emprende y las actividades que transfiere a sus propietarios adecuados. 
+  Es fácil identificar las responsabilidades abandonadas porque tiene una idea clara de lo que queda fuera de la responsabilidad de su equipo, lo que le ayuda a derivar los problemas para aclararlos. 
+  Los equipos evitan la confusión y la tensión, y pueden administrar más adecuadamente sus cargas de trabajo y sus recursos. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 Identifique los roles y responsabilidades de los miembros del equipo y asegúrese de que conozcan las expectativas de su rol. Haga que esta información sea fácil de encontrar para que los miembros de su organización puedan identificar con quién deben contactar, ya sea un equipo o una persona. Cuando las organizaciones tratan de aprovechar las oportunidades de migrar y modernizar en AWS, los roles y responsabilidades también podrían cambiar. Mantenga a sus equipos y a sus miembros al corriente de sus responsabilidades y proporcióneles la formación adecuada para llevar a cabo sus tareas durante este cambio. 

 Determine el rol o el equipo que debe recibir las derivaciones para identificar la responsabilidad y la propiedad. Este equipo puede interactuar con varias partes interesadas para tomar una decisión. Sin embargo, deben ser propietarios de la administración del proceso de toma de decisiones. 

 Proporcione mecanismos accesibles para que los miembros de su organización descubran e identifiquen la propiedad y la responsabilidad. Estos mecanismos les enseñan con quién contactar para necesidades específicas. 

 **Ejemplo de cliente** 

 AnyCompany Retail completó recientemente una migración de cargas de trabajo desde un entorno en las instalaciones a su zona de aterrizaje en AWS con un enfoque de migración mediante lift-and-shift. Revisó las operaciones para determinar cómo llevar a cabo las tareas operativas comunes y verificó que su matriz de responsabilidades existente refleja las operaciones en el nuevo entorno. Cuando migró de un entorno en las instalaciones a AWS, redujo las responsabilidades de los equipos de infraestructura relacionadas con el hardware y la infraestructura física. Esta medida también dio lugar a nuevas oportunidades para hacer evolucionar el modelo operativo de sus cargas de trabajo. 

 Aunque identificó, abordó y documentó la mayoría de las responsabilidades, también definió rutas de derivación para cualquier responsabilidad que se hubiera pasado por alto o que pudiera tener que cambiar a medida que evolucionaran las prácticas operativas. Para explorar nuevas oportunidades para estandarizar y mejorar la eficiencia de sus cargas de trabajo, proporcione acceso a herramientas operativas como AWS Systems Manager y herramientas de seguridad como AWS Security Hub CSPM y Amazon GuardDuty. AnyCompany Retail revisa las responsabilidades y la estrategia en función de las mejoras que quiere abordar en primer lugar. A medida que la empresa adopta nuevas formas de trabajo y patrones tecnológicos, actualiza su matriz de responsabilidad de la forma correspondiente. 

### Pasos para la implementación
Pasos para la implementación

1.  Comience con la documentación existente. Estos son algunos documentos iniciales típicos: 

   1.  Matrices de responsabilidad o de responsable, encargado, consultado e informado (RACI) 

   1.  Definiciones de equipo o páginas wiki 

   1.  Definiciones y ofertas de servicios 

   1.  Descripciones de roles o puestos 

1.  Revise y organice debates sobre las responsabilidades documentadas: 

   1.  Lleve a cabo una revisión con los equipos para identificar desajustes entre las responsabilidades documentadas y las responsabilidades que el equipo suele desempeñar. 

   1.  Analice los posibles servicios que ofrecen los clientes internos para identificar las diferencias de expectativas entre los equipos. 

1.  Analice y aborde las discrepancias. 

1.  Identifique oportunidades de mejora. 

   1.  Identifique las solicitudes más frecuentes y que requieren más recursos, que suelen ser firmes candidatas a una mejora. 

   1.  Busque las prácticas recomendadas, conozca los patrones, siga las recomendaciones y simplifique y estandarice las mejoras. 

   1.  Registre las oportunidades de mejora y haga un seguimiento de ellas hasta el final. 

1.  Si un equipo aún no tiene la responsabilidad de administrar y hacer un seguimiento de la asignación de responsabilidades, identifique a alguien del equipo para que asuma esta responsabilidad. 

1.  Defina un proceso para que los equipos soliciten una aclaración de la responsabilidad. 

   1.  Revise el proceso y verifique que sea claro y fácil de usar. 

   1.  Asegúrese de que alguien sea el propietario de las derivaciones y haga un seguimiento de ellas hasta el final. 

   1.  Establezca métricas operativas para medir la eficacia. 

   1.  Cree mecanismos para obtener comentarios para verificar que los equipos puedan llamar la atención sobre las oportunidades de mejora. 

   1.  Implemente un mecanismo de revisión periódica. 

1.  Lleve a cabo la documentación en una ubicación accesible y reconocible. 

   1.  Las wikis o el portal de documentación son opciones comunes. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS01-BP06 Evaluación de las compensaciones](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_priorities_eval_tradeoffs.html) 
+  [OPS03-BP02 Preparación de los miembros del equipo para actuar cuando los resultados están en riesgo](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_team_emp_take_action.html) 
+  [OPS03-BP03 Fomento de la derivación](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_team_enc_escalation.html) 
+  [OPS03-BP07 Recursos adecuados para los equipos](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_team_res_appro.html) 
+  [OPS09-BP01 Medición de los objetivos operativos y los KPI con métricas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_measure_ops_goals_kpis.html) 
+  [OPS09-BP03 Revisión de las métricas de las operaciones y priorización de las mejoras](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_review_ops_metrics_prioritize_improvement.html) 
+  [OPS11-BP01 Implementación de un proceso de mejora continua](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_process_cont_imp.html) 

 **Documentos relacionados:** 
+  [Documento técnico de AWS: Introducción a DevOps en AWS](https://docs.aws.amazon.com/whitepapers/latest/introduction-devops-aws/automation.html) 
+  [Documento técnico de AWS: Nube de AWS Cloud Adoption Framework: Operations Perspective](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/aws-caf-operations-perspective.html) 
+  [Excelencia operativa del Marco de AWS Well-Architected: Representaciones 2 por 2 del modelo operativo](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/operating-model-2-by-2-representations.html) 
+  [Guía prescriptiva de AWS: Building your Cloud Operating Model](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-cloud-operating-model/welcome.html) 
+  [Guía prescriptiva de AWS: Create a RACI or RASCI matrix for a cloud operating model](https://docs.aws.amazon.com/prescriptive-guidance/latest/patterns/create-a-raci-or-rasci-matrix-for-a-cloud-operating-model.html) 
+  [Nube de AWS Operations & Migrations Blog - Delivering Business Value with Cloud Platform Teams](https://aws.amazon.com/blogs/mt/delivering-business-value-with-cloud-platform-teams/) 
+  [Nube de AWS Operations & Migrations Blog - Why a Cloud Operating Model?](https://aws.amazon.com/blogs/mt/why-a-cloud-operating-model/) 
+  [AWS DevOps Blog - How organizations are modernizing for cloud operations](https://aws.amazon.com/blogs/devops/how-organizations-are-modernizing-for-cloud-operations/) 

 **Videos relacionados:** 
+  [AWS Summit Online - Cloud Operating Models for Accelerated Transformation](https://www.youtube.com/watch?v=ksJ5_UdYIag) 
+  [AWS re:Invent 2023 - Future-proofing cloud security: A new operating model](https://www.youtube.com/watch?v=GFcKCz1VO2I) 

# OPS02-BP05 Mecanismos para solicitar adiciones, cambios y excepciones
OPS02-BP05 Mecanismos para solicitar adiciones, cambios y excepciones

Puede presentar solicitudes a los propietarios de los procesos, procedimientos y recursos. Las solicitudes incluyen adiciones, cambios y excepciones. Estas solicitudes pasan por un proceso de administración de cambios. Tome decisiones fundamentadas para aprobar las solicitudes cuando sean viables y se determine que son adecuadas tras una evaluación de los beneficios y los riesgos. 

 **Resultado deseado:** 
+  Puede presentar solicitudes para cambiar procesos, procedimientos y recursos en función de la propiedad asignada. 
+  Los cambios se hacen de forma deliberada y se tienen en cuenta los beneficios y los riesgos. 

 **Patrones comunes de uso no recomendados:** 
+  Debe actualizar la forma de implementar su aplicación, pero no hay forma de solicitar un cambio en el proceso de implementación al equipo de operaciones. 
+  El plan de recuperación de desastres debe actualizarse, pero no hay ningún propietario identificado al que solicitar cambios. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Los procesos, los procedimientos y los recursos pueden evolucionar a medida que cambian los requisitos. 
+  Los propietarios pueden tomar decisiones fundamentadas cuando hacen cambios. 
+  Los cambios se hacen de forma deliberada. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 Para implementar esta práctica recomendada, debe poder solicitar cambios en los procesos, los procedimientos y los recursos. El proceso de administración de los cambios puede ser ligero. Documente el proceso de administración de cambios. 

 **Ejemplo de cliente** 

 AnyCompany Retail utiliza una matriz de asignación de responsabilidades (RACI) para identificar a quién corresponden los cambios en los procesos, los procedimientos y los recursos. Dispone de un proceso de administración de cambios documentado, ligero y fácil de seguir. Con la matriz RACI y el proceso, cualquiera puede enviar solicitudes de cambio. 

 **Pasos para la implementación** 

1.  Identifique los procesos, los procedimientos y los recursos de su carga de trabajo y los responsables de cada uno de ellos. Documéntelos en su sistema de administración de conocimientos. 

   1.  Si no ha implementado [OPS02-BP01 Recursos con propietarios identificados](ops_ops_model_def_resource_owners.md), [OPS02-BP02 Procesos y procedimientos con propietarios identificados](ops_ops_model_def_proc_owners.md) o [OPS02-BP03 Actividades operativas con propietarios identificados responsables de su rendimiento](ops_ops_model_def_activity_owners.md), empiece con ellos en primer lugar. 

1.  Colabore con las partes interesadas de su organización para desarrollar un proceso de administración de cambios. El proceso debe abarcar las incorporaciones, los cambios y las excepciones de recursos, procesos y procedimientos. 

   1.  Puede utilizar el [Administrador de cambios de AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/change-manager.html) como plataforma de gestión de cambios para los recursos de carga de trabajo. 

1.  Documente el proceso de administración de cambios en su sistema de administración de conocimientos. 

 **Nivel de esfuerzo para el plan de implementación:** medio. El desarrollo de un proceso de administración de cambios requiere la coordinación con las múltiples partes interesadas de toda la organización. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS02-BP01 Recursos con propietarios identificados](ops_ops_model_def_resource_owners.md): es necesario identificar a los propietarios de los recursos antes de crear un proceso de gestión de cambios. 
+  [OPS02-BP02 Procesos y procedimientos con propietarios identificados](ops_ops_model_def_proc_owners.md): es necesario identificar a los propietarios de los procesos antes de crear un proceso de gestión de cambios. 
+  [OPS02-BP03 Actividades operativas con propietarios identificados responsables de su rendimiento](ops_ops_model_def_activity_owners.md): es necesario identificar a los propietarios de las actividades operativas antes de crear un proceso de gestión de cambios. 

 **Documentos relacionados:** 
+ [Guía prescriptiva de AWS: Foundation playbook for AWS large migrations: Creating RACI matrices ](https://docs.aws.amazon.com/prescriptive-guidance/latest/large-migration-foundation-playbook/team-org.html#raci)
+ [ Documento técnico Change Management in the Cloud ](https://docs.aws.amazon.com/whitepapers/latest/change-management-in-the-cloud/change-management-in-the-cloud.html)

 **Servicios relacionados:** 
+ [AWS Systems Manager Change Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/change-manager.html)

# OPS02-BP06 Responsabilidades predefinidas o negociadas entre equipos
OPS02-BP06 Responsabilidades predefinidas o negociadas entre equipos

Posibilite que se definan o negocien acuerdos entre equipos que describan cómo trabajan y se apoyan mutuamente (por ejemplo, tiempos de respuesta, objetivos de nivel de servicio o acuerdos de nivel de servicio). Los canales de comunicación entre equipos están documentados. Comprender el impacto del trabajo de los equipos en los resultados de la empresa y los resultados de otros equipos y organizaciones fundamenta la priorización de sus tareas y contribuye a que respondan adecuadamente. 

 Cuando la responsabilidad y la propiedad no están definidas o se desconocen, se corre el riesgo de que no se aborden las actividades necesarias a tiempo y de que se hagan esfuerzos repetidos y potencialmente conflictivos para satisfacer esas necesidades. 

 **Resultado deseado:** 
+  Se acuerdan y documentan los acuerdos de trabajo o asistencia entre equipos. 
+  Los equipos que se prestan asistencia o colaboran entre sí tienen definidos los canales de comunicación y las expectativas de respuesta. 

 **Patrones comunes de uso no recomendados:** 
+  Se produce un problema en producción y dos equipos distintos empiezan a solucionar los problemas independientemente el uno del otro. Sus esfuerzos aislados prolongan la interrupción. 
+  El equipo de operaciones necesita ayuda del equipo de desarrollo, pero no hay un tiempo de respuesta acordado. La solicitud está atascada en la lista de tareas pendientes. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Los equipos saben cómo interactuar y prestarse asistencia mutua. 
+  Se conocen las expectativas de capacidad de respuesta. 
+  Los canales de comunicación están claramente definidos. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** bajo 

## Guía para la implementación
Guía para la implementación

 La implementación de esta práctica recomendada significa que no existe ninguna ambigüedad sobre cómo colaboran los equipos. Los acuerdos formales codifican la forma en que los equipos trabajan juntos o se prestan asistencia mutua. Los canales de comunicación entre equipos están documentados. 

 **Ejemplo de cliente** 

 El equipo de SRE de AnyCompany Retail tiene un acuerdo de nivel de servicio con su equipo de desarrollo. Cada vez que el equipo de desarrollo presenta una solicitud en su sistema de tickets, puede esperar una respuesta en quince minutos. Si se produce una interrupción en el sitio, el equipo de SRE toma la iniciativa en la investigación con la ayuda del equipo de desarrollo. 

 **Pasos para la implementación** 

1.  En colaboración con las partes interesadas de toda su organización, desarrolle acuerdos entre los equipos basados en procesos y procedimientos. 

   1.  Si dos equipos comparten un proceso o un procedimiento, elabore un manual de procedimientos sobre cómo colaborarán. 

   1.  Si existen dependencias entre los equipos, acuerde un SLA de respuesta para las solicitudes. 

1.  Documente las responsabilidades en su sistema de administración de conocimientos. 

 **Nivel de esfuerzo para el plan de implementación:** medio. Si no existen acuerdos entre los equipos, puede resultar difícil llegar a un acuerdo con las partes interesadas de toda la organización. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS02-BP02 Procesos y procedimientos con propietarios identificados](ops_ops_model_def_proc_owners.md): se debe identificar la propiedad del proceso antes de establecer acuerdos entre los equipos. 
+  [OPS02-BP03 Actividades operativas con propietarios identificados responsables de su rendimiento](ops_ops_model_def_activity_owners.md): se debe identificar la propiedad de las actividades operativas antes de establecer acuerdos entre los equipos. 

 **Documentos relacionados:** 
+ [AWS Executive Insights: Estimulación de la innovación y la velocidad con los equipos de dos pizzas de Amazon ](https://aws.amazon.com/executive-insights/content/amazon-two-pizza-team/)
+ [ Introducción a DevOps en AWS: Equipos de dos pizzas ](https://docs.aws.amazon.com/whitepapers/latest/introduction-devops-aws/two-pizza-teams.html)

# OPS 3. ¿Cómo ayuda la cultura de su organización a lograr los resultados empresariales?


 Ayude a los miembros de su equipo para que puedan actuar de manera más eficaz y contribuir a avanzar hacia los objetivos de la empresa. 

**Topics**
+ [

# OPS03-BP01 Respaldo del área ejecutiva
](ops_org_culture_executive_sponsor.md)
+ [

# OPS03-BP02 Preparación de los miembros del equipo para actuar cuando los resultados están en riesgo
](ops_org_culture_team_emp_take_action.md)
+ [

# OPS03-BP03 Fomento de la derivación
](ops_org_culture_team_enc_escalation.md)
+ [

# OPS03-BP04 Comunicaciones oportunas, claras y procesables
](ops_org_culture_effective_comms.md)
+ [

# OPS03-BP05 Fomento de la experimentación
](ops_org_culture_team_enc_experiment.md)
+ [

# OPS03-BP06 Fomento para que los miembros del equipo mantengan y aumenten su conjunto de competencias
](ops_org_culture_team_enc_learn.md)
+ [

# OPS03-BP07 Recursos adecuados para los equipos
](ops_org_culture_team_res_appro.md)

# OPS03-BP01 Respaldo del área ejecutiva
OPS03-BP01 Respaldo del área ejecutiva

 En el nivel más alto, los líderes sénior actúan como patrocinadores ejecutivos para fijar de forma clara las expectativas y la dirección de los resultados de la organización, incluida la evaluación de su éxito. El patrocinador defiende e impulsa la adopción de las prácticas recomendadas y la evolución de la organización. 

 **Resultado deseado:** las organizaciones que se esfuerzan por adoptar, transformar y optimizar sus operaciones en la nube establecen líneas claras de liderazgo y responsabilidad para lograr los resultados deseados. La organización sabe cuáles son todas las capacidades que necesita para lograr un nuevo resultado y asigna la propiedad a los equipos funcionales para su desarrollo. Los líderes marcan activamente esta dirección, asignan la propiedad, asumen la responsabilidad y definen el trabajo. Como resultado, las personas de toda la organización pueden movilizarse, sentirse inspiradas y trabajar activamente para alcanzar los objetivos deseados. 

 **Patrones comunes de uso no recomendados:** 
+  Los propietarios de las cargas de trabajo tienen la obligación de migrarlas a AWS sin un patrocinador y un plan claros para las operaciones en la nube. El resultado es que los equipos no colaboran conscientemente para mejorar y madurar sus capacidades operativas. La falta de prácticas recomendadas operativas estándar sobrecarga a los equipos (por ejemplo, trabajos de operadores, guardias y deuda técnica), lo que limita la innovación. 
+  Se ha fijado el objetivo de adoptar una tecnología emergente en toda la organización sin proporcionar ningún patrocinador de liderazgo ni estrategia. Los equipos interpretan los objetivos de manera diferente, lo que genera confusión sobre dónde centrar los esfuerzos, por qué son importantes y cómo medir la repercusión. En consecuencia, la organización pierde impulso a la hora de adoptar la tecnología. 

 **Beneficios de establecer esta práctica recomendada:** cuando el patrocinio ejecutivo comunica y comparte la visión, la dirección y los objetivos de una forma clara, los miembros del equipo saben lo que se espera de ellos. Cuando los líderes participan activamente, las personas y los equipos comienzan a centrar intensamente sus esfuerzos en la misma dirección para lograr los objetivos definidos. Como resultado, la organización aumenta al máximo la posibilidad de éxito. Si evalúa el éxito, podrá identificar mejor las barreras que impiden conseguirlo para abordarlas mediante la intervención del patrocinador ejecutivo. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación
+  En cada fase del traspaso a la nube (migración, adopción u optimización), el éxito requiere una implicación activa al más alto nivel de liderazgo y que haya un patrocinador ejecutivo designado. El patrocinador ejecutivo ajusta la mentalidad, las competencias y las formas de trabajar del equipo con la estrategia definida. 
  +  **Explicación del *motivo*:** aclare y explique el razonamiento que hay detrás de la visión y la estrategia. 
  +  **Definición de expectativas:** defina y publique los objetivos de sus organizaciones, incluida la forma en que se miden el progreso y el éxito. 
  +  **Seguimiento del logro de los objetivos:** mida el logro gradual de los objetivos con regularidad (no solo la finalización de las tareas). Comparta las conclusiones para que puedan tomarse las medidas adecuadas si los resultados están en peligro. 
  +  **Disposición de los recursos necesarios para alcanzar sus objetivos:** reúna a las personas y los equipos para que colaboren y creen las soluciones adecuadas que dan lugar a los resultados definidos. Esto reduce o elimina la fricción organizativa. 
  +  **Apoyo a los equipos:** manténgase en contacto con los equipos para conocer su rendimiento y saber si hay factores externos que les afectan. Identifique los obstáculos que impiden que el equipo avance. Actúe en nombre de sus equipos para ayudar a abordar los obstáculos y eliminar las cargas innecesarias. Cuando sus equipos se vean afectados por factores externos, vuelva a evaluar los objetivos y ajústelos según convenga. 
  +  **Impulso de la adopción de prácticas recomendadas:** reconozca las prácticas recomendadas que proporcionan beneficios cuantificables y exprese su reconocimiento a sus creadores y a los que las han adoptado. Fomente una mayor adopción para incrementar los beneficios conseguidos. 
  +  **Fomento de la evolución de sus equipos:** cree una cultura de mejora continua y aprenda de forma proactiva tanto de los avances logrados como de los fracasos. Fomente el crecimiento y el desarrollo tanto personal como de la organización. Utilice datos y anécdotas para desarrollar la visión y la estrategia. 

 **Ejemplo de cliente** 

 AnyCompany Retail está en proceso de transformación empresarial mediante la rápida reinvención de las experiencias de los clientes, la mejora de la productividad y la aceleración del crecimiento a través de la IA generativa. 

### Pasos para la implementación
Pasos para la implementación

1.  Establezca un liderazgo de un solo enfoque y asigne un patrocinador ejecutivo principal para dirigir e impulsar la transformación. 

1.  Defina unos resultados empresariales claros de su transformación y asigne la propiedad y la responsabilidad. Otorgue al ejecutivo principal la autoridad para dirigir y tomar decisiones críticas. 

1.  Verifique que su estrategia de transformación sea muy clara y que el patrocinador ejecutivo la comunique de forma generalizada en todos los niveles de la organización. 

   1.  Defina con claridad los objetivos empresariales para las iniciativas de TI y la nube. 

   1.  Documente las métricas empresariales clave para impulsar la transformación de TI y la nube. 

   1.  Comunique la visión de manera uniforme a todos los equipos y personas responsables de alguna parte de la estrategia. 

1.  Desarrolle matrices de planificación de la comunicación en las que se especifique qué mensaje debe darse a los líderes, gerentes y colaboradores individuales específicos. Especifique la persona o el equipo que debe entregar este mensaje. 

   1.  Siga los planes de comunicación de manera uniforme y fiable. 

   1.  Marque y administre las expectativas a través de eventos presenciales de forma regular. 

   1.  Acepte los comentarios sobre la eficacia de las comunicaciones y ajuste las comunicaciones y el plan en consecuencia. 

   1.  Programe eventos de comunicación para conocer de manera proactiva los desafíos de los equipos y establezca un ciclo de comentarios uniforme que permita corregir el rumbo cuando sea necesario. 

1.  Comprométase activamente con cada iniciativa desde una perspectiva de liderazgo para verificar que todos los equipos afectados conocen los resultados que deben alcanzar. 

1.  En cada reunión de estado, los patrocinadores ejecutivos deben buscar los obstáculos, inspeccionar las métricas establecidas, las anécdotas o los comentarios de los equipos y medir el progreso hacia los objetivos. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS03-BP04 Comunicaciones oportunas, claras y procesables](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_effective_comms.html) 
+  [OP11-BP01 Implementación de un proceso de mejora continua](wellarchitected/latest/operational-excellence-pillar/evolve/learn_share_and_improve/ops_evolve_ops_process_cont_imp.html) 
+  [OPS11-BP07 Revisiones de métricas de operaciones](wellarchitected/latest/operational-excellence-pillar/evolve/learn_share_and_improve/ops_evolve_ops_metrics_review.html) 

 **Documentos relacionados:** 
+  [Untangling Your Organisational Hairball: Highly Aligned](https://aws.amazon.com/blogs/enterprise-strategy/untangling-your-organisational-hairball-highly-aligned/) 
+  [The Living Transformation: Pragmatically approaching changes](https://aws.amazon.com/blogs/enterprise-strategy/the-living-transformation-pragmatically-approaching-changes/) 
+  [Becoming a Future-Ready Enterprise](https://aws.amazon.com/blogs/enterprise-strategy/becoming-a-future-ready-enterprise/) 
+  [7 Pitfalls to Avoid When Building a CCOE](https://aws.amazon.com/blogs/enterprise-strategy/7-pitfalls-to-avoid-when-building-a-ccoe/) 
+  [Navigating the Cloud: Key Performance Indicators for Success](https://aws.amazon.com/blogs/enterprise-strategy/navigating-the-cloud-key-performance-indicators-for-success/) 

 **Videos relacionados:** 
+  [AWS re:Invent 2023: A leader's guide to generative AI: Using history to shape the future (SEG204)](https://youtu.be/e3snrDsct1o) 

 **Ejemplos relacionados:** 
+  [Prosci: Primary Sponsor's Role and Importance](https://www.prosci.com/blog/primary-sponsors-role-and-importance) 

# OPS03-BP02 Preparación de los miembros del equipo para actuar cuando los resultados están en riesgo
OPS03-BP02 Preparación de los miembros del equipo para actuar cuando los resultados están en riesgo

 Si el comportamiento cultural de propiedad lo inculcan los líderes, todos los empleados se sentirán preparados para actuar en nombre de toda la empresa más allá del ámbito definido de su rol y responsabilidad. Los empleados pueden actuar para identificar de forma proactiva los riesgos a medida que surjan y tomar las medidas adecuadas. Una cultura así permite a los empleados tomar decisiones de alto valor con conocimiento de la situación. 

 Por ejemplo, Amazon utiliza los [Principios de liderazgo](https://www.amazon.jobs/content/en/our-workplace/leadership-principles) como directrices para que los empleados tengan el comportamiento deseado para desenvolverse en diferentes situaciones, resolver problemas, abordar conflictos y tomar medidas. 

 **Resultado deseado:** los líderes han influido en una nueva cultura que permite a las personas y los equipos tomar decisiones críticas, incluso en los niveles inferiores de la organización (siempre que las decisiones se definan con permisos y mecanismos de seguridad auditables). No se desalienta el fracaso y los equipos aprenden iterativamente a mejorar su toma de decisiones y sus respuestas para afrontar situaciones similares en el futuro. Si las acciones de alguien se traducen en una mejora que puede beneficiar a otros equipos, se comparten de forma proactiva los conocimientos derivados de dichas acciones. Los líderes miden las mejoras operativas e incentivan al individuo y a la organización para que adopten dichos patrones. 

 **Patrones comunes de uso no recomendados:** 
+  No hay directrices ni mecanismos claros en una organización sobre qué hacer cuando se identifica un riesgo. Por ejemplo, cuando un empleado se da cuenta de que ha sufrido ataque de phishing, no informa al equipo de seguridad, lo que hace que una gran parte de la organización caiga en la trampa del ataque. Esto da lugar a una vulneración de los datos. 
+  Sus clientes se quejan de la falta de disponibilidad del servicio, que se debe principalmente a fallos de implementación. Su equipo de SRE es responsable de la herramienta de implementación y figura la reversión automática de las implementaciones en su hoja de ruta a largo plazo. En una implementación reciente de una aplicación, a uno de los ingenieros se le ocurrió una solución para automatizar la reversión de su aplicación a una versión anterior. Aunque su solución puede convertirse en el patrón para los equipos de SRE, otros equipos no la adoptan, ya que no existe un proceso para hacer un seguimiento de dichas mejoras. La organización sigue plagada de implementaciones fallidas que afectan a los clientes y aumentan el sentimiento negativo. 
+  Para cumplir las normativas, su equipo de seguridad de la información supervisa un proceso establecido desde hace tiempo para rotar regularmente las claves SSH compartidas en nombre de los operadores que se conectan a sus instancias de Amazon EC2 en Linux. Los equipos de seguridad de la información tardan varios días en completar la rotación de claves y no puede conectarse a esas instancias. Nadie, dentro ni fuera del equipo de seguridad de la información, sugiere utilizar otras opciones en AWS para lograr el mismo resultado. 

 **Beneficios de establecer esta práctica recomendada:** al descentralizar la autoridad para tomar decisiones y preparar a sus equipos para que tomen decisiones clave, puede abordar los problemas más rápidamente con unos índices de éxito cada vez mayores. Además, los equipos empiezan a darse cuenta del sentido de propiedad, y los fracasos son aceptables. La experimentación se convierte en un pilar cultural. Los gerentes y directores no se sienten controlados al mínimo detalle en todos los aspectos de su trabajo. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

1.  Desarrolle una cultura en la que se espere que puedan producirse fallos. 

1.  Defina claramente la propiedad y la responsabilidad de las distintas áreas funcionales de la organización. 

1.  Comunique la propiedad y la responsabilidad a todo el mundo para que las personas sepan quién puede ayudarles a tomar decisiones descentralizadas. 

1.  Defina sus decisiones unidireccionales y bidireccionales para ayudar a las personas a saber cuándo deben derivar a niveles más altos de liderazgo. 

1.  Conciencie a toda la organización de que todos los empleados están facultados para actuar a varios niveles cuando los resultados están en peligro. Proporcione a los miembros de su equipo documentación sobre gobernanza, niveles de permisos, herramientas y oportunidades para practicar las competencias necesarias para responder con eficacia. 

1.  Dé a los miembros de su equipo la oportunidad de practicar las competencias necesarias para responder a diversas decisiones. Una vez que se hayan definido los niveles de decisión, lleva a cabo eventos de GameDay para verificar que todos los colaboradores individuales conozcan y puedan demostrar el proceso. 

   1.  Proporcione entornos alternativos seguros en los que se puedan probar y entrenar los procesos y procedimientos. 

   1.  Confirme que los miembros del equipo tengan autoridad para tomar medidas cuando el resultado tenga un nivel de riesgo predefinido y conciencie sobre esa idea. 

   1.  Defina la autoridad de los miembros del equipo para tomar medidas mediante la asignación de permisos y acceso a las cargas de trabajo y los componentes que respaldan. 

1.  Proporcione a los equipos la capacidad de compartir lo que han aprendido (éxitos y fracasos operativos). 

1.  Prepare a los equipos para que desafíen el statu quo y proporcione mecanismos para rastrear y medir las mejoras, así como su repercusión en la organización. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS01-BP06 Evaluación de las compensaciones al administrar los beneficios y los riesgos](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_priorities_eval_tradeoffs.html) 
+  [OPS02-BP05 Mecanismos para solicitar adiciones, cambios y excepciones](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_req_add_chg_exception.html) 

 **Documentos relacionados:** 
+  [Entrada en el blog de AWS: The agile enterprise](https://aws.amazon.com/blogs/enterprise-strategy/the-agile-enterprise/) 
+  [Entrada en el blog de AWS: Measuring success: A paradox and a plan](https://aws.amazon.com/blogs/enterprise-strategy/measuring-success-a-paradox-and-a-plan/) 
+  [Entrada en el blog de AWS: Letting go: Enabling autonomy in teams](https://aws.amazon.com/blogs/enterprise-strategy/letting-go-enabling-autonomy-in-teams/) 
+  [Centralize or Decentralize?](https://aws.amazon.com/blogs/enterprise-strategy/centralize-or-decentralize/) 

 **Videos relacionados:** 
+  [re:Invent 2023 \$1 How to not sabotage your transformation (SEG201)](https://www.youtube.com/watch?v=heLvxK5N8Aw) 
+  [re:Invent 2021 \$1 Amazon Builders' Library: Operational Excellence at Amazon](https://www.youtube.com/watch?v=7MrD4VSLC_w) 
+  [Centralization vs. Decentralization](https://youtu.be/jviFsd4hhfE?si=fjt8avVAYxA9jF01) 

 **Ejemplos relacionados:** 
+  [Using architectural decision records to streamline technical decision-making for a software development project](https://docs.aws.amazon.com/prescriptive-guidance/latest/architectural-decision-records/welcome.html) 

# OPS03-BP03 Fomento de la derivación
OPS03-BP03 Fomento de la derivación

 Los líderes animan a los miembros del equipo a derivar los problemas y preocupaciones a los responsables de la toma de decisiones de mayor nivel y las partes interesadas si creen que los resultados deseados están en peligro y no se cumplen los estándares esperados. Esta es una característica de la cultura de la organización y se impulsa en todos los niveles. La derivación debe hacerse de forma temprana y frecuente para poder identificar los riesgos y evitar que provoquen incidentes. Los líderes no reprenden a las personas por derivar un problema. 

 **Resultado deseado:** las personas de toda la organización se sienten cómodas al derivar los problemas a sus niveles de liderazgo inmediatos y superiores. Los líderes han establecido de forma deliberada y consciente expectativas para que sus equipos se sientan seguros para derivar cualquier asunto. Existe un mecanismo para derivar los problemas en cada nivel de la organización. Cuando los empleados recurren a su gerente, deciden conjuntamente el grado de repercusión y si el problema debe derivarse. Para iniciar una derivación, los empleados deben incluir un plan de trabajo recomendado para abordar el problema. Si el equipo directivo directo no toma las medidas oportunas, se anima a los empleados a que lleven los problemas al nivel más alto de liderazgo si creen firmemente que los riesgos para la organización justifican la derivación. 

 **Patrones comunes de uso no recomendados:** 
+  Los líderes ejecutivos no hacen suficientes preguntas de sondeo durante la reunión sobre el estado de su programa de transformación en la nube para averiguar dónde se producen los problemas y los obstáculos. Solo se les informa de las buenas noticias. La CIO ha dejado claro que solo le gusta escuchar buenas noticias, ya que cualquier reto que se plantee hace pensar al CEO que el programa está fracasando. 
+  Es un ingeniero de operaciones en la nube y observa que los equipos de aplicaciones no están adoptando de forma generalizada el nuevo sistema de administración del conocimiento. La empresa invirtió un año y varios millones de dólares para implementar este nuevo sistema de administración del conocimiento, pero la gente sigue creando sus manuales de procedimientos localmente y compartiéndolos en un recurso compartido en la nube de la organización, lo que hace difícil buscar información relativa a las cargas de trabajo asumidas. Trata de llamar la atención de los líderes sobre este asunto, porque un uso uniforme de este sistema puede mejorar la eficacia operativa. Cuando se lo plantea a la directora que dirigió la implementación del sistema de administración del conocimiento, esta le reprende porque pone en entredicho la inversión. 
+  El equipo de seguridad de la información responsable de reforzar los recursos de computación ha decidido implementar un proceso que exige llevar a cabo los análisis necesarios para garantizar que las instancias de EC2 estén totalmente protegidas antes de que el equipo de computación publique el recurso para su uso. A causa de esto, se ha producido un retraso de una semana en la implementación de los recursos, lo que infringe su SLA. El equipo de computación tiene miedo de derivar esta situación al VP de la nube porque esto hace quedar mal al VP de seguridad de la información. 

 **Beneficios de establecer esta práctica recomendada:** 

 Los problemas complejos o críticos se abordan antes de que afecten al negocio. Se pierde menos tiempo. Los riesgos se minimizan. Los equipos se vuelven más proactivos y se centran en los resultados a la hora de resolver problemas. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 La voluntad y la capacidad de derivar los asuntos libremente en todos los niveles de la organización es una base organizativa y cultural que debe desarrollarse conscientemente a través de una mayor formación, las comunicaciones de los líderes, el establecimiento de expectativas y la implementación de mecanismos en todos los niveles de la organización. 

### Pasos para la implementación
Pasos para la implementación

1.  Defina políticas, estándares y expectativas para su organización. 

   1.  Garantice la adopción y comprensión generalizada de las políticas, expectativas y estándares. 

1.  Anime, forme y prepare a los trabajadores para que deriven los incumplimientos de los estándares cuanto antes y con frecuencia. 

1.  Confirme en el nivel de la organización que la práctica recomendada es derivar cuanto antes y con frecuencia. Acepte que las derivaciones pueden ser infundadas y que es mejor tener la oportunidad de prevenir un incidente que perder esa oportunidad por no haber derivado. 

   1.  Cree un mecanismo de derivación (como un sistema Andon Cord). 

   1.  Disponga de procedimientos documentados que definan cuándo y cómo debe derivarse. 

   1.  Defina quiénes son las personas con mayor autoridad para tomar o aprobar acciones, así como la información de contacto de cada parte interesada. 

1.  Cuando se produce una derivación, esta debe continuar hasta que el miembro del equipo esté convencido de que el riesgo se ha mitigado mediante acciones impulsadas por los líderes. 

   1.  Las derivaciones deben incluir: 

      1.  Descripción de la situación y naturaleza del riesgo 

      1.  Gravedad de la situación 

      1.  Quién o qué se ve afectado 

      1.  Cuál es la repercusión 

      1.  Nivel de urgencia si hay alguna repercusión 

      1.  Soluciones sugeridas y planes de mitigación 

   1.  Proteja a los empleados que derivan. Disponga de una política que proteja a los miembros del equipo frente a represalias si derivan a un responsable de la toma de decisiones o a una parte interesada que no responde. Disponga de mecanismos para identificar si está ocurriendo esto y responder de forma adecuada. 

1.  Fomente una cultura de bucles de retroalimentación de mejora continua en todo lo que produce la organización. Los bucles de retroalimentación sirven como derivaciones menores a las personas responsables e identifican oportunidades de mejora, incluso cuando la derivación no es necesaria. Las culturas de mejora continua obligan a todo el mundo a ser más proactivo. 

1.  Los líderes deben volver a insistir periódicamente en las políticas, los estándares, los mecanismos y el deseo de que se produzcan derivaciones abiertas y bucles de comentarios continuos sin retribución. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS02-BP05 Mecanismos para solicitar adiciones, cambios y excepciones](ops_ops_model_req_add_chg_exception.md) 

 **Documentos relacionados:** 
+  [How do you foster a culture of continuous improvement and learning from Andon and escalation systems?](https://www.linkedin.com/advice/0/how-do-you-foster-culture-continuous-improvement-7054190310033145857) 
+  [The Andon Cord (IT Revolution)](https://itrevolution.com/articles/kata/) 
+  [AWS DevOps Guidance \$1 Establish clear escalation paths and encourage constructive disagreement](https://docs.aws.amazon.com/wellarchitected/latest/devops-guidance/oa.bcl.5-establish-clear-escalation-paths-and-encourage-constructive-disagreement.html) 

 **Videos relacionados:** 
+  [Jeff Bezos on how to make decisions (& increase velocity)](https://www.youtube.com/watch?v=VFwCGECvq4I) 
+  [Toyota Product System: Stopping Production, a Button, and an Andon Electric Board](https://youtu.be/TUKpxjAftnk?si=qohtCCX0q78GDzJu) 
+  [Andon Cord in LEAN Manufacturing](https://youtu.be/HshopyQk720?si=1XJkpCSqJSpk_zE6) 

 **Ejemplos relacionados:** 
+  [Working with escalation plans in Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html) 

# OPS03-BP04 Comunicaciones oportunas, claras y procesables
OPS03-BP04 Comunicaciones oportunas, claras y procesables

 Los líderes son responsables de la creación de comunicaciones sólidas y eficaces, especialmente cuando la organización adopta nuevas estrategias, tecnologías o formas de trabajar. Los líderes deben marcar expectativas para que todo el personal trabaje en pos de los objetivos de la empresa. Diseñe mecanismos de comunicación que creen y mantengan la concienciación entre los equipos responsables de ejecutar los planes financiados y patrocinados por los líderes. Aproveche la diversidad interorganizativa y escuche atentamente las numerosas perspectivas únicas. Utilice esta perspectiva para aumentar la innovación, cuestionar sus suposiciones y reducir el riesgo de sesgo de confirmación. Fomente la inclusión, la diversidad y la accesibilidad en sus equipos para obtener perspectivas que sean beneficiosas. 

 **Resultado deseado:** su organización diseña estrategias de comunicación para abordar la repercusión del cambio en la organización. Los equipos se mantienen informados y motivados para seguir trabajando juntos y no unos contra los otros. Las personas entienden lo importante que es su rol para lograr los objetivos establecidos. El correo electrónico es solo un mecanismo pasivo de comunicación y se usa en consecuencia. Los directivos dedican tiempo a sus colaboradores individuales para ayudarlos a comprender cuál es su responsabilidad, las tareas que deben llevar a cabo y de qué forma su trabajo contribuye a la misión general. Cuando es necesario, los líderes se reúnen directamente con las personas en salas más pequeñas para transmitirles mensajes y verificar que estos se han transmitido de forma eficaz. Como resultado de las buenas estrategias de comunicación, la organización funciona a la altura o por encima de las expectativas de los líderes. Los líderes fomentan y buscan opiniones diversas dentro de los equipos y entre ellos. 

 **Patrones comunes de uso no recomendados:** 
+  Su organización tiene un plan quinquenal para migrar todas las cargas de trabajo a AWS. El argumento empresarial a favor de la nube incluye la modernización del 25 % de todas las cargas de trabajo para aprovechar la tecnología sin servidor. El CIO comunica esta estrategia a sus subordinados directos y espera que cada líder se la transmita en cascada a los gerentes, directores y colaboradores individuales sin ninguna comunicación en persona. El CIO se queda a un lado y espera que su organización lleve a cabo la nueva estrategia. 
+  Los líderes no proporcionan ni utilizan un mecanismo de comentarios y la brecha en las expectativas crece, lo que conduce al estancamiento de los proyectos. 
+  Se le pide que haga un cambio en sus grupos de seguridad, pero no se le da ningún detalle sobre qué cambio hay que hacer, cuál podría ser la repercusión del cambio en todas las cargas de trabajo y cuándo debería producirse. El gerente reenvía un correo electrónico del vicepresidente de seguridad de la información y agrega el mensaje “Make this happen”. 
+  Se han hecho cambios en la estrategia de migración que reducen el número de modernizaciones previstas del 25 % al 10 %. Esto tiene efectos posteriores en la organización de las operaciones. No se les informó de este cambio estratégico y, por lo tanto, no están preparados ni tienen la suficiente capacidad cualificada para admitir un mayor número de cargas de trabajo migradas mediante lift-and-shift a AWS. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Su organización está bien informada sobre las estrategias nuevas o modificadas y actúa en consecuencia con una fuerte motivación para ayudarse mutuamente a alcanzar los objetivos generales y las métricas que han fijado los líderes. 
+  Existen y se utilizan mecanismos para avisar a tiempo a los miembros del equipo de los riesgos conocidos y de los eventos planificados. 
+  La organización adopta de manera más eficaz las nuevas formas de trabajar (incluidos los cambios en las personas o la organización, los procesos o la tecnología), además de las competencias requeridas, y su organización obtiene beneficios empresariales con mayor rapidez. 
+  Los miembros del equipo tienen el contexto necesario de las comunicaciones que reciben y pueden ser más eficaces en su trabajo. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 Para implementar esta práctica recomendada, debe colaborar con las partes interesadas de toda su organización para acordar unos estándares de comunicación. Dé a conocer esos estándares a su organización. En cualquier transición de TI importante, un equipo de planificación establecido puede administrar con más éxito la repercusión del cambio en su personal que una organización que no sigue esta práctica. A las organizaciones más grandes les podría resultar más difícil administrar el cambio porque es fundamental conseguir una aceptación sólida de una nueva estrategia por parte de todos los colaboradores individuales. En ausencia de un equipo de planificación de una transición de este tipo, los líderes tienen el 100 % de la responsabilidad de que se lleven a cabo comunicaciones eficaces. Cuando cree un equipo de planificación de la transición, asigne a los miembros del equipo la tarea de trabajar con todos los líderes de la organización para definir y administrar unas comunicaciones eficaces en todos los niveles. 

 **Ejemplo de cliente** 

 AnyCompany Retail se suscribió a AWS Enterprise Support y utiliza otros proveedores externos para sus operaciones en la nube. La empresa utiliza el chat y ChatOps como su principal medio de comunicación para las actividades operativas. Las alertas y otras informaciones se incluyen en canales específicos. Cuando alguien debe actuar, expone claramente el resultado deseado y, en muchos casos, recibe un manual de procedimientos o de estrategias para que los utilice. Programa los cambios importantes en los sistemas de producción con un calendario de cambios. 

### Pasos para la implementación
Pasos para la implementación

1.  Establezca un equipo central dentro de la organización que tenga la responsabilidad de crear e iniciar planes de comunicación para los cambios que se produzcan en varios niveles de la organización. 

1.  Establezca una propiedad de un solo enfoque para la supervisión. Ofrezca a los equipos individuales la capacidad de innovar de forma independiente y equilibre el uso de mecanismos uniformes, lo que permite conseguir el nivel adecuado de inspección y visión direccional. 

1.  Colabore con las partes interesadas de toda su organización para acordar unos estándares, prácticas y planes de comunicación. 

1.  Verifique que el equipo central de comunicaciones colabore con los líderes de la organización y del programa para redactar mensajes para el personal apropiado en nombre de los líderes. 

1.  Cree mecanismos de comunicación estratégicos para administrar el cambio mediante anuncios, calendarios compartidos, reuniones generales y reuniones presenciales o individuales para que los miembros del equipo tengan expectativas adecuadas sobre las medidas que deben tomar. 

1.  Proporcione el contexto, los detalles y el tiempo necesarios (cuando sea posible) para determinar si es necesario tomar medidas. Cuando sea necesario tomar medidas, indique qué medida se debe tomar y cuál es su repercusión. 

1.  Implemente herramientas que faciliten las comunicaciones tácticas, como el chat interno, el correo electrónico y la administración del conocimiento. 

1.  Implemente mecanismos para medir y verificar que todas las comunicaciones conduzcan a los resultados deseados. 

1.  Establezca un bucle de retroalimentación que mida la eficacia de todas las comunicaciones, especialmente cuando estén relacionadas con la resistencia a los cambios en toda la organización. 

1.  Para todas las Cuentas de AWS, establezca [contactos alternativos](https://docs.aws.amazon.com/accounts/latest/reference/manage-acct-update-contact-alternate.html) para la facturación, la seguridad y las operaciones. Lo ideal sería que cada contacto fuera una cuenta de distribución de correo electrónico en lugar de un contacto individual específico. 

1.  Establezca un plan de comunicación de derivaciones y derivaciones inversas para interactuar con los equipos internos y externos, incluidos los de AWS Support y otros proveedores externos. 

1.  Inicie y ejecute estrategias de comunicación de manera uniforme durante toda la vida de cada programa de transformación. 

1.  Priorice las acciones que se puedan repetir siempre que sea posible para automatizarlas de forma segura a escala. 

1.  Cuando se requieren comunicaciones en escenarios con acciones automatizadas, el propósito de la comunicación debe ser informar a los equipos para llevar a cabo auditorías o como parte del proceso de administración de cambios. 

1.  Analice las comunicaciones de sus sistemas de alertas para detectar falsos positivos o alertas que se generan constantemente. Elimine o cambie estas alertas para que se inicien cuando sea necesaria una intervención humana. Si se inicia una alerta, proporcione un manual de procedimientos o una guía de estrategias. 

   1.  Puede utilizar los [documentos de AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/sysman-ssm-docs.html) para crear manuales de procedimientos y de estrategias para las alertas. 

1.  Existen mecanismos para notificar sobre los riesgos o los eventos previstos de forma clara y procesable, con suficiente antelación para poder responder de forma adecuada. Utilice listas de correo electrónico o canales de chat para enviar notificaciones antes de los eventos previstos. 

   1.  [AWS Chatbot](https://docs.aws.amazon.com/chatbot/latest/adminguide/what-is.html) puede utilizarse para enviar alertas y responder a eventos desde la plataforma de mensajería de su organización. 

1.  Proporcione una fuente de información accesible en la que se puedan consultar los actos programados. Proporcione notificaciones de eventos planificados desde el mismo sistema. 

   1.  El [Calendario de cambios de AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-change-calendar.html) se puede utilizar para crear periodos en los que se pueden producir cambios. De este modo, se avisa a los miembros del equipo de que pueden hacer cambios con seguridad. 

1.  Supervise las notificaciones de vulnerabilidad y la información sobre revisiones para comprender las vulnerabilidades existentes y los riesgos potenciales asociados a los componentes de su carga de trabajo. Notifique a los miembros del equipo para que puedan actuar. 

   1.  Puede suscribirse a los [boletines de seguridad de AWS](https://aws.amazon.com/security/security-bulletins/) para recibir notificaciones sobre vulnerabilidades en AWS. 

1.  **Búsqueda de opiniones y perspectivas diversas:** fomente las contribuciones de todos. Ofrezca oportunidades de comunicación a los grupos que tienen menos representación. Rote los roles y las responsabilidades en las reuniones. 

   1.  **Ampliación de los roles y las responsabilidades:** ofrezca a los miembros del equipo la oportunidad de asumir roles que de otro modo no podrían desempeñar. Ganarán experiencia y perspectiva gracias al rol y a las interacciones con nuevos miembros del equipo con los que, de otro modo, no podrían interactuar. También aportarán su experiencia y perspectiva al nuevo rol y a los miembros del equipo con los que interactúen. A medida que aumente la perspectiva, identifique oportunidades de negocio emergentes o nuevas oportunidades de mejora. Rote entre los miembros de un equipo las tareas comunes que suelen llevar a cabo los demás para que sepan cuáles son sus exigencias y su repercusión. 

   1.  **Disposición de un entorno seguro y acogedor:** establezca políticas y controles que protejan la seguridad mental y física de los miembros del equipo de su organización. Los miembros del equipo deben poder interactuar sin miedo a represalias. Si los miembros del equipo se sienten seguros y acogidos, es más probable que se comprometan y sean productivos. Cuanto más diversa sea su organización, mejor comprenderá a las personas a las que apoya, incluidos sus clientes. Cuando los miembros del equipo se sienten cómodos, se consideran libres para hablar y confían en que se los escuchará, por lo que es más probable que compartan ideas valiosas (por ejemplo, oportunidades de marketing, necesidades de accesibilidad, segmentos de mercado no atendidos y riesgos no reconocidos en el entorno). 

   1.  **Interacción con los miembros del equipo para que participen plenamente:** proporcione los recursos necesarios para que sus empleados participen plenamente en todas las actividades relacionadas con el trabajo. Los miembros del equipo que se enfrentan a retos diarios desarrollan competencias para trabajar en torno a ellos. Estas competencias que se han desarrollado de esta forma única pueden aportar un beneficio importante a su organización. Para ayudar a los miembros del equipo, lleve a cabo las adaptaciones necesarias para aumentar los beneficios que puede recibir de sus contribuciones. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS03-BP01 Respaldo del área ejecutiva](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_executive_sponsor.html) 
+  [OPS07-BP03 Uso de manuales de procedimientos para llevar a cabo los procedimientos](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ready_to_support_use_runbooks.html) 
+  [OPS07-BP04 Uso de manuales de estrategias para investigar problemas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ready_to_support_use_playbooks.html) 

 **Documentos relacionados:** 
+  [Entrada de blog de AWS: Accountability and empowerment are key to high-performing agile organizations](https://aws.amazon.com/blogs/enterprise-strategy/two-pizza-teams-are-just-the-start-accountability-and-empowerment-are-key-to-high-performing-agile-organizations-part-2/) 
+  [AWS Executive Insights: Descubra cómo escalar la innovación, en lugar de la complejidad \$1 Líderes de un solo enfoque](https://aws.amazon.com/executive-insights/content/amazon-two-pizza-team/#Single-Threaded_Leaders) 
+  [Boletines de seguridad de AWS](https://aws.amazon.com/security/security-bulletins) 
+  [Open CVE](https://www.opencve.io/welcome) 
+  [Soporte App in Slack to Manage Support Cases](https://aws.amazon.com/blogs/aws/new-aws-support-app-in-slack-to-manage-support-cases/) 
+  [Administración de los recursos de AWS en los canales de Slack con Amazon Q Developer en las aplicaciones de chat](https://aws.amazon.com/blogs/mt/manage-aws-resources-in-your-slack-channels-with-aws-chatbot/) 

 **Servicios relacionados:** 
+  [Amazon Q Developer en aplicaciones de chat](https://docs.aws.amazon.com/chatbot/latest/adminguide/what-is.html) 
+  [AWS Calendario de cambios de Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-change-calendar.html) 
+  [AWS Documentos de Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/sysman-ssm-docs.html) 

# OPS03-BP05 Fomento de la experimentación
OPS03-BP05 Fomento de la experimentación

La experimentación es un catalizador para convertir nuevas ideas en productos y características. Acelera el aprendizaje y mantiene a los miembros del equipo interesados y comprometidos. Se anima a los miembros del equipo a experimentar con frecuencia para impulsar la innovación. Incluso cuando se produce un resultado no deseado, tiene valor saber lo que no hay que hacer. No se castiga a los miembros del equipo por experimentos hechos correctamente con resultados no deseados. 

 **Resultado deseado:** 
+  Su organización fomenta la experimentación para impulsar la innovación. 
+  Los experimentos se utilizan como una oportunidad de aprender. 

 **Patrones comunes de uso no recomendados:** 
+  Desea efectuar una prueba A/B, pero no existe ningún mecanismo para llevar a cabo el experimento. Implementa un cambio en la interfaz de usuario sin poder probarlo. El resultado es una experiencia negativa para el cliente. 
+  Su empresa solo tiene un entorno de prueba y producción. No existe un entorno de pruebas para experimentar con nuevas características o productos, por lo que deberá experimentar en el entorno de producción. 

 **Beneficios de establecer esta práctica recomendada:** 
+  La experimentación impulsa la innovación. 
+  Puede reaccionar más rápidamente a los comentarios de los usuarios mediante la experimentación. 
+  Su organización desarrolla una cultura de aprendizaje. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 Los experimentos se deben hacer de forma segura. Utilice múltiples entornos para experimentar sin poner en peligro los recursos de producción. Utilice las pruebas A/B y las marcas de características para probar experimentos. Proporcione a los miembros del equipo la posibilidad de hacer experimentos en un entorno de pruebas. 

 **Ejemplo de cliente** 

 AnyCompany Retail fomenta la experimentación. Los miembros del equipo pueden utilizar el 20 % de su semana laboral para experimentar o aprender nuevas tecnologías. Disponen de un entorno de pruebas en el que pueden innovar. Las pruebas A/B se utilizan para las nuevas características con el fin de validarlas con comentarios de usuarios reales. 

 **Pasos para la implementación** 

1.  Colabore con los directivos de su organización para respaldar la experimentación. Se debe animar a los miembros del equipo a llevar a cabo los experimentos de forma segura. 

1.  Proporcione a los miembros del equipo un entorno en el que puedan experimentar con seguridad. Deben tener acceso a un entorno similar al de producción. 

   1.  Puede usar una Cuenta de AWS independiente para crear un entorno de pruebas para la experimentación. [AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/what-is-control-tower.html) puede utilizarse para aprovisionar estas cuentas. 

1.  Utilice marcas de características y pruebas A/B para experimentar con seguridad y recopilar los comentarios de los usuarios. 

   1.  [AWS AppConfig Feature Flags](https://docs.aws.amazon.com/appconfig/latest/userguide/what-is-appconfig.html) ofrece la posibilidad de crear marcadores de características. 

   1.  Puede usar las [versiones de AWS Lambda](https://docs.aws.amazon.com/lambda/latest/dg/configuration-versions.html) para implementar una nueva versión de una función para las pruebas beta. 

 **Nivel de esfuerzo para el plan de implementación:** alto. Proporcionar a los miembros del equipo un entorno en el que experimentar y una forma segura de llevar a cabo los experimentos puede requerir una inversión significativa. También es posible que deba modificar el código de la aplicación para utilizar las marcas de características o admitir pruebas A/B. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS11-BP02 Análisis después del incidente](ops_evolve_ops_perform_rca_process.md): aprender de los incidentes es un motor importante de la innovación, junto con la experimentación. 
+  [OPS11-BP03 Implementación de bucles de retroalimentación](ops_evolve_ops_feedback_loops.md): los circuitos de retroalimentación son una parte importante de la experimentación. 

 **Documentos relacionados:** 
+ [ An Inside Look at the Amazon Culture: Experimentation, Failure, and Customer Obsession ](https://aws.amazon.com/blogs/industries/an-inside-look-at-the-amazon-culture-experimentation-failure-and-customer-obsession/)
+ [ Best practices for creating and managing sandbox accounts in AWS](https://aws.amazon.com/blogs/mt/best-practices-creating-managing-sandbox-accounts-aws/)
+ [ Create a Culture of Experimentation Enabled by the Cloud ](https://aws.amazon.com/blogs/enterprise-strategy/create-a-culture-of-experimentation-enabled-by-the-cloud/)
+ [ Enabling experimentation and innovation in the cloud at SulAmérica Seguros ](https://aws.amazon.com/blogs/mt/enabling-experimentation-and-innovation-in-the-cloud-at-sulamerica-seguros/)
+ [ Experiment More, Fail Less ](https://aws.amazon.com/blogs/enterprise-strategy/experiment-more-fail-less/)
+ [ Organizing Your AWS Environment Using Multiple Accounts - Sandbox OU ](https://docs.aws.amazon.com/whitepapers/latest/organizing-your-aws-environment/sandbox-ou.html)
+ [ Using AWS AppConfig Feature Flags ](https://aws.amazon.com/blogs/mt/using-aws-appconfig-feature-flags/)

 **Videos relacionados:** 
+ [AWS On Air ft. Amazon CloudWatch Evidently \$1 AWS Events ](https://www.youtube.com/watch?v=ydX7lRNKAOo)
+ [AWS On Air San Fran Summit 2022 ft. AWS AppConfig Feature Flags integration with Jira ](https://www.youtube.com/watch?v=miAkZPtjqHg)
+ [AWS re:Invent 2022 - A deployment is not a release: Control your launches w/feature flags (BOA305-R) ](https://www.youtube.com/watch?v=uouw9QxVrE8)
+ [ Programmatically Create an Cuenta de AWS with AWS Control Tower](https://www.youtube.com/watch?v=LxxQTPdSFgw)
+ [Set Up a Multi-Account AWS Environment that Uses Best Practices for AWS Organizations](https://www.youtube.com/watch?v=uOrq8ZUuaAQ)

 **Ejemplos relacionados:** 
+ [Entorno de pruebas para innovación de AWS](https://aws.amazon.com/solutions/implementations/aws-innovation-sandbox/)
+ [ End-to-end Personalization 101 for E-Commerce ](https://catalog.workshops.aws/personalize-101-ecommerce/en-US/labs/ab-testing)

 **Servicios relacionados:** 
+  [Amazon CloudWatch Evidently](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Evidently.html) 
+  [AWS AppConfig](https://docs.aws.amazon.com/appconfig/latest/userguide/what-is-appconfig.html) 
+  [AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/what-is-control-tower.html) 

# OPS03-BP06 Fomento para que los miembros del equipo mantengan y aumenten su conjunto de competencias
OPS03-BP06 Fomento para que los miembros del equipo mantengan y aumenten su conjunto de competencias

 Los equipos deben aumentar el conjunto de competencias para adoptar nuevas tecnologías, así como para hacer cambios en la demanda y las responsabilidades en favor de sus cargas de trabajo. El aumento de las competencias en las nuevas tecnologías suele ser una fuente de satisfacción para los miembros del equipo y fomenta la innovación. Apoye a los miembros de su equipo para que obtengan y mantengan certificaciones del sector que validen y reconozcan sus competencias en constante crecimiento. Lleve a cabo una formación interdisciplinar para promover la transferencia de conocimientos y reducir el riesgo de que se produzca un impacto significativo cuando pierda a miembros del equipo cualificados y experimentados con conocimiento institucional. Ofrezca un tiempo estructurado dedicado al aprendizaje. 

 AWS proporciona recursos, como el [Centro de recursos introductorios de AWS](https://aws.amazon.com/getting-started/), los [blogs de AWS](https://aws.amazon.com/blogs/), las [charlas técnicas en línea de AWS](https://aws.amazon.com/getting-started/), los [eventos y seminarios web de AWS](https://aws.amazon.com/events/) y los [AWS Well-Architected Labs](https://wellarchitectedlabs.com/), que ofrecen orientación, ejemplos y tutoriales detallados para formar a sus equipos. 

 Recursos como [Soporte](https://aws.amazon.com/premiumsupport/programs/), ([AWS re:Post](https://repost.aws/), el [Centro de Soporte](https://console.aws.amazon.com/support/home/)) y la [documentación de AWS](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) ayudan a eliminar los obstáculos técnicos y a mejorar las operaciones. Contacte con Soporte a través del Centro de Soporte para que le ayuden con sus preguntas. 

 AWS también comparte los patrones y prácticas recomendadas que hemos aprendido a través del funcionamiento de AWS en [Amazon Builders' Library](https://aws.amazon.com/builders-library/) y una gran variedad de material educativo y útil a través del [blog de AWS](https://aws.amazon.com/blogs/) y [The Official AWS Podcast](https://aws.amazon.com/podcasts/aws-podcast/). 

 [Formación de AWS and Certification](https://aws.amazon.com/training/) incluye formación gratuita a través de cursos digitales que puede llevar a cabo a su propio ritmo, además de planes de aprendizaje por rol o dominio. También puede inscribirse en una formación adicional impartida por un instructor para facilitar aún más el desarrollo de las competencias de AWS de sus equipos. 

 **Resultado deseado:** su organización evalúa constantemente las carencias de competencias y las soluciona con un presupuesto e inversiones estructurados. Los equipos alientan e incentivan a sus miembros con actividades de mejora de las competencias, como la adquisición de las principales certificaciones del sector. Los equipos aprovechan los programas dedicados al intercambio de conocimientos, como almuerzos de trabajo, jornadas de inmersión, encuentros de programadores y GameDays. Su organización mantiene sus sistemas de conocimiento actualizados y relevantes para dar a los miembros del equipo una formación cruzada, incluidas las formaciones de incorporación de nuevos empleados. 

 **Patrones comunes de uso no recomendados:** 
+  En ausencia de un programa de formación y un presupuesto estructurados, los equipos sienten incertidumbre cuando intentan mantenerse al día de la evolución de la tecnología, lo que se traduce en un aumento de las renuncias laborales. 
+  Como parte de la migración a AWS, demuestra la existencia de lagunas en las competencias y una fluidez variable en la nube entre los equipos. Si no se esfuerzan por mejorar sus competencias, los equipos se ven sobrecargados con tareas heredadas y una administración ineficaz del entorno de la nube, lo que provoca un aumento del trabajo de los operadores. Este agotamiento incrementa la insatisfacción de los empleados. 

 **Beneficios de establecer esta práctica recomendada:** cuando su organización invierte conscientemente en mejorar las competencias de sus equipos, también ayuda a acelerar y escalar la adopción y optimización de la nube. Los programas de aprendizaje específicos impulsan la innovación y fomentan la capacidad operativa para que los equipos estén preparados para hacer frente a cualquier acontecimiento. Los equipos invierten conscientemente en la implementación y el desarrollo de las prácticas recomendadas. La moral del equipo es alta y los miembros del equipo valoran su contribución a la empresa. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 Para adoptar nuevas tecnologías, impulsar la innovación y seguir el ritmo de los cambios en la demanda y las responsabilidades para facilitar sus cargas de trabajo, invierta continuamente en el crecimiento profesional de sus equipos. 

### Pasos para la implementación
Pasos para la implementación

1.  **Uso de programas estructurados de fomento de la nube:** [AWS Skills Guild](https://aws.amazon.com/training/teams/aws-skills-guild/) ofrece formación consultiva para aumentar la confianza en las competencias en la nube y fomentar una cultura de aprendizaje continuo. 

1.  **Disposición de recursos para la formación:** proporcione tiempo estructurado dedicado, acceso a materiales de formación y recursos de laboratorio, y respalde la participación en conferencias y acceso organizaciones profesionales que proporcionen oportunidades para aprender, tanto a los educadores como a los compañeros. Proporcione a los miembros de su equipo sin experiencia acceso a los miembros del equipo experimentados para que actúen como mentores, o permita que los miembros del equipo sin experiencia sigan de cerca el trabajo de los que tienen experiencia y se expongan a sus métodos y competencias. Fomente el aprendizaje de contenido no relacionado directamente con el trabajo para tener una perspectiva más amplia. 

1.  **Fomento del uso de recursos técnicos expertos:** aproveche recursos como [AWS re:Post](https://repost.aws/) para acceder a conocimientos cuidadosamente seleccionados y a una comunidad dinámica. 

1.  **Creación y mantenimiento de un repositorio de conocimientos actualizado:** utilice plataformas para compartir conocimientos, como wikis y manuales de procedimientos. Cree su propia fuente de conocimiento experto reutilizable con [AWS re:Post Private](https://aws.amazon.com/repost-private/) para agilizar la colaboración, mejorar la productividad y acelerar la incorporación de los nuevos empleados. 

1.  **Formación de equipos e interacción entre equipos:** planifique las necesidades de formación continua de los miembros de su equipo. Proporcione oportunidades para que los miembros del equipo se unan a otros equipos (temporal o permanentemente) para compartir competencias y prácticas recomendadas que beneficien a toda la organización. 

1.  **Apoyo de la obtención y el mantenimiento de certificaciones del sector:** apoye a los miembros de su equipo para que adquieran y mantengan certificaciones del sector que validen lo que han aprendido y reconozca sus logros. 

 **Nivel de esfuerzo para el plan de implementación:** alto 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS03-BP01 Respaldo del área ejecutiva](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_executive_sponsor.html) 
+  [OPS11-BP04 Administración de conocimientos](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_knowledge_management.html) 

 **Documentos relacionados:** 
+  [Documento técnico de AWS: Cloud Adoption Framework: People Perspective](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-people-perspective/aws-caf-people-perspective.html) 
+  [Investing in continuous learning to grow your organization's future](https://aws.amazon.com/blogs/publicsector/investing-continuous-learning-grow-organizations-future/) 
+  [AWS Skills Guild](https://aws.amazon.com/training/teams/aws-skills-guild/) 
+  [Formación de AWS and Certification](https://aws.amazon.com/training/) 
+  [Soporte](https://aws.amazon.com/premiumsupport/programs/) 
+  [AWS re:Post](https://repost.aws/) 
+  [AWSCentro de recursos introductorios](https://aws.amazon.com/getting-started/) 
+  [Blogs de AWS](https://aws.amazon.com/blogs/) 
+  [Nube de AWS Cumplimiento de](https://aws.amazon.com/compliance/) 
+  [AWS documentación](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+  [The Official AWS Podcast](https://aws.amazon.com/podcasts/aws-podcast/). 
+  [AWS Charlas de tecnología en línea de](https://aws.amazon.com/getting-started/) 
+  [Eventos y seminarios web de AWS](https://aws.amazon.com/events/) 
+  [AWS Well-Architected Labs](https://wellarchitectedlabs.com/) 
+  [Amazon Builders' Library](https://aws.amazon.com/builders-library/) 

 **Videos relacionados:** 
+  [AWS re:Invent 2023 \$1 Reskilling at the speed of cloud: Turning employees into entrepreneurs](https://www.youtube.com/watch?v=Ax7JqIDIXEY) 
+  [AWS re:Invent 2023: Building a culture of curiosity through gamification](https://www.youtube.com/watch?v=EqWvSBAmD3w) 

# OPS03-BP07 Recursos adecuados para los equipos
OPS03-BP07 Recursos adecuados para los equipos

 Proporcione la cantidad adecuada de miembros competentes en el equipo y facilite las herramientas y los recursos necesarios para satisfacer sus necesidades de carga de trabajo. Sobrecargar a los miembros del equipo aumenta el riesgo de que se produzcan errores humanos. Las inversiones en herramientas y recursos, como la automatización, pueden aumentar la eficacia de su equipo y ayudarlo a soportar una mayor cantidad de cargas de trabajo sin la necesidad de capacidad adicional. 

 **Resultado deseado:** 
+  Ha dotado a su equipo del personal adecuado para que adquiera las competencias necesarias para administrar las cargas de trabajo en AWS de acuerdo con su plan de migración. A medida que su equipo se ha ido ampliando en el transcurso de su proyecto de migración, ha adquirido competencias en las tecnologías básicas de AWS que la empresa tiene previsto utilizar al migrar o modernizar sus aplicaciones. 
+  Ha alineado cuidadosamente su plan de dotación de personal para hacer un uso eficiente de los recursos aprovechando la automatización y el flujo de trabajo. Un equipo más pequeño puede administrar ahora más infraestructura en nombre de los equipos de desarrollo de aplicaciones. 
+  Dado que las prioridades operativas cambian, cualquier limitación de recursos de personal se identifica de manera proactiva para ayudar a que las iniciativas empresariales salgan adelante. 
+  Las métricas operativas que indican el esfuerzo operativo (como la fatiga del personal de guardia o un uso excesivo de localizadores) se revisan para verificar que el personal no esté sobrecargado. 

 **Patrones comunes de uso no recomendados:** 
+  Su personal no ha reforzado sus conocimientos de AWS a medida que se acerca a su plan plurianual de migración a la nube, lo que pone en riesgo que se atiendan las cargas de trabajo y reduce la moral de los empleados. 
+  Toda su organización de TI está adoptando formas de trabajo ágiles. La empresa está priorizando la cartera de productos y estableciendo métricas para las características que deben desarrollarse primero. El proceso ágil no requiere que los equipos asignen puntos escalonados a sus planes de trabajo. Como resultado, es imposible saber el nivel de capacidad que se necesita para la próxima cantidad de trabajo, o si tiene asignadas las competencias adecuadas al trabajo. 
+  Ha encargado a un socio de AWS la migración de sus cargas de trabajo y no dispone de un plan de transición de la asistencia para sus equipos una vez que el socio finalice el proyecto de migración. Sus equipos se esfuerzan por atender las cargas de trabajo de manera eficiente y eficaz. 

 **Beneficios de establecer esta práctica recomendada:** cuenta con miembros del equipo que tienen las competencias adecuadas en su organización para atender las cargas de trabajo. La asignación de recursos puede adaptarse a las prioridades cambiantes sin afectar al rendimiento. El resultado es que los equipos son capaces de atender las cargas de trabajo y, al mismo tiempo, maximizar el tiempo para centrarse en la innovación para los clientes, lo que a su vez aumenta la satisfacción de los empleados. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 La planificación de los recursos para la migración a la nube debe hacerse en un nivel de la organización que se ajuste a su plan de migración, así como al modelo operativo deseado que se está implementando para respaldar su nuevo entorno de nube. Esto debe incluir saber qué tecnologías de la nube se implementan para los equipos de negocio y desarrollo de aplicaciones. Los líderes de la infraestructura y las operaciones deben planificar el análisis de las carencias de competencias, la formación y la definición de roles para los ingenieros que lideran la adopción de la nube. 

### Pasos para la implementación
Pasos para la implementación

1.  Defina criterios para el éxito del equipo con métricas operativas relevantes, como la productividad del personal (por ejemplo, el costo de atender una carga de trabajo o las horas empleadas por los operadores durante los incidentes). 

1.  Defina mecanismos de planificación e inspección de la capacidad de los recursos para verificar que haya un equilibrio adecuado de capacidad cualificada cuando sea necesario y se pueda ajustar con el tiempo. 

1.  Cree mecanismos (por ejemplo, enviar una encuesta mensual a los equipos) para conocer los retos relacionados con el trabajo que afectan a los equipos (como el aumento de responsabilidades, los cambios en la tecnología, la pérdida de personal o el incremento de clientes a los que se presta asistencia). 

1.  Utilice estos mecanismos para interactuar con los equipos y detectar tendencias que puedan agravar los desafíos de productividad de los empleados. Cuando sus equipos se vean afectados por factores externos, vuelva a evaluar los objetivos y ajústelos según convenga. Identifique los obstáculos que impiden que el equipo avance. 

1.  Revise periódicamente si los recursos de los que dispone en la actualidad siguen siendo suficientes, o si se necesitan recursos adicionales, y haga los ajustes oportunos para apoyar a los equipos. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS03-BP06 Fomento para que los miembros del equipo mantengan y aumenten su conjunto de competencias](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_team_enc_learn.html) 
+  [OPS09-BP03 Revisión de las métricas de las operaciones y priorización de las mejoras](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_review_ops_metrics_prioritize_improvement.html) 
+  [OPS10-BP01 Uso de un proceso para la administración de eventos, incidentes y problemas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_event_incident_problem_process.html) 
+  [OPS10-BP07 Automatización de las respuestas a eventos](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_auto_event_response.html) 

 **Documentos relacionados:** 
+  [Nube de AWS Adoption Framework: People Perspective](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-people-perspective/aws-caf-people-perspective.html) 
+  [Becoming a Future-Ready Enterprise](https://aws.amazon.com/blogs/enterprise-strategy/becoming-a-future-ready-enterprise/) 
+  [Prioritize your Employees' Skills to Drive Business Growth](https://aws.amazon.com/executive-insights/content/prioritize-your-employees-skills-to-drive-business-growth/) 
+  [Estimulación de la innovación y la velocidad con los equipos de dos pizzas de Amazon](https://aws.amazon.com/executive-insights/content/amazon-two-pizza-team/) 
+  [How Cloud-Mature Enterprises Succeed](https://aws.amazon.com/blogs/mt/how-cloud-mature-enterprises-succeed/) 

# Prepare
Prepare

**Topics**
+ [

# OPS 4. ¿Cómo implementa la observabilidad en su carga de trabajo?
](ops-04.md)
+ [

# OPS 5. ¿Cómo reduce los defectos, facilita la reparación y mejora el flujo en producción?
](ops-05.md)
+ [

# OPS 6. ¿Cómo mitiga los riesgos de implementación?
](ops-06.md)
+ [

# OPS 7. ¿Cómo sabe que está listo para admitir una carga de trabajo?
](ops-07.md)

# OPS 4. ¿Cómo implementa la observabilidad en su carga de trabajo?


Implemente la observabilidad en su carga de trabajo para que pueda comprender su estado y tomar decisiones basadas en datos en función de los requisitos empresariales.

**Topics**
+ [

# OPS04-BP01 Identificación de los indicadores clave de rendimiento
](ops_observability_identify_kpis.md)
+ [

# OPS04-BP02 Implementación de telemetría de aplicaciones
](ops_observability_application_telemetry.md)
+ [

# OPS04-BP03 Implementación de telemetría de la experiencia del usuario
](ops_observability_customer_telemetry.md)
+ [

# OPS04-BP04 Implementación de telemetría de dependencias
](ops_observability_dependency_telemetry.md)
+ [

# OPS04-BP05 Implementación de rastreo distribuido
](ops_observability_dist_trace.md)

# OPS04-BP01 Identificación de los indicadores clave de rendimiento
OPS04-BP01 Identificación de los indicadores clave de rendimiento

 La implementación de la observabilidad en su carga de trabajo comienza con la comprensión de su estado y la toma de decisiones basadas en datos en función de los requisitos empresariales. Una de las formas más eficaces de garantizar la alineación entre las actividades de supervisión y los objetivos empresariales consiste en definir y supervisar los indicadores clave de rendimiento (KPI). 

 **Resultado deseado:** prácticas de observabilidad eficientes que están estrechamente alineadas con los objetivos empresariales, lo que garantiza que los esfuerzos de supervisión siempre estén al servicio de resultados comerciales tangibles. 

 **Patrones comunes de uso no recomendados:** 
+  Indicadores clave de rendimiento indefinidos: trabajar sin indicadores clave de rendimiento claros puede llevar a una supervisión excesiva o insuficiente y a la pérdida de señales vitales. 
+  KPI estáticos: no se revisitan ni refinan los KPI a medida que evolucionan la carga de trabajo o los objetivos empresariales. 
+  Desalineación: centrarse en las métricas técnicas que no se correlacionan directamente con los resultados empresariales o que son más difíciles de correlacionar con problemas de la vida real. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Facilidad de identificación de problemas: los KPI empresariales suelen mostrar los problemas con más claridad que las métricas técnicas. Una caída en un KPI empresarial puede identificar un problema de forma más eficaz que analizar numerosas métricas técnicas. 
+  Alineación empresarial: garantiza que las actividades de supervisión respalden directamente los objetivos empresariales. 
+  Eficiencia: priorice los recursos de supervisión y preste atención a las métricas que importan. 
+  Proactividad: detecte y aborde los problemas antes de que tengan implicaciones comerciales más amplias. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 Para definir de forma eficaz los KPI de la carga de trabajo: 

1.  **Inicio con los resultados empresariales:** antes de profundizar en las métricas, comprenda los resultados empresariales deseados. ¿Se trata de un aumento de las ventas, una mayor participación de los usuarios o unos tiempos de respuesta más rápidos? 

1.  **Correlación de las métricas técnicas con los objetivos empresariales:** no todas las métricas técnicas tienen un impacto directo en los resultados empresariales. Identifique los que sí lo tienen, pero a menudo es más sencillo identificar un problema mediante un KPI empresarial. 

1.  **Uso de [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html):** utilice CloudWatch para definir y supervisar las métricas que representan sus KPI. 

1.  **Revisión y actualización de los KPI con regularidad**: a medida que su carga de trabajo y su empresa evolucionen, mantenga la relevancia de sus KPI. 

1.  **Implicación de las partes interesadas:** involucre a los equipos técnicos y empresariales en la definición y revisión de los KPI. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+ [OPS04-BP02 Implementación de telemetría de aplicaciones](ops_observability_application_telemetry.md)
+ [OPS04-BP03 Implementación de telemetría de la experiencia del usuario](ops_observability_customer_telemetry.md)
+ [OPS04-BP04 Implementación de telemetría de dependencias](ops_observability_dependency_telemetry.md)
+ [OPS04-BP05 Implementación de rastreo distribuido](ops_observability_dist_trace.md)

 **Documentos relacionados:** 
+ [AWS Observability Best Practices ](https://aws-observability.github.io/observability-best-practices/)
+ [ CloudWatch User Guide ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html)
+ [AWS Observability Skill Builder Course ](https://explore.skillbuilder.aws/learn/course/external/view/elearning/14688/aws-observability)

 **Videos relacionados:** 
+ [ Developing an observability strategy ](https://www.youtube.com/watch?v=Ub3ATriFapQ)

 **Ejemplos relacionados:** 
+  [One Observability Workshop](https://catalog.workshops.aws/observability/en-US) 

# OPS04-BP02 Implementación de telemetría de aplicaciones
OPS04-BP02 Implementación de telemetría de aplicaciones

 La telemetría de aplicaciones sirve de base de la observabilidad de su carga de trabajo. Es crucial emitir telemetría que ofrezca información procesable sobre el estado de la aplicación y el logro de los resultados técnicos y empresariales. Desde la solución de problemas hasta la medición del impacto de una nueva característica o la garantía de la alineación con los indicadores clave de rendimiento (KPI) de la empresa, la telemetría de las aplicaciones informa sobre la forma de crear, operar y hacer evolucionar su carga de trabajo. 

 Las métricas, los registros y los rastreos forman los tres pilares principales de la observabilidad. Sirven como herramientas de diagnóstico que describen el estado de la aplicación. Con el tiempo, ayudan a crear puntos de referencia e identificar anomalías. Sin embargo, para garantizar la alineación entre las actividades de supervisión y los objetivos empresariales, es fundamental definir y supervisar los KPI. Los KPI empresariales suelen facilitar la identificación de los problemas en comparación con las métricas técnicas únicamente. 

 Otros tipos de telemetría, como la supervisión de usuarios reales (RUM) y las transacciones sintéticas, complementan estos orígenes de datos principales. La RUM ofrece información sobre las interacciones de los usuarios en tiempo real, mientras que las transacciones sintéticas simulan los posibles comportamientos de los usuarios, lo que ayuda a detectar los cuellos de botella antes de que los usuarios reales los encuentren. 

 **Resultado deseado:** obtenga información útil sobre el rendimiento de su carga de trabajo. Estos conocimientos le permiten tomar decisiones proactivas sobre la optimización del rendimiento, lograr una mayor estabilidad de la carga de trabajo, optimizar los procesos de CI/CD y utilizar los recursos de manera eficaz. 

 **Patrones comunes de uso no recomendados:** 
+  **Observabilidad incompleta:** no incorporar la observabilidad en todos los niveles de la carga de trabajo, lo que resulta en puntos ciegos que pueden ocultar información vital sobre el rendimiento y el comportamiento del sistema. 
+  **Vista de datos fragmentada:** cuando los datos están dispersos en varias herramientas y sistemas, resulta difícil mantener una visión integral del estado y el rendimiento de la carga de trabajo. 
+  **Problemas informados por los usuarios:** una señal de que falta una detección proactiva de los problemas mediante la telemetría y la supervisión de los KPI empresariales. 

 **Beneficios de establecer esta práctica recomendada:** 
+  **Toma de decisiones informadas:** con la información de la telemetría y los KPI empresariales, puede tomar decisiones basadas en datos. 
+  **Mejora de la eficiencia operativa:** el uso de los recursos basada en datos conduce a la rentabilidad. 
+  **Mejora de la estabilidad de la carga de trabajo:** detección y resolución de problemas más rápidas, lo que mejora el tiempo de actividad. 
+  **Procesos de CI/CD simplificados:** la información obtenida de los datos de telemetría facilita el refinamiento de los procesos y la entrega fiable de código. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 Para implementar la telemetría de aplicaciones para su carga de trabajo, utilice servicios de AWS como [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) y [AWS X-Ray](https://aws.amazon.com/xray/). Amazon CloudWatch proporciona un conjunto completo de herramientas de supervisión que le permiten observar sus recursos y aplicaciones en entornos en las instalaciones y de AWS. Recopila, sigue y analiza las métricas, consolida y supervisa los datos de registro y responde a los cambios en los recursos, lo que mejora su comprensión de cómo funciona su carga de trabajo. Al mismo tiempo, AWS X-Ray le permite rastrear, analizar y depurar sus aplicaciones, lo que le proporciona una comprensión profunda del comportamiento de su carga de trabajo. Con características como los mapas de servicios, las distribuciones de latencia y la cronología de rastreo, AWS X-Ray proporciona información sobre el rendimiento de su carga de trabajo y los cuellos de botella que le afectan. 

### Pasos para la implementación
Pasos para la implementación

1.  **Identificación de los datos que hay que recopilar:** determine las métricas, los registros y los rastreos esenciales que podrían ofrecer información sustancial sobre el estado, el rendimiento y el comportamiento de su carga de trabajo. 

1.  **Implementación del [agente de CloudWatch](https://aws.amazon.com/cloudwatch/):** el agente de CloudWatch es fundamental a la hora de obtener métricas y registros del sistema y las aplicaciones de su carga de trabajo y su infraestructura subyacente. El agente de CloudWatch también se puede utilizar para recopilar rastreos de X-Ray o OpenTelemetry y enviarlos a X-Ray. 

1.  **Implementación de la detección de anomalías para los registros y las métricas:** utilice la [detección de anomalías de los Registros de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/LogsAnomalyDetection.html) y la [detección de anomalías de métricas de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) para identificar automáticamente las actividades inusuales en las operaciones de su aplicación. Estas herramientas utilizan algoritmos de machine learning para detectar anomalías y alertar sobre ellas, lo que mejora las capacidades de supervisión y acelera el tiempo de respuesta ante posibles interrupciones o amenazas de seguridad. Configure estas características para administrar de forma proactiva el estado y la seguridad de las aplicaciones. 

1.  **Protección de los datos de registro confidenciales:** utilice la [protección de datos de los Registros de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/mask-sensitive-log-data.html) para ocultar la información confidencial de sus registros. Esta característica ayuda a mantener la privacidad y el cumplimiento mediante la detección automática y el enmascaramiento de los datos confidenciales antes de que se acceda a ellos. Implemente el enmascaramiento de datos para gestionar y proteger de forma segura los datos confidenciales, como la información de identificación personal (PII). 

1.  **Definición y supervisión de los KPI empresariales:** establezca [métricas personalizadas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) que se ajusten a los [resultados empresariales](https://aws-observability.github.io/observability-best-practices/guides/operational/business/monitoring-for-business-outcomes/). 

1.  **Instrumentación de su aplicación con AWS X-Ray:** además de implementar el agente de CloudWatch, es fundamental [instrumentar su aplicación](https://docs.aws.amazon.com/xray/latest/devguide/xray-instrumenting-your-app.html) para que emita datos de rastreo. Este proceso puede proporcionar más información sobre el comportamiento y el rendimiento de su carga de trabajo. 

1.  **Estandarización de la recopilación de datos en toda su aplicación:** estandarice las prácticas de recopilación de datos en toda la aplicación. La uniformidad ayuda a correlacionar y analizar los datos y proporciona una vista completa del comportamiento de la aplicación. 

1.  **Implementación de la observabilidad entre cuentas:** mejore la eficiencia de la supervisión entre Cuentas de AWS con la [observabilidad entre cuentas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html). Con esta característica, puede consolidar las métricas, los registros y las alarmas de diferentes cuentas en una sola vista, lo que simplifica la administración y mejora los tiempos de respuesta para los problemas identificados en el entorno de AWS de su organización. 

1.  **Análisis de los datos y actuación en consecuencia:** una vez que la recopilación y la normalización de los datos estén en marcha, utilice [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/features/) para llevar a cabo el análisis de métricas y registros, y [AWS X-Ray](https://aws.amazon.com/xray/features/) para el análisis de rastreos. Este análisis puede proporcionar información crucial sobre el estado, el rendimiento y el comportamiento de su carga de trabajo, lo que guiará su proceso de toma de decisiones. 

 **Nivel de esfuerzo para el plan de implementación:** alto 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Definición de los KPI de la carga de trabajo](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_identify_kpis.html) 
+  [OPS04-BP03 Implementación de telemetría de actividades de usuario](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_customer_telemetry.html) 
+  [OPS04-BP04 Implementación de telemetría de dependencias](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_dependency_telemetry.html) 
+  [OPS04-BP05 Implementación de rastreo distribuido](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_dist_trace.html) 

 **Documentos relacionados:** 
+  [AWS Observability Best Practices](https://aws-observability.github.io/observability-best-practices/) 
+  [CloudWatch User Guide](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 
+  [Guía para desarrolladores de AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [Instrumentación de los sistemas distribuidos para obtener visibilidad operativa](https://aws.amazon.com/builders-library/instrumenting-distributed-systems-for-operational-visibility) 
+  [AWS Observability Skill Builder Course](https://explore.skillbuilder.aws/learn/course/external/view/elearning/14688/aws-observability) 
+  [Novedades de Amazon CloudWatch](https://aws.amazon.com/about-aws/whats-new/management-and-governance/?whats-new-content.sort-by=item.additionalFields.postDateTime&whats-new-content.sort-order=desc&awsf.whats-new-products=general-products%23amazon-cloudwatch) 
+  [Novedades de AWS X-Ray](https://aws.amazon.com/about-aws/whats-new/developer-tools/?whats-new-content.sort-by=item.additionalFields.postDateTime&whats-new-content.sort-order=desc&awsf.whats-new-products=general-products%23aws-x-ray) 

 **Videos relacionados:** 
+  [AWS re:Invent 2022 - Observability best practices at Amazon](https://youtu.be/zZPzXEBW4P8) 
+  [AWS re:Invent 2022 - Developing an observability strategy](https://youtu.be/Ub3ATriFapQ) 

 **Ejemplos relacionados:** 
+  [One Observability Workshop](https://catalog.workshops.aws/observability) 
+  [Biblioteca de soluciones de AWS: Supervisión de aplicaciones con Amazon CloudWatch](https://aws.amazon.com/solutions/implementations/application-monitoring-with-cloudwatch) 

# OPS04-BP03 Implementación de telemetría de la experiencia del usuario
OPS04-BP03 Implementación de telemetría de la experiencia del usuario

 Es crucial obtener información detallada sobre las experiencias de los clientes y las interacciones con su aplicación. La supervisión de usuarios reales (RUM) y las transacciones sintéticas sirven como herramientas poderosas para este propósito. La RUM proporciona datos sobre las interacciones reales de los usuarios, lo que ofrece una perspectiva sin filtrar de la satisfacción del usuario, mientras que las transacciones sintéticas simulan las interacciones de los usuarios, lo que ayuda a detectar posibles problemas incluso antes de que afecten a los usuarios reales. 

 **Resultado deseado:** una visión integral de la experiencia del cliente, detección proactiva de problemas y optimización de las interacciones de los usuarios para ofrecer experiencias digitales fluidas. 

 **Patrones comunes de uso no recomendados:** 
+  Aplicaciones sin supervisión de usuarios reales (RUM): 
  +  Retraso en la detección de problemas: sin RUM, es posible que no se dé cuenta de los cuellos de botella o problemas de rendimiento hasta que los usuarios se quejen. Este enfoque reactivo puede provocar la insatisfacción de los clientes. 
  +  Falta de información sobre la experiencia del usuario: no usar RUM significa perder datos cruciales que muestran cómo los usuarios reales interactúan con su aplicación, lo que limita su capacidad de optimizar la experiencia del usuario. 
+  Aplicaciones sin transacciones sintéticas: 
  +  Omisión de casos de periferia: las transacciones sintéticas le ayudan a probar rutas y funciones que los usuarios habituales no suelen utilizar con frecuencia, pero que son fundamentales para determinadas funciones empresariales. Sin ellos, estas rutas podrían funcionar mal y el problema podría pasar desapercibido. 
  +  Comprobación de problemas cuando no se utiliza la aplicación: las pruebas sintéticas periódicas pueden simular momentos en los que los usuarios reales no interactúan activamente con la aplicación, lo que garantiza que el sistema siempre funcione correctamente. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Detección proactiva de problemas: identifique y aborde los posibles problemas antes de que afecten a los usuarios reales. 
+  Experiencia de usuario optimizada: los comentarios continuos de la RUM ayudan a refinar y mejorar la experiencia general del usuario. 
+  Información sobre el rendimiento de los dispositivos y navegadores: comprenda el rendimiento de su aplicación en varios dispositivos y navegadores, lo que permitirá una mayor optimización. 
+  Flujos de trabajo empresariales validados: las transacciones sintéticas periódicas garantizan que las funcionalidades básicas y las rutas cruciales permanezcan operativas y eficientes. 
+  Mejora del rendimiento de las aplicaciones: utilice la información recopilada a partir de datos de usuarios reales para mejorar la capacidad de respuesta y la fiabilidad de las aplicaciones. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 Para aprovechar RUM y las transacciones sintéticas para la telemetría de la actividad del usuario, AWS ofrece servicios como [Amazon CloudWatch RUM](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html) y [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html). Las métricas, los registros y los rastreos, junto con los datos de actividad de los usuarios, proporcionan una vista completa tanto del estado operativo de la aplicación como de la experiencia del usuario. 

### Pasos para la implementación
Pasos para la implementación

1.  **Implementación de Amazon CloudWatch RUM:** integre su aplicación con CloudWatch RUM para recopilar, analizar y presentar datos de usuarios reales. 

   1.  Utilice la [biblioteca de JavaScript de CloudWatch RUM](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html) para integrar la RUM con su aplicación. 

   1.  Configure paneles para visualizar y supervisar los datos de los usuarios reales. 

1.  **Configuración de CloudWatch Synthetics:** cree canarios, o rutinas con scripts, que simulen las interacciones de los usuarios con su aplicación. 

   1.  Defina los flujos de trabajo y las rutas de las aplicaciones fundamentales. 

   1.  Diseñe canarios controlados por [scripts de CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) para simular las interacciones de los usuarios en estas rutas. 

   1.  Programe y supervise los canarios para que se ejecuten a intervalos específicos, lo que garantiza controles de rendimiento coherentes. 

1.  **Análisis y acción en consecuencia:** utilice los datos de la RUM y las transacciones sintéticas para obtener información y tomar medidas correctivas cuando se detecten anomalías. Utilice paneles y alarmas de CloudWatch para mantenerse informado. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificación de los indicadores clave de rendimiento](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementación de telemetría de aplicaciones](ops_observability_application_telemetry.md) 
+  [OPS04-BP04 Implementación de telemetría de dependencias](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 Implementación de rastreo distribuido](ops_observability_dist_trace.md) 

 **Documentos relacionados:** 
+ [ Guía de Amazon CloudWatch RUM ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html)
+ [ Guía de Amazon CloudWatch Synthetics ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html)

 **Videos relacionados:** 
+ [ Optimize applications through end user insights with Amazon CloudWatch RUM ](https://www.youtube.com/watch?v=NMaeujY9A9Y)
+ [AWS on Air ft. Real-User Monitoring for Amazon CloudWatch ](https://www.youtube.com/watch?v=r6wFtozsiVE)

 **Ejemplos relacionados:** 
+ [ One Observability Workshop ](https://catalog.workshops.aws/observability/en-US/intro)
+ [ Git Repository for Amazon CloudWatch RUM Web Client ](https://github.com/aws-observability/aws-rum-web)
+ [ Using Amazon CloudWatch Synthetics to measure page load time ](https://github.com/aws-samples/amazon-cloudwatch-synthetics-page-performance)

# OPS04-BP04 Implementación de telemetría de dependencias
OPS04-BP04 Implementación de telemetría de dependencias

 La telemetría de dependencias es esencial para supervisar el estado y el rendimiento de los servicios y componentes externos de los que depende su carga de trabajo. Proporciona información valiosa sobre la accesibilidad, los tiempos de espera y otros eventos cruciales relacionados con dependencias como DNS, bases de datos o API de terceros. Al instrumentar su aplicación para que emita métricas, registros y rastreos sobre estas dependencias, entenderá más claramente cuáles son los posibles cuellos de botella, problemas de rendimiento o errores que podrían afectar a su carga de trabajo. 

 **Resultado deseado:** asegúrese de que las dependencias en las que se basa su carga de trabajo funcionan según lo previsto, lo que le permitirá abordar los problemas de forma proactiva y garantizar un rendimiento óptimo de la carga de trabajo. 

 **Patrones comunes de uso no recomendados:** 
+  **Omisión de las dependencias externas:** centrarse únicamente en las métricas internas de las aplicaciones y descuidar las métricas relacionadas con las dependencias externas. 
+  **Falta de supervisión proactiva:** esperar a que surjan problemas en lugar de supervisar continuamente el estado y el rendimiento de la dependencia. 
+  **Supervisión en silos:** uso de numerosas herramientas de supervisión dispares que pueden generar vistas fragmentadas e incoherentes del estado de la dependencia. 

 **Beneficios de establecer esta práctica recomendada:** 
+  **Mejora de la fiabilidad de la carga de trabajo:** al garantizar que las dependencias externas estén siempre disponibles y funcionen de manera óptima. 
+  **Detección y resolución de problemas más rápidas:** identificar y abordar de forma proactiva los problemas relacionados con las dependencias antes de que afecten a la carga de trabajo. 
+  **Panorámica completa:** obtener una visión integral de los componentes internos y externos que influyen en el estado de la carga de trabajo. 
+  **Mejora de la escalabilidad de la carga de trabajo:** mediante la comprensión de los límites de escalabilidad y las características de rendimiento de las dependencias externas. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 Para implementar la telemetría de dependencias, empiece por identificar los servicios, la infraestructura y los procesos de los que depende su carga de trabajo. Cuantifique qué aspecto tienen las buenas condiciones cuando esas dependencias funcionan según lo esperado y, a continuación, determine qué datos se necesitan para medirlas. Con esa información, puede crear paneles y alertas que proporcionen información a sus equipos de operaciones sobre el estado de esas dependencias. Use herramientas de AWS para detectar y cuantificar el efecto cuando las dependencias no pueden satisfacer las necesidades. Revisite su estrategia para que tenga en cuenta los cambios en las prioridades, los objetivos y los conocimientos adquiridos. 

### Pasos para la implementación
Pasos para la implementación

 Para implementar la telemetría de dependencias de manera eficaz: 

1.  **Identificación de las dependencias externas:** colabore con las partes interesadas para identificar las dependencias externas de las que depende su carga de trabajo. Las dependencias externas pueden abarcar servicios como bases de datos externas, API de terceros, rutas de conectividad de red a otros entornos y servicios de DNS. El primer paso para lograr una telemetría de dependencias eficaz es comprender a la perfección cuáles son esas dependencias. 

1.  **Desarrollo de una estrategia de supervisión:** una vez que tenga una idea clara de sus dependencias externas, diseñe una estrategia de supervisión adaptada a ellas. Esto implica comprender la importancia de cada dependencia, su comportamiento esperado y cualquier acuerdo u objetivo de nivel de servicio (SLA o SLT) asociado. Configure alertas proactivas que le notifiquen los cambios de estado o las desviaciones del rendimiento. 

1.  **Uso de la [supervisión de la red](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Network-Monitoring-Sections.html):** utilice [Internet Monitor](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-InternetMonitor.html) y [Network Monitor](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/what-is-network-monitor.html), que proporcionan información completa sobre las condiciones globales de Internet y la red. Estas herramientas le ayudan a conocer los cortes, interrupciones o degradaciones del rendimiento que afectan a sus dependencias externas y responder a ellos. 

1.  **Manténgase informado con [AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health/):** AWS Health es la fuente autorizada de información sobre el estado de los recursos de Nube de AWS. Use AWS Health para visualizar y recibir notificaciones sobre cualquier evento de servicio actual y cambios futuros, como los eventos del ciclo de vida planificados, de modo que pueda tomar medidas para mitigar los impactos. 

   1.  [Cree notificaciones de eventos de AWS Health adaptadas al propósito](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) para el correo electrónico y los canales de chat a través de [AWS User Notifications](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) e intégrelas mediante programación con [las herramientas de supervisión y alerta a través de Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) o la [API de AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Planifique y realice un seguimiento del progreso de los eventos de estado que requieran una acción mediante la integración con herramientas de administración de cambios o ITSM (como [Jira](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) o [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)) que ya pueda utilizar a través de Amazon EventBridge o la API de AWS Health. 

   1.  Si usa AWS Organizations, habilite la [vista de organización para AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html) a fin de agregar eventos de AWS Health en todas las cuentas. 

1.  **Instrumentación de su aplicación con [AWS X-Ray](https://aws.amazon.com/xray/):** AWS X-Ray proporciona información sobre el rendimiento de las aplicaciones y sus dependencias subyacentes. Al rastrear las solicitudes de principio a fin, puede identificar cuellos de botella o errores en los servicios o componentes externos en los que se basa su aplicación. 

1.  **Uso de [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/):** este servicio basado en machine learning identifica problemas operativos, predice cuándo pueden producirse problemas críticos y recomienda medidas concretas. Tiene un valor incalculable para obtener información sobre las dependencias y determinar que no son el origen de los problemas operativos. 

1.  **Supervisión periódica:** supervise continuamente las métricas y los registros relacionados con las dependencias externas. Configure alertas en caso de que se produzca un comportamiento inesperado o una degradación del rendimiento. 

1.  **Validación después de los cambios:** siempre que se produzca una actualización o un cambio en alguna de las dependencias externas, valide su rendimiento y compruebe su conformidad con los requisitos de la aplicación. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Definición de los KPI de la carga de trabajo](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_identify_kpis.html) 
+  [OPS04-BP02 Implementación de telemetría de aplicaciones](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_application_telemetry.html) 
+  [OPS04-BP03 Implementación de telemetría de actividades de usuario](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_customer_telemetry.html) 
+  [OPS04-BP05 Implementación de rastreo distribuido](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_dist_trace.html) 
+  [OP08-BP04 Creación de alertas procesables](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_workload_observability_create_alerts.html) 

 **Documentos relacionados:** 
+  [Amazon Personal Panel de estado User Guide](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) 
+  [AWS Internet Monitor User Guide](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-InternetMonitor.html) 
+  [Guía para desarrolladores de AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [AWS DevOps Guru User Guide](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 

 **Videos relacionados:** 
+  [Visibility into how internet issues impact app performance](https://www.youtube.com/watch?v=Kuc_SG_aBgQ) 
+  [Introduction to Amazon DevOps Guru](https://www.youtube.com/watch?v=2uA8q-8mTZY) 
+  [Manage resource lifecycle events at scale with AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA) 

 **Ejemplos relacionados:** 
+  [AWS Health Aware](https://github.com/aws-samples/aws-health-aware/) 
+  [Using Tag-Based Filtering to Manage AWS Health Monitoring and Alerting at Scale](https://aws.amazon.com/blogs/mt/using-tag-based-filtering-to-manage-health-monitoring-and-alerting-at-scale/) 

# OPS04-BP05 Implementación de rastreo distribuido
OPS04-BP05 Implementación de rastreo distribuido

 El rastreo distribuido ofrece una forma de supervisar y visualizar las solicitudes a medida que atraviesan varios componentes de un sistema distribuido. Al obtener datos de rastreo de numerosos orígenes y analizarlos en una vista unificada, los equipos pueden comprender mejor cómo fluyen las solicitudes, dónde existen los cuellos de botella y dónde deben centrarse los esfuerzos de optimización. 

 **Resultado deseado:** obtenga una visión integral de las solicitudes que fluyen por su sistema distribuido, lo que permite una depuración precisa, un rendimiento optimizado y una mejor experiencia del usuario. 

 **Patrones comunes de uso no recomendados:** 
+  Instrumentación incoherente: no todos los servicios de un sistema distribuido están instrumentados para el rastreo. 
+  Hacer caso omiso de la latencia: centrarse únicamente en los errores y no tener en cuenta la latencia o las degradaciones graduales del rendimiento. 

 **Beneficios de establecer esta práctica recomendada:** 
+ Información general completa del sistema: visualización de toda la ruta de las solicitudes, desde la entrada hasta la salida.
+  Depuración mejorada: identificación rápida de dónde se producen errores o problemas de rendimiento. 
+  Mejora de la experiencia del usuario: supervisión y optimización en función de los datos reales del usuario, lo que garantiza que el sistema satisfaga las demandas de la vida real. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 Comience por identificar todos los elementos de la carga de trabajo que requieren instrumentación. Una vez contabilizados todos los componentes, utilice herramientas como AWS X-Ray y OpenTelemetry para recopilar datos y analizarlos con herramientas como X-Ray y Amazon CloudWatch ServiceLens Map. Lleve a cabo revisiones periódicas con los desarrolladores y complemente estas conversaciones con herramientas como Amazon DevOps Guru, X-Ray Analytics y X-Ray Insights para sacar a la luz resultados más profundos. Establezca alertas a partir de los datos de rastreo para notificar cuando los resultados, tal como se definen en el plan de supervisión de la carga de trabajo, estén en peligro. 

### Pasos para la implementación
Pasos para la implementación

 Implementación del rastreo distribuido de manera eficaz: 

1.  **Incorporación de [AWS X-Ray](https://aws.amazon.com/xray/):** integre X-Ray en su aplicación para obtener información sobre su comportamiento, comprender su rendimiento e identificar los cuellos de botella. Utilice X-Ray Insights para el análisis automático de rastreos. 

1.  **Instrumentación de sus servicios:** compruebe que todos los servicios, desde una función de [AWS Lambda](https://aws.amazon.com/lambda/) a una [instancia de EC2](https://aws.amazon.com/ec2/), envíen datos de rastreo. Cuantos más servicios instrumente, más clara será la vista de principio a fin. 

1.  **Integración del seguimiento de [CloudWatch RUM](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html) y [Synthetic Monitoring](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html):** integre el CloudWatch RUM y el Synthetic Monitoring con X-Ray. Esto permite recoger experiencias de usuario de la vida real y simular las interacciones de los usuarios para identificar posibles problemas. 

1.  **Uso del [agente de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html):** el agente puede enviar rastreos tanto de X-Ray como de OpenTelemetry, lo que mejora la profundidad de la información obtenida. 

1.  **Uso de [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/):** DevOps Guru utiliza datos de X-Ray, CloudWatch, AWS Config y AWS CloudTrail para ofrecer recomendaciones prácticas. 

1.  **Análisis de los rastreos:** revise periódicamente los datos de rastreo para detectar patrones, anomalías o cuellos de botella que podrían afectar al rendimiento de su aplicación. 

1.  **Configuración de alertas:** configure las alarmas en [CloudWatch](https://aws.amazon.com/cloudwatch/) para detectar patrones inusuales o latencias prolongadas, lo que permite abordar los problemas de forma proactiva. 

1.  **Mejora continua:** revisite su estrategia de rastreo a medida que se agregan o modifiquen servicios para recoger todos los puntos de datos pertinentes. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificación de los indicadores clave de rendimiento](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementación de telemetría de aplicaciones](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 Implementación de telemetría de la experiencia del usuario](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 Implementación de telemetría de dependencias](ops_observability_dependency_telemetry.md) 

 **Documentos relacionados:** 
+ [Guía para desarrolladores de AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html)
+ [ Guía del usuario del agente de Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html)
+ [ Amazon DevOps Guru User Guide ](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html)

 **Videos relacionados:** 
+ [ Use AWS X-Ray Insights ](https://www.youtube.com/watch?v=tl8OWHl6jxw)
+ [AWS on Air ft. Observability: Amazon CloudWatch and AWS X-Ray](https://www.youtube.com/watch?v=qBDBnPkZ-KI)

 **Ejemplos relacionados:** 
+ [ Instrumenting your application for AWS X-Ray](https://aws.amazon.com/xray/latest/devguide/xray-instrumenting-your-app.html)

# OPS 5. ¿Cómo reduce los defectos, facilita la reparación y mejora el flujo en producción?


 Adopte enfoques que mejoren el flujo de cambios en producción, que activen la refactorización, la respuesta rápida sobre la calidad y la corrección de errores. Esto acelerará los cambios positivos que se introducen en producción, limitará los problemas implementados y logrará una rápida identificación y solución de los problemas introducidos a través de las actividades de implementación. 

**Topics**
+ [

# OPS05-BP01 Uso del control de versiones
](ops_dev_integ_version_control.md)
+ [

# OPS05-BP02 Prueba y validación de los cambios
](ops_dev_integ_test_val_chg.md)
+ [

# OPS05-BP03 Uso de sistemas de administración de la configuración
](ops_dev_integ_conf_mgmt_sys.md)
+ [

# OPS05-BP04 Uso de sistemas de administración de compilación e implementación
](ops_dev_integ_build_mgmt_sys.md)
+ [

# OPS05-BP05 Administración de parches
](ops_dev_integ_patch_mgmt.md)
+ [

# OPS05-BP06 Uso compartido de estándares de diseño
](ops_dev_integ_share_design_stds.md)
+ [

# OPS05-BP07 Implementación de prácticas para mejorar la calidad del código
](ops_dev_integ_code_quality.md)
+ [

# OPS05-BP08 Uso de varios entornos
](ops_dev_integ_multi_env.md)
+ [

# OPS05-BP09 Cambios frecuentes, pequeños y reversibles
](ops_dev_integ_freq_sm_rev_chg.md)
+ [

# OPS05-BP10 Automatización completa de la integración y la implementación
](ops_dev_integ_auto_integ_deploy.md)

# OPS05-BP01 Uso del control de versiones
OPS05-BP01 Uso del control de versiones

 Use el control de versiones para activar el seguimiento de cambios y versiones. 

 Muchos servicios de AWS ofrecen capacidades de control de versiones. Utilice un sistema de revisiones o de [control de orígenes](https://aws.amazon.com/devops/source-control/) como [Git](https://aws.amazon.com/devops/source-control/git/) para administrar el código y otros artefactos, como las plantillas de [AWS CloudFormation](https://aws.amazon.com/cloudformation/) controladas por versiones de la infraestructura. 

 **Resultado deseado:** sus equipos colaboran en el código. Cuando se fusiona, el código es coherente y no se pierde ningún cambio. Los errores se revierten fácilmente mediante el control de versiones correcto. 

 **Patrones comunes de uso no recomendados:** 
+  Ha estado desarrollando y almacenando el código en su estación de trabajo. Ha sufrido un error de almacenamiento irrecuperable en la estación de trabajo y el código se ha perdido. 
+  Después de sobrescribir el código existente con sus cambios, reinicia la aplicación y ya no está operativa. No puede revertir el cambio. 
+  Tiene un bloqueo de escritura en un archivo de informe que tiene que editar otra persona. Contacta con usted para pedirle que deje de trabajar en él para que puedan completar sus tareas. 
+  Su equipo de investigación ha estado trabajando en un análisis detallado que modela su trabajo futuro. Alguien ha guardado accidentalmente su lista de la compra sobre el informe final. No puede revertir el cambio y tiene que volver a crear el informe. 

 **Beneficios de establecer esta práctica recomendada:** mediante el uso de las capacidades de control de versiones puede revertir fácilmente los estados buenos conocidos y las versiones anteriores, y limitar el riesgo de que se pierdan los activos. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 Mantenga los activos en repositorios con control de versiones. Esto permite hacer un seguimiento de los cambios, implementar versiones nuevas, detectar cambios en las versiones existentes y volver a versiones anteriores (por ejemplo, revertir a un estado conocido correcto en caso de error). Integre en sus procedimientos las capacidades de control de versiones de sus sistemas de administración de la configuración. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS05-BP04 Uso de sistemas de administración de compilación e implementación](ops_dev_integ_build_mgmt_sys.md) 

 **Videos relacionados:** 
+ [AWS re:Invent 2023 - How Lockheed Martin builds software faster, powered by DevSecOps ](https://www.youtube.com/watch?v=Q1OSyxYkl5w)
+ [AWS re:Invent 2023 - How GitHub operationalizes AI for team collaboration and productivity ](https://www.youtube.com/watch?v=cOVvGaiusOI)

# OPS05-BP02 Prueba y validación de los cambios
OPS05-BP02 Prueba y validación de los cambios

 Cada cambio implementado se debe probar para evitar errores en producción. Esta práctica recomendada se centra en probar los cambios desde el control de versiones hasta la creación de artefactos. Además de los cambios en el código de la aplicación, las pruebas deben incluir la infraestructura, la configuración, los controles de seguridad y los procedimientos operativos. Las pruebas adoptan muchas formas, desde las pruebas unitarias hasta el análisis de componentes de software (SCA). Mover las pruebas más a la izquierda en el proceso de integración y entrega del software se traduce en una mayor certeza de la calidad de los artefactos. 

 Su organización debe desarrollar estándares de prueba para todos los artefactos de software. Las pruebas automatizadas reducen el trabajo y evitan los errores de las pruebas manuales. En algunos casos puede ser necesario hacer pruebas manuales. Los desarrolladores deben tener acceso a los resultados de las pruebas automatizadas para crear bucles de comentarios que mejoren la calidad del software. 

 **Resultado deseado:** los cambios en el software se prueban antes de su entrega. Los desarrolladores tienen acceso a los resultados de las pruebas y las validaciones. Su organización tiene un estándar de pruebas que se aplica a todos los cambios de software. 

 **Patrones comunes de uso no recomendados:** 
+  Implementa un nuevo cambio de software sin hacer ninguna prueba. No funciona en producción, lo que provoca una interrupción del servicio. 
+  Los nuevos grupos de seguridad se implementan con AWS CloudFormation sin haberse probado en un entorno de preproducción. Los grupos de seguridad hacen que la aplicación sea inaccesible para los clientes. 
+  Se modifica un método, pero no hay pruebas unitarias. El software no funciona cuando se implementa en producción. 

 **Beneficios de establecer esta práctica recomendada:** se reduce la tasa de errores de cambio de las implementaciones de software. Se mejora la calidad del software. Los desarrolladores son más conscientes de la viabilidad de su código. Las políticas de seguridad se pueden implementar con confianza para respaldar el cumplimiento de la organización. Los cambios en la infraestructura, como las actualizaciones automáticas de las políticas de escalamiento, se prueban con antelación para satisfacer las necesidades de tráfico. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 Las pruebas se hacen en todos los cambios, desde el código de la aplicación hasta la infraestructura, como parte de su práctica de integración continua. Los resultados de las pruebas se publican para que los desarrolladores tengan comentarios rápidos. Su organización tiene un estándar de pruebas que deben superar todos los cambios. 

 Utilice el poder de la IA generativa con Amazon Q Developer para mejorar la productividad de los desarrolladores y la calidad del código. Amazon Q Developer incluye la generación de sugerencias de código (basadas en modelos de lenguaje de gran tamaño), la producción de pruebas unitarias (incluidas condiciones límite) y mejoras de seguridad del código mediante la detección y la corrección de las vulnerabilidades de seguridad. 

 **Ejemplo de cliente** 

 Como parte de su canalización de integración continua, AnyCompany Retail ejecuta varios tipos de pruebas en todos los artefactos de software. Practica el desarrollo basado en pruebas, por lo que todo el software tiene pruebas unitarias. Una vez creado el artefacto, ejecuta pruebas integrales. Una vez completada esta primera ronda de pruebas, ejecuta un examen estático de la seguridad de la aplicación, que busca vulnerabilidades conocidas. Los desarrolladores reciben mensajes a medida que se supera cada puerta de prueba. Una vez completadas todas las pruebas, el artefacto de software se almacena en un repositorio de artefactos. 

### Pasos para la implementación
Pasos para la implementación

1.  Colabore con las partes interesadas de su organización en el desarrollo de un estándar de pruebas para los artefactos de software. ¿Qué pruebas estándar deben superar todos los artefactos? ¿Hay requisitos de cumplimiento o gobernanza que deban incluirse en la cobertura de las pruebas? ¿Necesita efectuar pruebas de calidad del código? Cuando finalicen las pruebas, ¿quién tiene que saberlo? 

   1.  [AWS Deployment Pipeline Reference Architecture](https://pipelines.devops.aws.dev/) incluye una lista autorizada de tipos de pruebas que pueden llevarse a cabo en artefactos de software como parte de una canalización de integración. 

1.  Instrumente su aplicación con las pruebas necesarias en función de su estándar de pruebas de software. Cada conjunto de pruebas debería completarse en menos de diez minutos. Las pruebas deben ejecutarse como parte de una canalización de integración. 

   1.  Utilice [Amazon Q Developer](https://docs.aws.amazon.com/amazonq/latest/qdeveloper-ug/what-is.html), una herramienta de IA generativa que puede ayudar a crear casos de pruebas unitarias (incluidas las condiciones de límite), generar funciones mediante código y comentarios e implementar algoritmos conocidos. 

   1.  Utilice [Revisor de Amazon CodeGuru](https://docs.aws.amazon.com/codeguru/latest/reviewer-ug/welcome.html) para comprobar si el código de la aplicación presenta defectos. 

   1.  Puede utilizar [AWS CodeBuild](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) para hacer pruebas en artefactos de software. 

   1.  [AWS CodePipeline](https://docs.aws.amazon.com/codepipeline/latest/userguide/welcome.html) puede orquestar sus pruebas de software en una canalización. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS05-BP01 Uso del control de versiones](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_version_control.html) 
+  [OPS05-BP06 Uso compartido de estándares de diseño](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_share_design_stds.html) 
+  [OPS05-BP07 Implementación de prácticas para mejorar la calidad del código](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_code_quality.html) 
+  [OPS05-BP10 Automatización completa de la integración y la implementación](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_auto_integ_deploy.html) 

 **Documentos relacionados:** 
+  [Adoptar un enfoque de desarrollo basado en pruebas](https://docs.aws.amazon.com/prescriptive-guidance/latest/best-practices-cdk-typescript-iac/development-best-practices.html) 
+  [Accelerate your Software Development Lifecycle with Amazon Q](https://aws.amazon.com/blogs/devops/accelerate-your-software-development-lifecycle-with-amazon-q/) 
+  [Amazon Q Developer, now generally available, includes previews of new capabilities to reimagine developer experience](https://aws.amazon.com/blogs/aws/amazon-q-developer-now-generally-available-includes-new-capabilities-to-reimagine-developer-experience/) 
+  [The Ultimate Cheat Sheet for Using Amazon Q Developer in Your IDE](https://community.aws/content/2eYoqeFRqaVnk900emsknDfzhfW/the-ultimate-cheat-sheet-for-using-amazon-q-developer-in-your-ide) 
+  [Shift-Left Workload, leveraging AI for Test Creation](https://community.aws/content/2gBZtC94gPzaCQRnt4P0rIYWuBx/shift-left-workload-leveraging-ai-for-test-creation) 
+  [Amazon Q Developer Center](https://aws.amazon.com/developer/generative-ai/amazon-q/) 
+  [10 ways to build applications faster with Amazon CodeWhisperer](https://aws.amazon.com/blogs/devops/10-ways-to-build-applications-faster-with-amazon-codewhisperer/) 
+  [Looking beyond code coverage with Amazon CodeWhisperer](https://aws.amazon.com/blogs/devops/looking-beyond-code-coverage-with-amazon-codewhisperer/) 
+  [Best Practices for Prompt Engineering with Amazon CodeWhisperer](https://aws.amazon.com/blogs/devops/best-practices-for-prompt-engineering-with-amazon-codewhisperer/) 
+  [Automated AWS CloudFormation Testing Pipeline with TaskCat and CodePipeline](https://aws.amazon.com/blogs/devops/automated-cloudformation-testing-pipeline-with-taskcat-and-codepipeline/) 
+  [Building end-to-end AWS DevSecOps CI/CD pipeline with open source SCA, SAST, and DAST tools](https://aws.amazon.com/blogs/devops/building-end-to-end-aws-devsecops-ci-cd-pipeline-with-open-source-sca-sast-and-dast-tools/) 
+  [Getting started with testing serverless applications](https://aws.amazon.com/blogs/compute/getting-started-with-testing-serverless-applications/) 
+  [My CI/CD pipeline is my release captain](https://aws.amazon.com/builders-library/cicd-pipeline/) 
+  [Documento técnico de AWS: Práctica de integración y entrega continuas](https://docs.aws.amazon.com/whitepapers/latest/practicing-continuous-integration-continuous-delivery/welcome.html) 

 **Videos relacionados:** 
+  [Implement an API with Amazon Q Developer Agent for Software Development](https://www.youtube.com/watch?v=U4XEvJUvff4) 
+  [Installing, Configuring, & Using Amazon Q Developer with JetBrains IDEs (How-to)](https://www.youtube.com/watch?v=-iQfIhTA4J0) 
+  [Mastering the art of Amazon CodeWhisperer - YouTube playlist](https://www.youtube.com/playlist?list=PLDqi6CuDzubxzL-yIqgQb9UbbceYdKhpK) 
+  [AWS re:Invent 2020: Testable infrastructure: Integration testing on AWS](https://www.youtube.com/watch?v=KJC380Juo2w) 
+  [AWS Summit ANZ 2021 - Driving a test-first strategy with CDK and test driven development](https://www.youtube.com/watch?v=1R7G_wcyd3s) 
+  [Testing Your Infrastructure as Code with AWS CDK](https://www.youtube.com/watch?v=fWtuwGSoSOU) 

 **Recursos relacionados:** 
+  [AWS Deployment Pipeline Reference Architecture: Application](https://pipelines.devops.aws.dev/application-pipeline/index.html) 
+  [AWS Kubernetes DevSecOps Pipeline](https://github.com/aws-samples/devsecops-cicd-containers) 
+  [Run unit tests for a Node.js application from GitHub by using AWS CodeBuild](https://docs.aws.amazon.com/prescriptive-guidance/latest/patterns/run-unit-tests-for-a-node-js-application-from-github-by-using-aws-codebuild.html) 
+  [Use Serverspec for test-driven development of infrastructure code](https://docs.aws.amazon.com/prescriptive-guidance/latest/patterns/use-serverspec-for-test-driven-development-of-infrastructure-code.html) 

 **Servicios relacionados:** 
+  [Amazon Q Developer](https://aws.amazon.com/q/developer/) 
+  [Revisor de Amazon CodeGuru](https://docs.aws.amazon.com/codeguru/latest/reviewer-ug/welcome.html) 
+  [AWS CodeBuild](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) 
+  [AWS CodePipeline](https://docs.aws.amazon.com/codepipeline/latest/userguide/welcome.html) 

# OPS05-BP03 Uso de sistemas de administración de la configuración
OPS05-BP03 Uso de sistemas de administración de la configuración

 Utilice sistemas de administración de la configuración para efectuar modificaciones en la configuración y hacer un seguimiento de ellas. Estos sistemas reducen tanto los errores causados por los procesos manuales como el nivel de esfuerzo requerido para implementar los cambios. 

La administración de la configuración estática establece valores al inicializar un recurso que se espera que permanezcan constantes durante toda la vida del recurso. La administración de la configuración dinámica establece valores en la inicialización que pueden cambiar o se espera que cambien durante la vida de un recurso. Por ejemplo, podría establecer un conmutador de características para activar la funcionalidad en su código a través de un cambio de configuración o cambiar el nivel de detalle del registro durante un incidente.

Las configuraciones deben implementarse en un estado conocido y coherente. Debe utilizar la inspección automatizada para supervisar continuamente las configuraciones de los recursos en todos los entornos y regiones. Estos controles deben definirse como un código y una gestión automatizados para garantizar que las reglas se apliquen de forma coherente en todos los entornos. Los cambios en las configuraciones deben actualizarse mediante procedimientos de control de cambios acordados y aplicarse de manera coherente, a la vez que se respeta el control de versiones. La configuración de la aplicación debe gestionarse de forma independiente del código de la aplicación y la infraestructura. Esto permite una implementación uniforme en varios entornos. Los cambios de configuración no dan como resultado la reconstrucción o la reimplementación de la aplicación. 

 **Resultado deseado:** configure, valide e implemente como parte de su proceso de integración continua y entrega continua (CI/CD). Supervisa para validar que las configuraciones sean correctas. Esto minimiza cualquier impacto en los usuarios finales y los clientes. 

 **Patrones comunes de uso no recomendados:** 
+  Actualiza manualmente la configuración del servidor web en toda su flota y varios servidores dejan de responder debido a errores de actualización. 
+  Actualiza manualmente su flota de servidores de aplicaciones en el transcurso de muchas horas. La incoherencia en la configuración durante el cambio provoca comportamientos inesperados. 
+  Alguien ha actualizado sus grupos de seguridad y ya no se puede acceder a los servidores web. Sin saber lo que ha cambiado, se pierde mucho tiempo investigando el problema, lo que prolonga el tiempo de recuperación. 
+  Una configuración de preproducción se introduce en producción a través de CI/CD sin validación. Expone a los usuarios y clientes a datos y servicios incorrectos. 

 **Beneficios de establecer esta política recomendada:** la adopción de sistemas de administración de la configuración reduce el nivel de esfuerzo para hacer cambios y hacer un seguimiento de los mismos, así como la frecuencia de los errores provocados por los procedimientos manuales. Los sistemas de administración de la configuración ofrecen garantías con respecto a la gobernanza, el cumplimiento y los requisitos reglamentarios. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 Los sistemas de administración de la configuración se utilizan para seguir e implementar cambios en las configuraciones de las aplicaciones y el entorno. Los sistemas de administración de la configuración también se utilizan para reducir los errores causados por los procesos manuales, hacer que los cambios de configuración sean repetibles y auditables y reducir el nivel de esfuerzo. 

 En AWS, puede utilizar [AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html) para supervisar de forma continua las configuraciones de los recursos de AWS [entre todas las cuentas y regiones](https://docs.aws.amazon.com/config/latest/developerguide/aggregate-data.html). Le ayuda a hacer un seguimiento de su historial de configuración, comprender cómo un cambio de configuración afectaría a otros recursos y auditarlos con respecto a las configuraciones esperadas o deseadas mediante [Reglas de AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/evaluate-config.html) y [AWS Config Conformance Packs](https://docs.aws.amazon.com/config/latest/developerguide/conformance-packs.html). 

 Para las configuraciones dinámicas de sus aplicaciones que se ejecutan en instancias, AWS Lambda, contenedores, aplicaciones móviles o dispositivos de IoT de Amazon EC2, puede utilizar [AWS AppConfig](https://docs.aws.amazon.com/appconfig/latest/userguide/what-is-appconfig.html) para configurarlas, validarlas, implementarlas y supervisarlas en todos sus entornos. 

### Pasos para la implementación
Pasos para la implementación

1.  Identifique a los propietarios de la configuración. 

   1.  Haga que los propietarios de las configuraciones estén al tanto de cualquier necesidad de cumplimiento, gobernanza o normativa. 

1.  Identifique los elementos de configuración y los resultados. 

   1.  Los elementos de configuración son todas las configuraciones de las aplicaciones y los entornos afectadas por una implementación dentro de su canalización de CI/CD. 

   1.  Los resultados incluyen los criterios de éxito, la validación y lo que se debe supervisar. 

1.  Seleccione herramientas para la administración de la configuración en función de los requisitos empresariales y el proceso de entrega. 

1.  Considere el uso de implementaciones ponderadas, como las implementaciones canario, para los cambios de configuración significativos a fin de minimizar el impacto de las configuraciones incorrectas. 

1.  Integre la administración de la configuración en su canalización de CI/CD. 

1.  Valide todos los cambios introducidos. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS06-BP01 Planificación para hacer frente a los cambios infructuosos](ops_mit_deploy_risks_plan_for_unsucessful_changes.md) 
+  [OPS06-BP02 Implementaciones de prueba](ops_mit_deploy_risks_test_val_chg.md) 
+  [OPS06-BP03 Uso de estrategias de implementación seguras](ops_mit_deploy_risks_deploy_mgmt_sys.md) 
+  [OPS06-BP04 Automatización de las pruebas y la reversión](ops_mit_deploy_risks_auto_testing_and_rollback.md) 

 **Documentos relacionados:** 
+ [AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/what-is-control-tower.html)
+ [Acelerador de zonas de aterrizaje de AWS](https://aws.amazon.com/solutions/implementations/landing-zone-accelerator-on-aws/)
+ [AWS Config](https://aws.amazon.com/config/)
+ [ What is AWS Config? ](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html)
+  [AWS AppConfig](https://docs.aws.amazon.com/appconfig/latest/userguide/what-is-appconfig.html) 
+ [ What is AWS CloudFormation? ](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/Welcome.html)
+  [Herramientas para desarrolladores de AWS](https://aws.amazon.com/products/developer-tools/) 
+ [AWS CodeBuild](https://aws.amazon.com/codebuild/)
+ [AWS CodePipeline](https://aws.amazon.com/codepipeline/)
+ [AWS CodeDeploy](https://aws.amazon.com/codedeploy/)

 **Videos relacionados:** 
+ [AWS re:Invent 2022 - Proactive governance and compliance for AWS workloads ](https://youtu.be/PpUnH9Y52X0?si=82wff87KHXcc6nbT)
+ [AWS re:Invent 2020: Achieve compliance as code using AWS Config](https://youtu.be/m8vTwvbzOfw?si=my4DP0FLq1zwKjho)
+ [ Manage and Deploy Application Configurations with AWS AppConfig](https://youtu.be/ztIxMY3IIu0?si=ovYGsxWOBysyQrg0)

# OPS05-BP04 Uso de sistemas de administración de compilación e implementación
OPS05-BP04 Uso de sistemas de administración de compilación e implementación

 Utilice sistemas de administración de compilación e implementación. Estos sistemas reducen tanto los errores causados por los procesos manuales como el nivel de esfuerzo requerido para implementar los cambios. 

 En AWS, puede crear canalizaciones de integración continua/implementación continua (CI/CD) a través de servicios como las [herramientas para desarrolladores de AWS](https://aws.amazon.com/products/developer-tools/) (por ejemplo, [AWS CodeBuild](https://aws.amazon.com/codebuild/), [AWS CodePipeline](https://aws.amazon.com/codepipeline/) y [AWS CodeDeploy](https://aws.amazon.com/codedeploy/)). 

 **Resultado deseado:** sus sistemas de administración de compilación e implementación respaldan el sistema de integración continua y entrega continua (CI/CD) de su organización, que proporciona capacidades para automatizar implementaciones seguras con las configuraciones correctas. 

 **Patrones comunes de uso no recomendados:** 
+  Después de compilar su código en el sistema de desarrollo, copia el ejecutable en los sistemas de producción y no se inicia. Los archivos de registro locales indican que ha fallado debido a la falta de dependencias. 
+  Crea con éxito su aplicación con nuevas características en su entorno de desarrollo y proporciona el código a control de calidad. No pasa el control de calidad porque le faltan activos estáticos. 
+  El viernes, después de mucho esfuerzo, crea con éxito su aplicación manualmente en su entorno de desarrollo que incluye las funcionalidades recién codificadas. El lunes, no puede repetir los pasos que le permitieron crear con éxito su aplicación. 
+  Lleva a cabo las pruebas que ha creado para su nueva versión. A continuación, dedica la siguiente semana a configurar un entorno de pruebas y a llevar a cabo todas las pruebas de integración existentes, seguidas de las pruebas de rendimiento. El nuevo código tiene un impacto inaceptable en el rendimiento y debe desarrollarse y probarse de nuevo. 

 **Beneficios de establecer esta práctica recomendada:** al proporcionar mecanismos para gestionar las actividades de desarrollo e implementación, se reduce el nivel de esfuerzo para llevar a cabo tareas repetitivas, se libera a los miembros del equipo para que se centren en sus tareas creativas de alto valor y se limita la introducción de errores de procedimientos manuales. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 Los sistemas de administración de compilación e implementación se utilizan para seguir e implementar cambios, reducir los errores causados por los procesos manuales y reducir el nivel de esfuerzo requerido para una implementación segura. Automatice completamente el proceso de integración e implementación, desde el registro del código hasta la compilación, prueba, implementación y validación. Esto reduce el tiempo de entrega, disminuye los costos, fomenta una mayor frecuencia de cambios, reduce el nivel de esfuerzo y aumenta la colaboración. 

### Pasos para la implementación
Pasos para la implementación

![\[Diagrama que muestra el uso de una canalización de CI/CD con AWS CodePipeline y los servicios relacionados\]](http://docs.aws.amazon.com/es_es/wellarchitected/latest/framework/images/deployment-pipeline-tooling.png)


1.  Utilice un sistema de control de versiones para almacenar y administrar activos (como documentos, código fuente y archivos binarios). 

1.  Utilice CodeBuild para compilar su código fuente, ejecutar pruebas unitarias y producir artefactos listos para la implementación. 

1.  Utilice CodeDeploy como un servicio de implementación que automatiza las implementaciones de las aplicaciones en instancias de [Amazon EC2](https://aws.amazon.com/ec2/), en instancias en las instalaciones o en [funciones de AWS Lambda sin servidor](https://docs.aws.amazon.com/lambda/latest/dg/welcome.html) o [servicios de Amazon ECS](https://aws.amazon.com/ecs/). 

1.  Supervise sus implementaciones. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS06-BP04 Automatización de las pruebas y la reversión](ops_mit_deploy_risks_auto_testing_and_rollback.md) 

 **Documentos relacionados:** 
+  [Herramientas para desarrolladores de AWS](https://aws.amazon.com/products/developer-tools/) 
+  [¿Qué es AWS CodeBuild?](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) 
+ [AWS CodeBuild](https://aws.amazon.com/codebuild/)
+  [¿Qué es AWS CodeDeploy?](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html) 

 **Videos relacionados:** 
+ [AWS re:Invent 2022 - AWS Well-Architected best practices for DevOps on AWS](https://youtu.be/hfXokRAyorA)

# OPS05-BP05 Administración de parches
OPS05-BP05 Administración de parches

 Administre parches para ampliar las características, resolver problemas y mantener la conformidad con la gobernanza. Automatice la administración de parches para reducir los errores causados por los procesos manuales, la escala y el nivel de esfuerzo requerido para aplicarlos. 

 La administración de parches y vulnerabilidades forma parte de sus actividades de administración de beneficios y riesgos. Es preferible tener infraestructuras inmutables e implementar las cargas de trabajo en estados en buenas condiciones conocidos y verificados. Cuando esto no es viable, la opción que queda es el parcheado in situ. 

 [AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health/) es el origen autorizado de la información sobre eventos planificados del ciclo de vida y otros eventos que requieren acciones y que afectan el estado de los recursos de Nube de AWS. Debe estar al tanto de los próximos cambios y actualizaciones que deben realizarse. Los principales eventos planificados del ciclo de vida se envían con al menos seis meses de antelación. 

 El [Generador de imágenes de Amazon EC2](https://aws.amazon.com/image-builder/) proporciona canalizaciones para actualizar las imágenes de las máquinas. Como parte de la administración de parches, considere la posibilidad de utilizar [Imagen de máquina de Amazon](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/AMIs.html       ) (AMI) con una [canalización de imágenes de AMI](https://docs.aws.amazon.com/imagebuilder/latest/userguide/start-build-image-pipeline.html) o imágenes de contenedor con una [canalización de imágenes de Docker](https://docs.aws.amazon.com/imagebuilder/latest/userguide/start-build-container-pipeline.html), a la vez que AWS Lambda proporciona patrones para [tiempos de ejecución personalizados y bibliotecas adicionales](https://docs.aws.amazon.com/lambda/latest/dg/runtimes-custom.html) para eliminar las vulnerabilidades. 

 Debe gestionar las actualizaciones de las imágenes de [Imagen de máquina de Amazon](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/AMIs.html) para Linux o Windows Server mediante el [Generador de imágenes de Amazon EC2](https://aws.amazon.com/image-builder/). Puede utilizar [Amazon Elastic Container Registry (Amazon ECR)](https://docs.aws.amazon.com/AmazonECR/latest/userguide/what-is-ecr.html) con su canalización existente para gestionar las imágenes de Amazon ECS y las de Amazon EKS. Lambda incluye [características de administración de versiones](https://docs.aws.amazon.com/lambda/latest/dg/configuration-versions.html). 

 La aplicación de parches no debe llevarse a cabo en los sistemas de producción sin antes hacer pruebas en un entorno seguro. Los parches solo deben aplicarse si sirven para mejorar los resultados operativos o empresariales. En AWS, puede utilizar [AWS Systems Manager Patch Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-patch.html) para automatizar el proceso de aplicación de parches en los sistemas administrados y programar la actividad con las [Ventanas de mantenimiento de Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-maintenance.html). 

 **Resultado deseado:** las imágenes del contenedor y AMI están parcheadas, actualizadas y listas para su lanzamiento. Puede hacer un seguimiento del estado de todas las imágenes implementadas y determinar el cumplimiento de los parches. Puede informar sobre el estado actual y disponer de un proceso que satisfaga sus necesidades de cumplimiento. 

 **Patrones comunes de uso no recomendados:** 
+  Se le encomienda la aplicación de todos los nuevos parches de seguridad en un plazo de dos horas, lo que da lugar a numerosas interrupciones debido a la incompatibilidad de las aplicaciones con los parches. 
+  Una biblioteca sin parches tiene consecuencias no deseadas, ya que partes desconocidas utilizan las vulnerabilidades de la misma para acceder a su carga de trabajo. 
+  Aplica parches a los entornos de los desarrolladores sin avisarles. Recibe múltiples quejas de los desarrolladores porque su entorno ha dejado de funcionar tal como se esperaba. 
+  No se ha parcheado el software comercial disponible en el mercado en una instancia persistente. Cuando tiene un problema con el software y contacta con el proveedor, este le notifica que la versión no es compatible y que tiene que aplicar un parche en un nivel específico para recibir asistencia. 
+  Ha utilizado un parche para el software de cifrado publicado recientemente que tiene importantes mejoras de rendimiento. Su sistema sin parches tiene problemas de rendimiento que continúan como resultado de no aplicar los parches. 
+  Se le notifica una vulnerabilidad de día cero que requiere una solución de emergencia y tiene que parchar todos sus entornos manualmente. 
+  No está al tanto de las acciones críticas necesarias para mantener los recursos, como las actualizaciones de versión obligatorias, porque no revisa los próximos eventos del ciclo de vida planificado y otra información. Pierde tiempo crítico para la planificación y la ejecución, lo que provoca cambios de emergencia para los equipos y un impacto potencial o un tiempo de inactividad inesperado. 

 **Beneficios de establecer esta práctica recomendada:** al establecer un proceso de administración de parches, que incluya sus criterios de aplicación de parches y la metodología de distribución en sus entornos, puede escalar e informar sobre los niveles de parches. Esto proporciona garantías en torno a la aplicación de parches de seguridad y garantiza una visibilidad clara del estado de las correcciones conocidas que se están aplicando. Esto fomenta la adopción de las características y capacidades deseadas, la rápida eliminación de problemas y el cumplimiento sostenido de la gobernanza. Implemente sistemas de administración de parches y automatización para reducir el nivel de esfuerzo en la implementación de parches y limitar los errores causados por los procesos manuales. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 Aplique parches a los sistemas para solucionar problemas, para obtener las características o capacidades deseadas y para mantener la conformidad con la política de gobernanza y los requisitos de soporte de los proveedores. En sistemas inmutables, implemente con el conjunto de parches adecuados para lograr el resultado deseado. Automatice el mecanismo de administración de parches para reducir el tiempo que tarda en aplicarlos, evitar los errores causados por los procesos manuales y reducir el nivel de esfuerzo requerido para aplicar los parches. 

### Pasos para la implementación
Pasos para la implementación

 Para el Generador de imágenes de Amazon EC2: 

1.  Con el Generador de imágenes de Amazon EC2, especifique los detalles de la canalización: 

   1.  Cree una canalización de imágenes y asígnele un nombre. 

   1.  Defina el horario y la zona horaria de la canalización. 

   1.  Configure las dependencias. 

1.  Elija una receta: 

   1.  Seleccione una receta existente o cree una nueva. 

   1.  Seleccione el tipo de imagen. 

   1.  Asigne un nombre y versión a la receta. 

   1.  Seleccione la imagen base. 

   1.  Agregue componentes de compilación y agréguelos al registro de destino. 

1.  Opcional: defina la configuración de la infraestructura. 

1.  Opcional: defina los ajustes de configuración. 

1.  Revise la configuración. 

1.  Mantenga la higiene de las recetas con regularidad. 

 Para Systems Manager Patch Manager: 

1.  Cree una línea de base de revisiones. 

1.  Seleccione un método de operaciones de creación de revisiones. 

1.  Habilite el análisis y la generación de informes de cumplimiento. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS06-BP04 Automatización de las pruebas y la reversión](ops_mit_deploy_risks_auto_testing_and_rollback.md) 

 **Documentos relacionados:** 
+ [ What is Amazon EC2 Image Builder ](https://docs.aws.amazon.com/imagebuilder/latest/userguide/what-is-image-builder.html)
+ [ Create an image pipeline using the Amazon EC2 Image Builder ](https://docs.aws.amazon.com/imagebuilder/latest/userguide/start-build-image-pipeline.html)
+ [ Create a container image pipeline ](https://docs.aws.amazon.com/imagebuilder/latest/userguide/start-build-container-pipeline.html)
+  [AWS Systems Manager Patch Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-patch.html) 
+ [ Uso de Patch Manager (consola) ](https://docs.aws.amazon.com/systems-manager/latest/userguide/patch-manager-console.html)
+ [ Trabajo con informes de conformidad de las revisiones ](https://docs.aws.amazon.com/systems-manager/latest/userguide/patch-manager-compliance-reports.html)
+ [Herramientas para desarrolladores de AWS](https://aws.amazon.com/products/developer-tools)

 **Videos relacionados:** 
+  [CI/CD for Serverless Applications on AWS](https://www.youtube.com/watch?v=tEpx5VaW4WE) 
+  [Design with Ops in Mind](https://youtu.be/uh19jfW7hw4) 

   **Ejemplos relacionados:** 
+ [Tutoriales de AWS Systems Manager Systems Manager Patch Manager ](https://docs.aws.amazon.com/systems-manager/latest/userguide/patch-manager-tutorials.html)

# OPS05-BP06 Uso compartido de estándares de diseño
OPS05-BP06 Uso compartido de estándares de diseño

 Comparta las prácticas recomendadas entre los equipos para aumentar la conciencia y maximizar los beneficios del trabajo de desarrollo. Documéntelas y manténgalas actualizadas a medida que evoluciona su arquitectura. Si se aplican los estándares compartidos en su organización, es fundamental que existan mecanismos para solicitar adiciones, cambios y excepciones a los estándares. Sin esta opción, los estándares se convierten en un obstáculo para la innovación. 

 **Resultado deseado:** los estándares de diseño se comparten entre los equipos de sus organizaciones. Se documentan y actualizan a medida que evolucionan las prácticas recomendadas. 

 **Patrones comunes de uso no recomendados:** 
+ Dos equipos de desarrollo distintos han creado, cada uno, un servicio de autenticación de usuarios. Sus usuarios tienen que mantener un conjunto de credenciales diferente para cada parte del sistema a la que quieran acceder. 
+ Cada equipo administra su propia infraestructura. Un nuevo requisito de conformidad obliga a cambiar la infraestructura y cada equipo lo aplica de forma distinta.

 **Beneficios de establecer esta práctica recomendada:** el uso de estándares compartidos favorece la adopción de las prácticas recomendadas y maximiza las ventajas de los esfuerzos de desarrollo. La documentación y actualización de los estándares de diseño mantiene a su organización al día de las prácticas recomendadas y de los requisitos de seguridad y cumplimiento. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 Comparta entre los equipos las prácticas recomendadas, los estándares de diseño, las listas de verificación, los procedimientos operativos, las orientaciones y los requisitos de gobernanza. Disponga de procedimientos para solicitar cambios, adiciones y excepciones a los estándares de diseño para apoyar la mejora y la innovación. Asegúrese de que los equipos estén al tanto del contenido publicado. Disponga de un mecanismo para mantener al día los estándares de diseño a medida que surgen nuevas prácticas recomendadas. 

 **Ejemplo de cliente** 

 AnyCompany Retail cuenta con un equipo de arquitectura interfuncional que crea patrones de arquitectura de software. Este equipo construye la arquitectura con la conformidad y la gobernanza integradas. Los equipos que adoptan estos estándares compartidos se benefician de la conformidad y la gobernanza integradas. Pueden construir rápidamente sobre el estándar de diseño. El equipo de arquitectura se reúne trimestralmente para evaluar los patrones de arquitectura y actualizarlos en caso necesario. 

### Pasos para la implementación
Pasos para la implementación

1.  Identifique un equipo interfuncional que se encargue de desarrollar y actualizar los estándares de diseño. Este equipo debe trabajar con las partes interesadas de toda la organización a fin de desarrollar estándares de diseño, procedimientos operativos, listas de verificación, guías y requisitos de gobernanza. Documente los estándares de diseño y compártalos dentro de su organización. 

   1.  [AWS Service Catalog](https://docs.aws.amazon.com/servicecatalog/latest/adminguide/introduction.html) puede utilizarse para crear carteras que representen los estándares de diseño mediante la infraestructura como código. Puede compartir carteras entre cuentas. 

1.  Disponga de un mecanismo para mantener al día los estándares de diseño a medida que se identifiquen nuevas prácticas recomendadas. 

1.  Si los estándares de diseño se aplican de forma centralizada, cuente con un proceso para solicitar cambios, actualizaciones y exenciones. 

 **Nivel de esfuerzo para el plan de implementación:** medio. El desarrollo de un proceso para crear y compartir estándares de diseño precisa de coordinación y cooperación con las partes interesadas de toda la organización. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS01-BP03 Evaluación de los requisitos de gobernanza](ops_priorities_governance_reqs.md): los requisitos de gobernanza influyen en los estándares de diseño. 
+  [OPS01-BP04 Evaluación de los requisitos de cumplimiento](ops_priorities_compliance_reqs.md): la conformidad es un elemento vital de la creación de estándares de diseño. 
+  [OPS07-BP02 Garantía de una revisión sistemática de la preparación operativa](ops_ready_to_support_const_orr.md): las listas de verificación de preparación operativa son un mecanismo para implementar los estándares de diseño a la hora de diseñar la carga de trabajo. 
+  [OPS11-BP01 Implementación de un proceso de mejora continua](ops_evolve_ops_process_cont_imp.md): la actualización de los estándares de diseño forma parte de la mejora continua. 
+  [OPS11-BP04 Administración de conocimientos](ops_evolve_ops_knowledge_management.md): como parte de su práctica de administración del conocimiento, documente y comparta los estándares de diseño. 

 **Documentos relacionados:** 
+ [ Automate AWS Backups with AWS Service Catalog](https://aws.amazon.com/blogs/mt/automate-aws-backups-with-aws-service-catalog/)
+ [AWS Service Catalog Account Factory-Enhanced ](https://aws.amazon.com/blogs/mt/aws-service-catalog-account-factory-enhanced/)
+ [ How Expedia Group built Database as a Service (DBaaS) offering using AWS Service Catalog](https://aws.amazon.com/blogs/mt/how-expedia-group-built-database-as-a-service-dbaas-offering-using-aws-service-catalog/)
+ [ Maintain visibility over the use of cloud architecture patterns ](https://aws.amazon.com/blogs/architecture/maintain-visibility-over-the-use-of-cloud-architecture-patterns/)
+ [ Simplify sharing your AWS Service Catalog portfolios in an AWS Organizations setup ](https://aws.amazon.com/blogs/mt/simplify-sharing-your-aws-service-catalog-portfolios-in-an-aws-organizations-setup/)

 **Videos relacionados:** 
+ [AWS Service Catalog – Getting Started ](https://www.youtube.com/watch?v=A9kKy6WhqVA)
+ [AWS re:Invent 2020: Manage your AWS Service Catalog portfolios like an expert ](https://www.youtube.com/watch?v=lVfXkWHAtR8)

 **Ejemplos relacionados:** 
+ [Arquitectura de referencia de AWS Service Catalog](https://github.com/aws-samples/aws-service-catalog-reference-architectures)
+ [AWS Service Catalog Workshop ](https://catalog.us-east-1.prod.workshops.aws/workshops/d40750d7-a330-49be-9945-cde864610de9/en-US)

 **Servicios relacionados:** 
+  [AWS Service Catalog](https://docs.aws.amazon.com/servicecatalog/latest/adminguide/introduction.html) 

# OPS05-BP07 Implementación de prácticas para mejorar la calidad del código
OPS05-BP07 Implementación de prácticas para mejorar la calidad del código

 Adopte prácticas para mejorar la calidad del código y minimizar los defectos. Algunos ejemplos son el desarrollo basado en pruebas, las revisiones de código, la adopción de estándares y la programación en pareja. Integre estas prácticas a su proceso de integración y entrega continuas. 

 **Resultado deseado:** su organización utiliza las prácticas recomendadas, como las revisiones de código o la programación en pareja, para mejorar la calidad del código. Los desarrolladores y operadores adoptan las prácticas recomendadas de calidad del código como parte del ciclo de vida de desarrollo del software. 

 **Patrones comunes de uso no recomendados:** 
+  Envía código a la rama principal de su aplicación sin una revisión del código. El cambio se implementa automáticamente en producción y provoca una interrupción del servicio. 
+  Se desarrolla una nueva aplicación sin pruebas de unidad, integrales o de integración. No hay forma de probar la aplicación antes de la implementación. 
+  Los equipos hacen cambios manuales en producción para corregir defectos. Los cambios no se someten a pruebas ni revisiones de código y no se capturan ni registran en los procesos de integración y entrega continuas. 

 **Beneficios de establecer esta práctica recomendada:** al adoptar prácticas para mejorar la calidad del código, puede ayudar a minimizar los problemas introducidos en la producción. Las prácticas recomendadas para la calidad del código incluyen la programación en parejas, las revisiones del código y la implementación de herramientas de productividad de IA. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 Adopte prácticas para mejorar la calidad del código y minimizar los defectos antes de la implementación. Utilice prácticas como desarrollo basado en pruebas, revisiones de código y programación en pareja para mejorar la calidad de su proceso. 

 Utilice el poder de la IA generativa con Amazon Q Developer para mejorar la productividad de los desarrolladores y la calidad del código. Amazon Q Developer incluye la generación de sugerencias de código (basadas en modelos de lenguaje de gran tamaño), la producción de pruebas unitarias (incluidas condiciones límite) y mejoras de seguridad del código mediante la detección y la corrección de las vulnerabilidades de seguridad. 

 **Ejemplo de cliente** 

 AnyCompany Retail adopta diversas prácticas para mejorar la calidad del código. Ha adoptado el desarrollo basado en pruebas como norma para escribir aplicaciones. Para algunas funciones nuevas, hace que los desarrolladores programen en pareja durante un sprint. Cada solicitud de extracción se somete a una revisión de código por parte de un desarrollador sénior antes de que se integre e implemente. 

### Pasos para la implementación
Pasos para la implementación

1.  Adopte prácticas que fomenten la calidad del código, como el desarrollo basado en pruebas, las revisiones del código y la programación en parejas, en su proceso de integración y entrega continuas. Utilice estas técnicas para mejorar la calidad del software. 

   1.  Utilice [Amazon Q Developer](https://docs.aws.amazon.com/amazonq/latest/qdeveloper-ug/what-is.html), una herramienta de IA generativa que puede ayudarle a crear casos de pruebas unitarias (incluidas las condiciones de límite), generar funciones mediante código y comentarios, implementar algoritmos conocidos, detectar infracciones y vulnerabilidades de las políticas de seguridad en su código, detectar secretos, escanear la infraestructura como código (IaC), documentar código y aprender bibliotecas de códigos de terceros con mayor rapidez. 

   1.  El [Revisor de Amazon CodeGuru](https://docs.aws.amazon.com/codeguru/latest/reviewer-ug/welcome.html) puede proporcionar recomendaciones de programación para código Java y Python mediante el uso de machine learning. 

 **Nivel de esfuerzo para el plan de implementación:** medio. Existen numerosas formas de implementar esta práctica recomendada, pero conseguir que la organización la adopte puede suponer un reto. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS05-BP02 Prueba y validación de los cambios](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_test_val_chg.html) 
+  [OPS05-BP06 Uso compartido de estándares de diseño](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_share_design_stds.html) 

 **Documentos relacionados:** 
+  [Adoptar un enfoque de desarrollo basado en pruebas](https://docs.aws.amazon.com/prescriptive-guidance/latest/best-practices-cdk-typescript-iac/development-best-practices.html) 
+  [Accelerate your Software Development Lifecycle with Amazon Q](https://aws.amazon.com/blogs/devops/accelerate-your-software-development-lifecycle-with-amazon-q/) 
+  [Amazon Q Developer, now generally available, includes previews of new capabilities to reimagine developer experience](https://aws.amazon.com/blogs/aws/amazon-q-developer-now-generally-available-includes-new-capabilities-to-reimagine-developer-experience/) 
+  [The Ultimate Cheat Sheet for Using Amazon Q Developer in Your IDE](https://community.aws/content/2eYoqeFRqaVnk900emsknDfzhfW/the-ultimate-cheat-sheet-for-using-amazon-q-developer-in-your-ide) 
+  [Shift-Left Workload, leveraging AI for Test Creation](https://community.aws/content/2gBZtC94gPzaCQRnt4P0rIYWuBx/shift-left-workload-leveraging-ai-for-test-creation) 
+  [Amazon Q Developer Center](https://aws.amazon.com/developer/generative-ai/amazon-q/) 
+  [10 ways to build applications faster with Amazon CodeWhisperer](https://aws.amazon.com/blogs/devops/10-ways-to-build-applications-faster-with-amazon-codewhisperer/) 
+  [Looking beyond code coverage with Amazon CodeWhisperer](https://aws.amazon.com/blogs/devops/looking-beyond-code-coverage-with-amazon-codewhisperer/) 
+  [Best Practices for Prompt Engineering with Amazon CodeWhisperer](https://aws.amazon.com/blogs/devops/best-practices-for-prompt-engineering-with-amazon-codewhisperer/) 
+  [Agile Software Guide](https://martinfowler.com/agile.html) 
+  [My CI/CD pipeline is my release captain](https://aws.amazon.com/builders-library/cicd-pipeline/) 
+  [Automate code reviews with Amazon CodeGuru Reviewer](https://aws.amazon.com/blogs/devops/automate-code-reviews-with-amazon-codeguru-reviewer/) 
+  [Adoptar un enfoque de desarrollo basado en pruebas](https://docs.aws.amazon.com/prescriptive-guidance/latest/best-practices-cdk-typescript-iac/development-best-practices.html) 
+  [How DevFactory builds better applications with Amazon CodeGuru](https://aws.amazon.com/blogs/machine-learning/how-devfactory-builds-better-applications-with-amazon-codeguru/) 
+  [On Pair Programming](https://martinfowler.com/articles/on-pair-programming.html) 
+  [RENGA Inc. automates code reviews with Amazon CodeGuru](https://aws.amazon.com/blogs/machine-learning/renga-inc-automates-code-reviews-with-amazon-codeguru/) 
+  [The Art of Agile Development: Test-Driven Development](http://www.jamesshore.com/v2/books/aoad1/test_driven_development) 
+  [Why code reviews matter (and actually save time\$1)](https://www.atlassian.com/agile/software-development/code-reviews) 

 **Videos relacionados:** 
+  [Implement an API with Amazon Q Developer Agent for Software Development](https://www.youtube.com/watch?v=U4XEvJUvff4) 
+  [Installing, Configuring, & Using Amazon Q Developer with JetBrains IDEs (How-to)](https://www.youtube.com/watch?v=-iQfIhTA4J0) 
+  [Mastering the art of Amazon CodeWhisperer - YouTube playlist](https://www.youtube.com/playlist?list=PLDqi6CuDzubxzL-yIqgQb9UbbceYdKhpK) 
+  [AWS re:Invent 2020: Continuous improvement of code quality with Amazon CodeGuru](https://www.youtube.com/watch?v=iX1i35H1OVw) 
+  [AWS Summit ANZ 2021 - Driving a test-first strategy with CDK and test driven development](https://www.youtube.com/watch?v=1R7G_wcyd3s) 

 **Servicios relacionados:** 
+  [Amazon Q Developer](https://aws.amazon.com/q/developer/) 
+  [Revisor de Amazon CodeGuru](https://docs.aws.amazon.com/codeguru/latest/reviewer-ug/welcome.html) 
+  [Generador de perfiles de Amazon CodeGuru](https://docs.aws.amazon.com/codeguru/latest/profiler-ug/what-is-codeguru-profiler.html) 

# OPS05-BP08 Uso de varios entornos
OPS05-BP08 Uso de varios entornos

 Use diversos entornos para experimentar, desarrollar y poner a prueba su carga de trabajo. Utilice niveles crecientes de controles a medida que los entornos se acerquen a la fase de producción para asegurarse de que su carga de trabajo funcione según lo previsto cuando se implemente. 

 **Resultado deseado:** tiene varios entornos que reflejan sus necesidades de cumplimiento y gobernanza. Prueba y hace avanzar el código a través de entornos en su ruta hasta producción. 

1.  Su organización lo consigue mediante el establecimiento de una zona de aterrizaje, que proporciona gobernanza, controles, automatizaciones de cuentas, redes, seguridad y observabilidad operativa. Gestione estas capacidades de zona de aterrizaje mediante el uso de varios entornos. Un ejemplo común es una organización de un entorno de pruebas para desarrollar y probar cambios en una zona de aterrizaje basada en [AWS Control Tower](https://aws.amazon.com/controltower/), que incluye [AWS IAM Identity Center](https://aws.amazon.com/iam/identity-center/) y políticas como las [políticas de control de servicios (SCP)](https://docs.aws.amazon.com/organizations/latest/userguide/orgs_manage_policies_scps.html). Todos estos elementos pueden afectar significativamente al acceso y al funcionamiento de Cuentas de AWS en la zona de aterrizaje. 

1.  Además de estos servicios, sus equipos amplían las capacidades de las zonas de aterrizaje con soluciones publicadas por socios de AWS y AWS o como soluciones personalizadas desarrolladas dentro de su organización. Algunos ejemplos de soluciones publicadas por AWS son [Customizations for AWS Control Tower (cFCT)](https://aws.amazon.com/solutions/implementations/customizations-for-aws-control-tower/) y [AWS Control Tower Account Factory for Terraform (](https://docs.aws.amazon.com/controltower/latest/userguide/aft-overview.html)AFT). 

1.  Su organización aplica los mismos principios de pruebas, promoción del código y cambios de política para la zona de aterrizaje en los entornos que se encuentran en su camino hacia la producción. Esta estrategia proporciona un entorno de zona de aterrizaje estable y seguro para sus equipos de aplicaciones y cargas de trabajo. 

 **Patrones comunes de uso no recomendados:** 
+  Está desarrollando en un entorno compartido y otro desarrollador sobrescribe sus cambios de código. 
+  Los controles de seguridad restrictivos de su entorno de desarrollo compartido le impiden experimentar con nuevos servicios y características. 
+  Lleva a cabo pruebas de carga en sus sistemas de producción y provoca una interrupción a los usuarios. 
+  Se ha producido un error crítico que ha provocado la pérdida de datos en producción. En el entorno de producción, se intenta recrear las condiciones que condujeron a la pérdida de datos para poder identificar cómo ocurrió y evitar que vuelva a suceder. Para evitar más pérdida de datos durante las pruebas, se ve obligado a hacer que la aplicación no esté disponible para los usuarios. 
+  Utiliza un servicio de inquilino múltiple y no puede atender la solicitud de un cliente de tener un entorno dedicado. 
+  Puede que no siempre pruebe, pero cuando lo hace, lo hace en su entorno de producción. 
+  Cree que la simplicidad de un entorno único anula el alcance del impacto de los cambios en el entorno. 
+  Actualiza una función clave de zona de aterrizaje, pero el cambio perjudica la capacidad de su equipo de vender cuentas para nuevos proyectos o para sus cargas de trabajo existentes. 
+  Aplica nuevos controles a sus Cuentas de AWS, pero el cambio repercute en la capacidad de su equipo de cargas de trabajo para implementar cambios en sus Cuentas de AWS. 

 **Beneficios de establecer esta práctica recomendada:** cuando implementa varios entornos, puede dar respaldo a varios entornos simultáneos de desarrollo, de pruebas y de producción sin crear conflictos entre los desarrolladores o las comunidades de usuarios. En el caso de funciones complejas, como las zonas de aterrizaje, se reduce considerablemente el riesgo de cambios, se simplifica el proceso de mejora y se reduce el riesgo de que se produzcan actualizaciones críticas en el entorno. Las organizaciones que utilizan zonas de aterrizaje se benefician naturalmente de tener múltiples cuentas en su entorno de AWS, con configuraciones de estructura de cuentas, gobierno, red y seguridad. Con el tiempo, a medida que su organización crece, la zona de aterrizaje puede evolucionar para proteger y organizar sus cargas de trabajo y sus recursos. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 Use varios entornos y proporcione a los desarrolladores entornos de pruebas con controles minimizados para ayudar con la experimentación. Proporcione entornos de desarrollo individuales para ayudar al trabajo en paralelo, que aumenta la agilidad del desarrollo. Implemente controles más rigurosos en los entornos que están cercanos a la producción para que los desarrolladores puedan innovar. Utilice infraestructura como código y sistemas de administración de la configuración para implementar entornos que estén configurados de forma coherente con los controles presentes en la producción y asegurarse de que los sistemas funcionarán como se espera cuando se implementen. Cuando los entornos no estén en uso (por ejemplo, sistemas de desarrollo durante la noche y los fines de semana), apáguelos para evitar los costos asociados a los recursos inactivos. Cuando haga pruebas de carga, implemente entornos semejantes al de producción para mejorar los resultados válidos. 

 Los equipos de ingeniería de plataformas, redes y operaciones de seguridad suelen gestionar las capacidades a nivel de la organización con requisitos distintos. La separación de las cuentas por sí sola no basta para proporcionar y mantener entornos separados para la experimentación, el desarrollo y las pruebas. En estos casos, cree instancias de AWS Organizations separadas. 

## Recursos
Recursos

 **Documentos relacionados:** 
+ [ Programador de instancias de AWS](https://aws.amazon.com/solutions/implementations/instance-scheduler-on-aws/)
+  [¿Qué es AWS CloudFormation?](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/Welcome.html) 
+ [Organización de su entorno de AWS mediante varias cuentas. Varias organizaciones. Pruebe los cambios en el entorno general de AWS](https://docs.aws.amazon.com/whitepapers/latest/organizing-your-aws-environment/multiple-organizations.html#test-changes-to-your-overall-aws-environment)
+ [Guía de AWS Control Tower](https://catalog.workshops.aws/control-tower)

# OPS05-BP09 Cambios frecuentes, pequeños y reversibles
OPS05-BP09 Cambios frecuentes, pequeños y reversibles

 Los cambios frecuentes, pequeños y reversibles tienen menos alcance y menos repercusiones. Cuando se utilizan junto con sistemas de administración de cambios, sistemas de administración de la configuración y sistemas de compilación y entrega, los cambios frecuentes, pequeños y reversibles reducen el alcance y el impacto de un cambio. Al hacerlo, los problemas se solucionan de forma más eficaz y rápida con la opción de revertir los cambios. 

 **Patrones comunes de uso no recomendados:** 
+  Implementa una nueva versión de su aplicación trimestralmente con una ventana de cambios que significa que un servicio principal está desactivado. 
+  Hace cambios frecuentes en el esquema de su base de datos sin hacer un seguimiento de los cambios en sus sistemas de administración. 
+  Lleve a cabo actualizaciones manuales in situ, y sobrescriba las instalaciones y configuraciones existentes y no tiene un plan de reversión claro. 

 **Beneficios de establecer esta práctica recomendada:** los esfuerzos de desarrollo son más rápidos al implementar pequeños cambios con frecuencia. Cuando los cambios son pequeños, es mucho más fácil identificar si tienen consecuencias no deseadas y es más fácil revertirlos. Cuando los cambios son reversibles, hay menos riesgo de aplicar el cambio, ya que la recuperación se simplifica. El proceso de cambio tiene un menor riesgo y el impacto de un cambio erróneo se reduce. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** bajo 

## Guía para la implementación
Guía para la implementación

 Utilice cambios frecuentes, pequeños y reversibles para reducir el alcance y las repercusiones del cambio. Esto facilita la resolución de problemas, ayuda a implementar correcciones rápidamente y permite revertir los cambios. También aumenta el ritmo con el que entrega valor a la empresa. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS05-BP03 Uso de sistemas de administración de la configuración](ops_dev_integ_conf_mgmt_sys.md) 
+  [OPS05-BP04 Uso de sistemas de administración de compilación e implementación](ops_dev_integ_build_mgmt_sys.md) 
+  [OPS06-BP04 Automatización de las pruebas y la reversión](ops_mit_deploy_risks_auto_testing_and_rollback.md) 

 **Documentos relacionados:** 
+ [ Implementing Microservices on AWS](https://docs.aws.amazon.com/whitepapers/latest/microservices-on-aws/microservices-on-aws.html)
+ [ Microservices - Observability ](https://docs.aws.amazon.com/whitepapers/latest/microservices-on-aws/observability.html)

# OPS05-BP10 Automatización completa de la integración y la implementación
OPS05-BP10 Automatización completa de la integración y la implementación

 Automatice la compilación, la implementación y la comprobación de la carga de trabajo. Esto reduce tanto los errores causados por los procesos manuales como el esfuerzo requerido para implementar los cambios. 

 Aplique metadatos mediante [etiquetas de registro](https://docs.aws.amazon.com/general/latest/gr/aws_tagging.html) y [Grupos de recursos de AWS](https://docs.aws.amazon.com/ARG/latest/APIReference/Welcome.html) mediante una [estrategia de etiquetado](https://aws.amazon.com/answers/account-management/aws-tagging-strategies/) coherente para permitir la identificación de sus recursos. Etiquete sus recursos para la organización, la contabilidad de costos, los controles de acceso y el objetivo de ejecución de actividades de operaciones automatizadas. 

 **Resultado deseado:** los desarrolladores utilizan herramientas para entregar código y progresar hasta producción. Los desarrolladores no tienen que iniciar sesión en la Consola de administración de AWS para entregar actualizaciones. Existe un registro de auditoría completo de los cambios y la configuración, que satisface las necesidades de gobernanza y cumplimiento. Los procesos son repetibles y están estandarizados en todos los equipos. Los desarrolladores pueden centrarse en el desarrollo y en la introducción de código, lo que aumenta la productividad. 

 **Patrones comunes de uso no recomendados:** 
+  El viernes finaliza con la creación del nuevo código para la ramificación de características. El lunes, después de ejecutar los scripts de pruebas de calidad del código y cada uno de los scripts de pruebas unitarias, comprueba el código para la siguiente versión programada. 
+  Se le asigna la tarea de codificar una solución para un problema crítico que afecta a un gran número de clientes en producción. Después de probar la corrección, confirma el código y envía un correo electrónico a la administración de cambios para solicitar la aprobación de su implementación en producción. 
+  Como desarrollador, debe iniciar sesión en la Consola de administración de AWS para crear un nuevo entorno de desarrollo utilizando métodos y sistemas no estándar. 

 **Beneficios de establecer esta práctica recomendada:** al implementar sistemas automatizados de administración de compilación e implementación, se reducen los errores causados por los procesos manuales y se reduce el esfuerzo para implementar los cambios, lo que ayuda a los miembros de su equipo a centrarse en la entrega de valor empresarial. Aumenta la velocidad de entrega a medida que progresa hasta producción. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** bajo 

## Guía para la implementación
Guía para la implementación

 Utilice sistemas de administración de compilación e implementación para hacer un seguimiento e implementar el cambio, a fin de reducir tanto los errores causados por los procesos manuales como el nivel de esfuerzo. Automatice completamente el proceso de integración e implementación, desde el registro del código hasta la compilación, prueba, implementación y validación. Esto reduce el tiempo de entrega, fomenta una mayor frecuencia de cambios, reduce el nivel de esfuerzo, aumenta la velocidad de comercialización, se traduce en un aumento de la productividad y aumenta la seguridad del código a medida que progresa hasta producción. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS05-BP03 Uso de sistemas de administración de la configuración](ops_dev_integ_conf_mgmt_sys.md) 
+  [OPS05-BP04 Uso de sistemas de administración de compilación e implementación](ops_dev_integ_build_mgmt_sys.md) 

 **Documentos relacionados:** 
+  [¿Qué es AWS CodeBuild?](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) 
+  [¿Qué es AWS CodeDeploy?](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html) 

 **Videos relacionados:** 
+ [AWS re:Invent 2022 - AWS Well-Architected best practices for DevOps on AWS](https://youtu.be/hfXokRAyorA)

# OPS 6. ¿Cómo mitiga los riesgos de implementación?


 Adopte métodos que proporcionen una respuesta inmediata sobre la calidad y logren una recuperación rápida de los cambios que no obtengan los resultados deseados. El uso de estas prácticas ayuda a mitigar el impacto de los problemas generados con la implementación de cambios. 

**Topics**
+ [

# OPS06-BP01 Planificación para hacer frente a los cambios infructuosos
](ops_mit_deploy_risks_plan_for_unsucessful_changes.md)
+ [

# OPS06-BP02 Implementaciones de prueba
](ops_mit_deploy_risks_test_val_chg.md)
+ [

# OPS06-BP03 Uso de estrategias de implementación seguras
](ops_mit_deploy_risks_deploy_mgmt_sys.md)
+ [

# OPS06-BP04 Automatización de las pruebas y la reversión
](ops_mit_deploy_risks_auto_testing_and_rollback.md)

# OPS06-BP01 Planificación para hacer frente a los cambios infructuosos
OPS06-BP01 Planificación para hacer frente a los cambios infructuosos

Planifique la reversión a un estado óptimo conocido o la corrección en el entorno de producción si una implementación causa un resultado no deseado. Tener una política para establecer un plan de este tipo ayuda a todos los equipos a desarrollar estrategias para recuperarse de los cambios fallidos. Algunos ejemplos de estrategias son los pasos de implementación y reversión, las políticas de cambio, los indicadores de características, el aislamiento del tráfico y el cambio de tráfico. Una sola versión puede incluir varios cambios de componentes relacionados. La estrategia debe proporcionar la capacidad de resistir o recuperarse de un error de cualquier cambio de componente.

 **Resultado deseado:** ha preparado un plan de recuperación detallado para su cambio en caso de que no tenga éxito. Además, ha reducido el tamaño de su versión para minimizar el impacto potencial en otros componentes de la carga de trabajo. Como resultado, ha reducido su impacto empresarial al acortar el posible tiempo de inactividad causado por un cambio infructuoso y ha aumentado la flexibilidad y la eficiencia de los tiempos de recuperación. 

 **Patrones comunes de uso no recomendados:** 
+  Ha llevado a cabo una implementación y la aplicación se comporta de forma inestable, aunque parece que hay usuarios activos en el sistema. Debe decidir si deshacer el cambio, lo que afectará a los usuarios activos, o esperar a revertir el cambio sabiendo que los usuarios pueden verse afectados igualmente. 
+  Después de hacer un cambio de rutina, sus nuevos entornos son accesibles, pero una de sus subredes ha quedado inaccesible. Tiene que decidir si revertirlo todo o intentar reparar la subred inaccesible. Mientras toma esa decisión, no se podrá acceder a la subred. 
+  Sus sistemas no tienen una arquitectura que permita actualizarlos con versiones más pequeñas. Como resultado, tiene dificultades para revertir esos cambios masivos durante una implementación infructuosa. 
+  No utiliza la infraestructura como código (IaC) y ha llevado a cabo actualizaciones manuales en su infraestructura que han dado lugar a una configuración no deseada. No puede hacer un seguimiento eficaz de los cambios manuales ni revertirlos. 
+  Como no ha medido el aumento de la frecuencia de sus implementaciones, su equipo no tiene incentivos para reducir el tamaño de los cambios y mejorar los planes de reversión para cada cambio, lo que genera más riesgos y mayores tasas de errores. 
+  No mide la duración total de una interrupción provocada por cambios infructuosos. Su equipo no puede establecer prioridades ni mejorar la eficacia del proceso de implementación y del plan de recuperación. 

 **Beneficios de establecer esta práctica recomendada:** tener un plan para recuperarse de cambios fallidos minimiza el tiempo medio de recuperación (MTTR) y reduce el impacto en la organización. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 La adopción por parte de los equipos de lanzamiento de políticas y prácticas coherentes permite a la organización planificar lo que debe suceder si se producen cambios infructuosos. La política debe permitir aplicar correcciones temporales en circunstancias concretas. En cualquier situación, un plan de corrección temporal o reversión debe estar bien documentado y probado antes de implementarlo en producción en vivo para minimizar el tiempo que lleva revertir un cambio. 

### Pasos para la implementación
Pasos para la implementación

1.  Documente las políticas que requieren que los equipos tengan planes efectivos para revertir los cambios dentro de un período específico. 

   1.  Las políticas deben especificar cuándo se permite una situación de corrección temporal. 

   1.  Exija un plan de reversión documentado al que puedan acceder todas las partes involucradas. 

   1.  Especifique los requisitos para la reversión (por ejemplo, cuando se descubra que se han implementado cambios no autorizados). 

1.  Analice el grado de impacto de todos los cambios relacionados con cada componente de una carga de trabajo. 

   1.  Permita que los cambios repetibles se estandaricen, se diseñen con plantillas y se autoricen previamente si siguen un flujo de trabajo coherente que aplique las políticas de cambio. 

   1.  Reduzca el impacto potencial de cualquier cambio mediante la reducción del tamaño del cambio para que la recuperación lleve menos tiempo y cause menos repercusión en la empresa. 

   1.  Asegúrese de que los procedimientos de reversión reviertan el código al estado correcto conocido para evitar incidentes siempre que sea posible. 

1.  Integre herramientas y flujos de trabajo para aplicar sus políticas mediante programación. 

1.  Haga que los datos sobre los cambios sean visibles para otros propietarios de cargas de trabajo para mejorar la velocidad de diagnóstico de cualquier cambio infructuoso que no se pueda revertir. 

   1.  Mida el éxito de esta práctica a través de datos de cambios visibles e identifique las mejoras iterativas. 

1.  Utilice herramientas de supervisión para verificar el éxito o el fracaso de una implementación a fin de acelerar la toma de decisiones sobre la reversión. 

1.  Mida la duración de la interrupción durante un cambio infructuoso para mejorar continuamente sus planes de recuperación. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS06-BP04 Automatización de las pruebas y la reversión](ops_mit_deploy_risks_auto_testing_and_rollback.md) 

 **Documentos relacionados:** 
+ [AWS Builders' Library: Asegurar la seguridad en las restauraciones durante las implementaciones ](https://aws.amazon.com/builders-library/ensuring-rollback-safety-during-deployments/)
+ [Documento técnico de AWS: Change Management in the Cloud ](https://docs.aws.amazon.com/whitepapers/latest/change-management-in-the-cloud/change-management-in-the-cloud.html)

 **Videos relacionados:** 
+ [ re:Invent 2019 \$1 Amazon’s approach to high-availability deployment ](https://aws.amazon.com/builders-library/amazon-approach-to-high-availability-deployment/)

# OPS06-BP02 Implementaciones de prueba
OPS06-BP02 Implementaciones de prueba

 Pruebe los procedimientos de lanzamiento en preproducción con la misma configuración de implementación, controles de seguridad, pasos y procedimientos que en producción. Valide que todos los pasos implementados se completen según lo esperado, como la inspección de archivos, configuraciones y servicios. Pruebe más a fondo todos los cambios con pruebas funcionales, de integración y de carga, junto con cualquier supervisión, como la comprobación de estado. Al llevar a cabo estas pruebas, puede identificar los problemas de implementación con prontitud y tiene la oportunidad de planificarlos y mitigarlos antes de llegar a producción. 

 Puede crear entornos paralelos temporales para probar cada cambio. Automatice la implementación de los entornos de prueba mediante la infraestructura como código (IaC) para reducir la cantidad de trabajo que implica y garantizar la estabilidad, la coherencia y una entrega de características más rápida. 

 **Resultado deseado:** su organización adopta una cultura de desarrollo basada en pruebas que incluye la implementación de pruebas. Esto garantiza que los equipos se centren en ofrecer valor empresarial en lugar de administrar las versiones. Los equipos participan desde el principio de la identificación de los riesgos de la implementación para determinar el curso de mitigación adecuado. 

 **Patrones comunes de uso no recomendados:** 
+  Durante las versiones de producción, las implementaciones no probadas provocan problemas frecuentes que requieren la solución de problemas y la escalada. 
+  Su versión contiene infraestructura como código (IaC) que actualiza los recursos existentes. No tiene la seguridad de si IaC se ejecuta correctamente o si afecta a los recursos. 
+  Implementa una característica nueva en su aplicación. No funciona según lo previsto y no hay visibilidad hasta que los usuarios afectados lo denuncien. 
+  Actualiza sus certificados. Instala accidentalmente los certificados en los componentes incorrectos, lo que pasa desapercibido y afecta a los visitantes del sitio web porque no se puede establecer una conexión segura con el sitio web. 

 **Beneficios de establecer esta práctica recomendada:** las exhaustivas pruebas en la preproducción de los procedimientos de implementación y los cambios introducidos por ellos minimizan la posible repercusión en producción causada por las etapas de implementación. Esto aumenta la confianza durante el lanzamiento de producción y minimiza el soporte operativo sin ralentizar la velocidad de los cambios que se introducen. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 Probar el proceso de implementación es tan importante como probar los cambios que resultan de la implementación. Esto se puede lograr probando los pasos de implementación en un entorno de preproducción que refleje la producción lo más fielmente posible. Los problemas más habituales, como pasos de implementación incompletos o incorrectos o configuraciones incorrectas, pueden detectarse antes de pasar a producción. Además, puede poner a prueba sus pasos de recuperación. 

 **Ejemplo de cliente** 

 Como parte de su canalización de integración y entrega continuas (CI/CD), AnyCompany Retail lleva a cabo los pasos definidos necesarios para lanzar actualizaciones de infraestructura y software para sus clientes en un entorno similar al de producción. La canalización se compone de comprobaciones previas para detectar desviaciones (detectar cambios en los recursos hechos fuera de su IaC) en los recursos antes de la implementación, así como para validar las acciones que la IaC emprende tras su inicio. Valida los pasos de la implementación, como verificar que determinados archivos y configuraciones estén en su sitio y que los servicios estén en estado de ejecución y respondan correctamente a las comprobaciones de estado del host local antes de volver a registrarse en el equilibrador de carga. Además, todos los cambios se someten a una serie de pruebas automatizadas, como pruebas funcionales, de seguridad, de regresión, de integración y de carga. 

### Pasos para la implementación
Pasos para la implementación

1.  Haga comprobaciones previas a la instalación para reflejar el entorno de preproducción en producción. 

   1.  Use la [detección de desviaciones](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/using-cfn-stack-drift.html) para detectar cuándo se han cambiado los recursos fuera de CloudFormation. 

   1.  Use los [conjuntos de cambio](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/using-cfn-updating-stacks-changesets.html) para validar que la intención de una actualización de la pila coincida con las acciones que CloudFormation lleva a cabo cuando se inicia el conjunto de cambios. 

1.  Esto desencadena un paso de aprobación manual en [AWS CodePipeline](https://docs.aws.amazon.com/codepipeline/latest/userguide/approvals.html) para autorizar la implementación en el entorno de preproducción. 

1.  Utilice configuraciones de implementación, como los archivos [AWS CodeDeploy AppSpec](https://docs.aws.amazon.com/codedeploy/latest/userguide/application-specification-files.html), para definir los pasos de implementación y validación. 

1.  Cuando proceda, [integre AWS CodeDeploy con otros servicios de AWS](https://docs.aws.amazon.com/codedeploy/latest/userguide/integrations-aws.html) o [integre AWS CodeDeploy con los productos y servicios de los socios](https://docs.aws.amazon.com/codedeploy/latest/userguide/integrations-partners.html). 

1.  [Supervise las implementaciones](https://docs.aws.amazon.com/codedeploy/latest/userguide/monitoring.html) mediante Amazon CloudWatch, AWS CloudTrail y las notificaciones de eventos de Amazon SNS. 

1.  Lleve a cabo pruebas automatizadas posteriores a la implementación, incluidas pruebas funcionales, de seguridad, de regresión, de integración y de carga. 

1.  [Solucione los problemas](https://docs.aws.amazon.com/codedeploy/latest/userguide/troubleshooting.html) de implementación. 

1.  La validación correcta de los pasos precedentes debería iniciar un flujo de trabajo de aprobación manual para autorizar la implementación en producción. 

 **Nivel de esfuerzo para el plan de implementación:** alto 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS05-BP02 Prueba y validación de los cambios](ops_dev_integ_test_val_chg.md) 

 **Documentos relacionados:** 
+ [AWS Builders' Library: Automatización de implementaciones seguras y sin intervención \$1 Implementaciones de prueba ](https://aws.amazon.com/builders-library/automating-safe-hands-off-deployments/#Test_deployments_in_pre-production_environments)
+ [Documento técnico de AWS: Práctica de integración y entrega continuas en AWS](https://docs.aws.amazon.com/whitepapers/latest/practicing-continuous-integration-continuous-delivery/testing-stages-in-continuous-integration-and-continuous-delivery.html)
+ [ The Story of Apollo - Amazon's Deployment Engine ](https://www.allthingsdistributed.com/2014/11/apollo-amazon-deployment-engine.html)
+  [How to test and debug AWS CodeDeploy locally before you ship your code](https://aws.amazon.com/blogs/devops/how-to-test-and-debug-aws-codedeploy-locally-before-you-ship-your-code/) 
+ [ Integrating Network Connectivity Testing with Infrastructure Deployment ](https://aws.amazon.com/blogs/networking-and-content-delivery/integrating-network-connectivity-testing-with-infrastructure-deployment/)

 **Videos relacionados:** 
+ [ re:Invent 2020 \$1 Testing software and systems at Amazon ](https://www.youtube.com/watch?v=o1sc3cK9bMU)

 **Ejemplos relacionados:** 
+ [ Tutorial: Deploy and Amazon ECS service with a validation test ](https://docs.aws.amazon.com/codedeploy/latest/userguide/tutorial-ecs-deployment-with-hooks.html)

# OPS06-BP03 Uso de estrategias de implementación seguras
OPS06-BP03 Uso de estrategias de implementación seguras

 Las implementaciones de producción seguras controlan el flujo de cambios beneficiosos con el objetivo de minimizar cualquier impacto percibido por los clientes como consecuencia de dichos cambios. Los controles de seguridad proporcionan mecanismos de inspección para validar los resultados deseados y limitar el alcance del impacto de cualquier defecto introducido por los cambios o por errores en la implementación. Las implementaciones seguras incluyen estrategias como: indicadores de características, caja individual, continuas (versiones de canarios), inmutables, división del tráfico e implementaciones azul-verde. 

 **Resultado deseado:** su organización utiliza un sistema de entrega continua e integración continua (CI/CD) que proporciona capacidades para automatizar implementaciones seguras. Los equipos deben utilizar estrategias adecuadas para implementaciones seguras. 

 **Patrones comunes de uso no recomendados:** 
+  Implementa un cambio sin éxito en toda la producción de una sola vez. Como resultado, todos los clientes resultan afectados simultáneamente. 
+  Un defecto introducido en una implementación simultánea en todos los sistemas requiere una versión de emergencia. Corregirlo para todos los clientes lleva varios días. 
+  La administración del lanzamiento de producción requiere la planificación y la participación de varios equipos. Esto limita su capacidad de actualizar con frecuencia las características para sus clientes. 
+  Lleva a cabo una implementación mutable al modificar los sistemas existentes. Tras descubrir que el cambio no ha tenido éxito, se ve obligado a modificar de nuevo los sistemas para restaurar la versión antigua, lo que prolonga el tiempo de recuperación. 

 **Beneficios de establecer esta práctica recomendada:** las implementaciones automatizadas equilibran la velocidad de las implementaciones con la entrega de cambios beneficiosos de manera coherente a los clientes. Limitar el impacto evita caros errores de implementación y maximiza la capacidad de los equipos de responder de manera eficiente a los errores. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 Los errores continuos en la entrega pueden provocar una reducción de la disponibilidad del servicio y una mala experiencia para los clientes. Para maximizar la tasa de implementaciones satisfactorias, implemente controles de seguridad en el proceso de lanzamiento de principio a fin de minimizar los errores de implementación, con el objetivo de lograr implementaciones sin ningún error. 

 **Ejemplo de cliente** 

 AnyCompany Retail tiene la misión de lograr implementaciones con un tiempo de inactividad mínimo o nulo, lo que significa que los usuarios no perciban ningún impacto durante las implementaciones. Para lograrlo, la empresa ha establecido patrones de implementación (consulte el siguiente diagrama de flujo de trabajo), como implementaciones azul-verde y continuas. Todos los equipos adoptan uno o más de estos patrones en su canalización de CI/CD. 


| Flujo de trabajo de CodeDeploy para Amazon EC2 | Flujo de trabajo de CodeDeploy para Amazon ECS | Flujo de trabajo de CodeDeploy para Lambda | 
| --- | --- | --- | 
|  ![\[Flujo de proceso de implementación para Amazon EC2\]](http://docs.aws.amazon.com/es_es/wellarchitected/latest/framework/images/deployment-process-ec2.png)  |  ![\[Flujo de proceso de implementación para Amazon ECS\]](http://docs.aws.amazon.com/es_es/wellarchitected/latest/framework/images/deployment-process-ecs.png)  |  ![\[Flujo de proceso de implementación para Lambda\]](http://docs.aws.amazon.com/es_es/wellarchitected/latest/framework/images/deployment-process-lambda.png)  | 

### Pasos para la implementación
Pasos para la implementación

1.  Use un flujo de trabajo de aprobación para iniciar la secuencia de pasos de implementación de producción, de la promoción a la producción. 

1.  Use un sistema de implementación automatizado como [AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html). Las opciones de [implementaciones locales](https://docs.aws.amazon.com/codedeploy/latest/userguide/deployment-steps.html) de AWS CodeDeploy para EC2/en las instalaciones e implementaciones azul-verde para EC2/en las instalaciones, AWS Lambda y Amazon ECS (consulte el diagrama de flujo de trabajo anterior). 

   1.  Cuando proceda, [integre AWS CodeDeploy con otros servicios de AWS](https://docs.aws.amazon.com/codedeploy/latest/userguide/integrations-aws.html) o [integre AWS CodeDeploy con los productos y servicios de los socios](https://docs.aws.amazon.com/codedeploy/latest/userguide/integrations-partners.html). 

1.  Utilice implementaciones azul/verde para bases de datos como [Amazon Aurora](https://docs.aws.amazon.com/AmazonRDS/latest/AuroraUserGuide/blue-green-deployments.html) y [Amazon RDS](https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/blue-green-deployments.html). 

1.  [Supervise las implementaciones](https://docs.aws.amazon.com/codedeploy/latest/userguide/monitoring.html) mediante Amazon CloudWatch, AWS CloudTrail y las notificaciones de eventos de Amazon Simple Notification Service (Amazon SNS). 

1.  Haga pruebas automatizadas posteriores a la implementación, incluidas pruebas funcionales, de seguridad, de regresión, de integración y cualquier prueba de carga. 

1.  [Solucione los problemas](https://docs.aws.amazon.com/codedeploy/latest/userguide/troubleshooting.html) de implementación. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS05-BP02 Prueba y validación de los cambios](ops_dev_integ_test_val_chg.md) 
+  [OPS05-BP09 Cambios frecuentes, pequeños y reversibles](ops_dev_integ_freq_sm_rev_chg.md) 
+  [OPS05-BP10 Automatización completa de la integración y la implementación](ops_dev_integ_auto_integ_deploy.md) 

 **Documentos relacionados:** 
+ [AWS Builders' Library: Automatización de implementaciones seguras y sin intervención \$1 Implementaciones de producción ](https://aws.amazon.com/builders-library/automating-safe-hands-off-deployments/?did=ba_card&trk=ba_card#Production_deployments)
+ [AWS Builders Library: My CI/CD pipeline is my release captain \$1 Safe, automatic production releases](https://aws.amazon.com//builders-library/cicd-pipeline/#Safe.2C_automatic_production_releases)
+ [Documento técnico de AWS: Práctica de integración y entrega continuas en AWS \$1 Métodos de implementación](https://docs.aws.amazon.com/whitepapers/latest/practicing-continuous-integration-continuous-delivery/deployment-methods.html)
+ [AWS CodeDeploy Guía del usuario de](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html)
+ [Working with deployment configurations in AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/deployment-configurations.html)
+ [Configuración de una implementación de un lanzamiento canario de API Gateway ](https://docs.aws.amazon.com/apigateway/latest/developerguide/canary-release.html)
+ [Amazon ECS Deployment Types](https://docs.aws.amazon.com/)
+ [Fully Managed Blue/Green Deployments in Amazon Aurora and Amazon RDS](https://aws.amazon.com/blogs/aws/new-fully-managed-blue-green-deployments-in-amazon-aurora-and-amazon-rds/)
+ [Blue/Green deployments with AWS Elastic Beanstalk](https://docs.aws.amazon.com/elasticbeanstalk/latest/dg/using-features.CNAMESwap.html)

 **Videos relacionados:** 
+ [re:Invent 2020 \$1 Hands-off: Automating continuous delivery pipelines at Amazon](https://www.youtube.com/watch?v=ngnMj1zbMPY)
+ [re:Invent 2019 \$1 Amazon's Approach to high-availability deployment](https://www.youtube.com/watch?v=bCgD2bX1LI4)

 **Ejemplos relacionados:** 
+ [Try a Sample Blue/Green Deployment in AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/applications-create-blue-green.html)
+ [ Taller \$1 Building CI/CD pipelines for Lambda canary deployments using AWS CDK](https://catalog.workshops.aws/cdk-cicd-for-lambda-canary-deployment/en-US) 
+ [ Taller \$1 Building your first DevOps Blue/Green pipeline with Amazon ECS ](https://catalog.us-east-1.prod.workshops.aws/workshops/4b59b9fb-48b6-461c-9377-907b2e33c9df/en-US)
+ [ Taller \$1 Building your first DevOps Blue/Green pipeline with Amazon EKS ](https://catalog.us-east-1.prod.workshops.aws/workshops/4eab6682-09b2-43e5-93d4-1f58fd6cff6e/en-US)
+ [ Taller \$1 EKS GitOps with ArgoCD ](https://catalog.workshops.aws/eksgitops-argocd-githubactions)
+ [ Taller \$1 CI/CD on AWS Workshop ](https://catalog.workshops.aws/cicdonaws/en-US)
+ [ Implementing cross-account CI/CD with AWS SAM for container-based Lambda functions ](https://aws.amazon.com/blogs/compute/implementing-cross-account-cicd-with-aws-sam-for-container-based-lambda/)

# OPS06-BP04 Automatización de las pruebas y la reversión
OPS06-BP04 Automatización de las pruebas y la reversión

 Para aumentar la velocidad, la fiabilidad y la confianza de su proceso de implementación, tenga una estrategia para automatizar las capacidades de prueba y reversión en los entornos de preproducción y producción. Automatice las pruebas al implementar en producción para simular las interacciones entre humanos y sistemas que verifican los cambios que se implementan. Automatice la reversión para volver rápidamente a un estado válido anterior conocido. La reversión debe iniciarse automáticamente en condiciones predefinidas, como cuando no se logra el resultado deseado del cambio o cuando la prueba automatizada fracasa. La automatización de estas dos actividades mejora la tasa de éxito de las implementaciones, minimiza el tiempo de recuperación y reduce el impacto potencial en la empresa. 

 **Resultado deseado:** sus pruebas automatizadas y sus estrategias de reversión se integran en el proceso de integración y entrega continuas (CI/CD). Su supervisión puede validarse según sus criterios de éxito e iniciar una reversión automática en caso de error. Esto minimiza cualquier impacto en los usuarios finales y los clientes. Por ejemplo, cuando se satisfacen todos los resultados de las pruebas, promociona el código al entorno de producción donde se inician las pruebas de regresión automatizadas, mediante el uso de los mismos casos de prueba. Si los resultados de la prueba de regresión no coinciden con las expectativas, se inicia una reversión automática en el flujo de trabajo de la canalización. 

 **Patrones comunes de uso no recomendados:** 
+  Sus sistemas no tienen una arquitectura que permita actualizarlos con versiones más pequeñas. Como resultado, tiene dificultades para revertir esos cambios masivos durante una implementación infructuosa. 
+  El proceso de implementación consta de una serie de pasos manuales. Tras implementar los cambios en la carga de trabajo, se inician las pruebas posteriores a la implementación. Tras las pruebas, se da cuenta de que no puede utilizar la carga de trabajo y los clientes están desconectados. A continuación, empieza a revertir a la versión anterior. Todos estos pasos manuales retrasan la recuperación general del sistema y provocan un impacto prolongado en sus clientes. 
+  Ha dedicado tiempo a desarrollar casos de prueba automatizados para funciones que no se utilizan con frecuencia en su aplicación, lo que minimiza el retorno de la inversión en su capacidad de llevar a cabo pruebas automatizadas. 
+  Su versión se compone de actualizaciones de aplicaciones, infraestructura, parches y configuración que son independientes entre sí. Sin embargo, tiene una única canalización de CI/CD que introduce todos los cambios a la vez. Un error en un componente le obliga a revertir todos los cambios, lo que hace que la reversión sea compleja e ineficiente. 
+  Su equipo completa el trabajo de codificación en el primer sprint y comienza el trabajo en el segundo, pero el plan no incluía las pruebas hasta el tercer sprint. Como resultado, las pruebas automatizadas revelaron defectos en el primer sprint que tenían que haberse resuelto antes de empezar a probar los resultados del segundo sprint, con lo que se retrasa todo el lanzamiento y se devalúan las pruebas automatizadas. 
+  Los casos de las pruebas de regresión automatizadas para el lanzamiento de producción se han completado, pero no está supervisando el estado de la carga de trabajo. Como no puede saber si el servicio se ha reiniciado o no, no está seguro de si es necesaria una reversión o si ya se ha producido. 

 **Beneficios de establecer esta práctica recomendada:** las pruebas automatizadas aumentan la transparencia del proceso de pruebas y su capacidad para abarcar más características en un intervalo más reducido. Al probar y validar los cambios en la producción, puede identificar los problemas de forma inmediata. La mejora de la coherencia con herramientas de prueba automatizadas permite una mejor detección de los defectos. Al revertir automáticamente a la versión anterior, se minimiza el impacto en los clientes. La reversión automatizada, en última instancia, inspira más confianza en sus capacidades de implementación al reducir el impacto empresarial. En general, estas capacidades reducen el tiempo de entrega y, al mismo tiempo, garantizan la calidad. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 Automatice las pruebas de los entornos implementados para confirmar los resultados deseados con más rapidez. Automatice la reversión a un estado conocido correcto anterior cuando no se logren resultados predefinidos para minimizar el tiempo de recuperación y reducir los errores causados por los procesos manuales. Integre las herramientas de prueba con el flujo de trabajo de la canalización para probar y minimizar las entradas manuales de manera coherente. Priorice la automatización de los casos de prueba, como aquellos que mitigan los mayores riesgos y que deben probarse con frecuencia con cada cambio. Esto le ayuda a medir el retorno de la inversión (ROI) y da a los propietarios de cargas de trabajo la oportunidad de optimizar sus recursos y reducir costos. 

### Pasos para la implementación
Pasos para la implementación

1.  Establezca un ciclo de vida de pruebas para su ciclo de vida de desarrollo que defina cada etapa del proceso de prueba, desde la planificación de los requisitos hasta el desarrollo de los casos de prueba, la configuración de las herramientas, las pruebas automatizadas y el cierre de los casos de prueba. 

   1.  Cree un enfoque de pruebas específico para la carga de trabajo a partir de su estrategia general de pruebas. 

   1.  Considere una estrategia de pruebas continuas cuando sea apropiado durante todo el ciclo de vida de desarrollo. 

1.  Seleccione herramientas automatizadas para efectuar pruebas y reversiones en función de sus requisitos empresariales y de las inversiones en curso. 

1.  Decida qué casos de prueba quiere automatizar y cuáles se deberán llevar a cabo manualmente. Estos se pueden definir en función de la prioridad de valor empresarial de la característica que se está probando. Alinee a todos los miembros del equipo con este plan y verifique la responsabilidad de efectuar las pruebas manuales. 

   1.  Aplique capacidades de pruebas automatizadas a casos de prueba específicos que tengan sentido para la automatización, como los casos repetibles o que se ejecutan con frecuencia, los que requieren tareas repetitivas o los que se requieren en varias configuraciones. 

   1.  Defina los scripts de automatización de pruebas, así como los criterios de éxito en la herramienta de automatización, de modo que se pueda iniciar la automatización continua del flujo de trabajo cuando fracasan casos específicos. 

   1.  Defina criterios de error concretos para la reversión automática. 

1.  Priorice la automatización de las pruebas para obtener resultados coherentes con un desarrollo exhaustivo de casos de prueba en los que la complejidad y la interacción humana tengan un mayor riesgo de fracaso. 

1.  Integre las herramientas automatizadas de pruebas y reversión en la canalización de CI/CD. 

   1.  Desarrolle criterios de éxito claros para los cambios. 

   1.  Supervise y observe para detectar estos criterios y revertir automáticamente los cambios cuando se cumplan criterios de reversión específicos. 

1.  Lleve a cabo diferentes tipos de pruebas automatizadas de producción, como: 

   1.  Pruebas A/B para mostrar los resultados en comparación con la versión actual entre dos grupos de pruebas de usuarios. 

   1.  Pruebas canario que permiten implementar el cambio en un subconjunto de usuarios antes de lanzarlo para todos. 

   1.  Pruebas de marca de características que permiten activar y desactivar las características de la nueva versión de una en una desde fuera de la aplicación para que cada característica nueva se pueda validar por sí sola. 

   1.  Pruebas de regresión para verificar la nueva funcionalidad con los componentes interrelacionados ya existentes. 

1.  Supervise los aspectos operativos de la aplicación, las transacciones y las interacciones con otras aplicaciones y componentes. Redacte informes que muestren el éxito de los cambios por carga de trabajo, de modo que pueda identificar qué partes de la automatización y el flujo de trabajo se pueden optimizar aún más. 

   1.  Elabore informes de resultados de pruebas que le ayuden a tomar decisiones rápidas sobre si se deben invocar o no los procedimientos de reversión. 

   1.  Implemente una estrategia que permita la reversión automática en función de condiciones de error predefinidas que resulten de uno o más de sus métodos de prueba. 

1.  Desarrolle los casos de prueba automatizados para poder volver a usarlos en futuros cambios repetibles. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS06-BP01 Planificación para hacer frente a los cambios infructuosos](ops_mit_deploy_risks_plan_for_unsucessful_changes.md) 
+  [OPS06-BP02 Implementaciones de prueba](ops_mit_deploy_risks_test_val_chg.md) 

 **Documentos relacionados:** 
+ [AWS Builders' Library: Asegurar la seguridad en las restauraciones durante las implementaciones ](https://aws.amazon.com/builders-library/ensuring-rollback-safety-during-deployments/)
+  [Redeploy and rollback a deployment with AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/deployments-rollback-and-redeploy.html) 
+ [ 8 best practices when automating your deployments with AWS CloudFormation](https://aws.amazon.com/blogs/infrastructure-and-automation/best-practices-automating-deployments-with-aws-cloudformation/)

 **Ejemplos relacionados:** 
+ [ Serverless UI testing using Selenium, AWS Lambda, AWS Fargate, and AWS Developer Tools ](https://aws.amazon.com/blogs/devops/using-aws-codepipeline-aws-codebuild-and-aws-lambda-for-serverless-automated-ui-testing/)

 **Videos relacionados:** 
+ [ re:Invent 2020 \$1 Hands-off: Automating continuous delivery pipelines at Amazon ](https://www.youtube.com/watch?v=ngnMj1zbMPY)
+ [ re:Invent 2019 \$1 Amazon's Approach to high-availability deployment ](https://www.youtube.com/watch?v=bCgD2bX1LI4)

# OPS 7. ¿Cómo sabe que está listo para admitir una carga de trabajo?


 Evalúe la disponibilidad operativa de la carga de trabajo, los procesos y procedimientos, y el personal para comprender los riesgos operativos relacionados con la carga de trabajo. 

**Topics**
+ [

# OPS07-BP01 Garantía de la capacidad del personal
](ops_ready_to_support_personnel_capability.md)
+ [

# OPS07-BP02 Garantía de una revisión sistemática de la preparación operativa
](ops_ready_to_support_const_orr.md)
+ [

# OPS07-BP03 Uso de manuales de procedimientos para llevar a cabo los procedimientos
](ops_ready_to_support_use_runbooks.md)
+ [

# OPS07-BP04 Uso de manuales de estrategias para investigar problemas
](ops_ready_to_support_use_playbooks.md)
+ [

# OPS07-BP05 Toma de decisiones fundamentadas para implementar sistemas y cambios
](ops_ready_to_support_informed_deploy_decisions.md)
+ [

# OPS07-BP06 Creación de planes de asistencia para cargas de trabajo de producción
](ops_ready_to_support_enable_support_plans.md)

# OPS07-BP01 Garantía de la capacidad del personal
OPS07-BP01 Garantía de la capacidad del personal

Disponga de un mecanismo para comprobar que cuente con la cantidad adecuada de personal formado para atender la carga de trabajo. Deben recibir formación sobre la plataforma y los servicios que componen su carga de trabajo. Transmítales los conocimientos necesarios para poder gestionar la carga de trabajo. Debe disponer de suficiente personal formado para atender el funcionamiento normal de la carga de trabajo y solucionar las incidencias que se produzcan. Cuente con suficiente personal para que pueda rotar durante las guardias y vacaciones, a fin de evitar que el personal se sienta quemado. 

 **Resultado deseado:** 
+  Hay suficiente personal formado para atender la carga de trabajo cuando esta se encuentre disponible. 
+  El personal recibe formación sobre el software y los servicios que componen la carga de trabajo. 

 **Patrones comunes de uso no recomendados:** 
+ Se implementa una carga de trabajo sin miembros del equipo formados para operar la plataforma y los servicios en uso. 
+  Se carece de suficiente personal para facilitar las rotaciones de guardia o para que el personal se tome tiempo libre. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Contar con miembros del equipo cualificados permite un apoyo eficaz para su carga de trabajo. 
+  Si hay suficientes miembros en el equipo, es posible atender la carga de trabajo y las rotaciones de guardia, al tiempo que disminuye el riesgo de síndrome de burnout. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 Compruebe que haya suficiente personal formado para atender la carga de trabajo. Compruebe que cuenta con suficientes miembros del equipo para cubrir las actividades operativas, incluidas las rotaciones de guardia. 

 **Ejemplo de cliente** 

 AnyCompany Retail se asegura de que los equipos que atienden la carga de trabajo cuentan con la formación y el personal adecuados. Tienen suficientes ingenieros para tolerar una rotación de guardia. El personal recibe formación sobre el software y la plataforma en los que se basa la carga de trabajo y se le anima a obtener certificaciones. Hay personal suficiente para que los empleados puedan tomarse tiempo libre sin dejar de atender la carga de trabajo y la rotación de guardia. 

### Pasos para la implementación
Pasos para la implementación

1.  Asigne un número adecuado de personal para operar y respaldar la carga de trabajo, incluidas las tareas de guardia, los problemas de seguridad y los eventos del ciclo de vida, como las tareas de fin de soporte y de rotación de certificados. 

1.  Forme a su personal sobre el software y las plataformas que componen su carga de trabajo. 

   1.  [Capacitación y certificación de AWS](https://aws.amazon.com/training/) tiene una biblioteca de cursos sobre AWS. Ofrece cursos gratuitos y de pago, en línea y presenciales. 

   1.  [AWS organiza eventos y seminarios web](https://aws.amazon.com/events/) en los que puede aprender de la mano de expertos de AWS. 

1. Realice lo siguiente de forma periódica: 
   +  Evalúe el tamaño y las aptitudes del equipo a medida que cambien las condiciones operativas y la carga de trabajo. 
   +  Ajuste el tamaño y las competencias del equipo para que se ciñan a los requisitos operativos. 
   +  Verifique la habilidad y la capacidad para [hacer frente a los eventos del ciclo de vida previstos](https://docs.aws.amazon.com/health/latest/ug/aws-health-planned-lifecycle-events.html), la seguridad no planeada y las notificaciones operativas a través de AWS Health. 

 **Nivel de esfuerzo para el plan de implementación:** alto. La contratación y la formación de un equipo que atienda la carga de trabajo puede suponer un esfuerzo considerable, pero promete importantes ventajas a largo plazo. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS11-BP04 Administración de conocimientos](ops_evolve_ops_knowledge_management.md): los miembros del equipo deben disponer de la información necesaria para operar y atender la carga de trabajo. La administración del conocimiento es la clave para alcanzar este objetivo. 

 **Documentos relacionados:** 
+  [Eventos y seminarios web de AWS](https://aws.amazon.com/events/) 
+  [Capacitación y certificación de AWS](https://aws.amazon.com/training/) 

# OPS07-BP02 Garantía de una revisión sistemática de la preparación operativa
OPS07-BP02: Garantía de una revisión sistemática de la preparación operativa

Utilice las revisiones de la preparación operativa (ORR) para validar que puede utilizar su carga de trabajo. ORR es un mecanismo desarrollado en Amazon para validar que los equipos puedan utilizar con seguridad sus cargas de trabajo. Una ORR es un proceso de revisión e inspección que utiliza una lista de verificación de requisitos. Una ORR es una experiencia de autoservicio que los equipos utilizan para certificar sus cargas de trabajo. Las ORR incluyen las prácticas recomendadas procedentes de las lecciones aprendidas en nuestros años de creación de software. 

 Una lista de verificación de ORR se compone de recomendaciones de arquitectura, proceso operativo, administración de eventos y calidad de lanzamiento. Nuestro proceso de corrección de errores (CoE) es uno de los principales impulsores de estos elementos. Su análisis posterior al incidente debe impulsar la evolución de su propia ORR. Una ORR no solo consiste en seguir las prácticas recomendadas, sino en evitar que se repitan sucesos ya vistos. Por último, los requisitos de seguridad, gobernanza y conformidad también pueden incluirse en una ORR. 

 Ejecute las ORR antes de que una carga de trabajo se lance a la disponibilidad general y, después, a lo largo del ciclo de vida de desarrollo del software. Ejecutar la ORR antes del lanzamiento aumenta su capacidad para utilizar la carga de trabajo de forma segura. Vuelva a ejecutar periódicamente su ORR en la carga de trabajo para detectar cualquier desviación de las prácticas recomendadas. Puede tener listas de verificación de ORR para el lanzamiento de nuevos servicios y ORR para las revisiones periódicas. Esto le ayuda a mantenerse al día en cuanto a las nuevas prácticas recomendadas que surgen y a incorporar las lecciones aprendidas del análisis posterior al incidente. A medida que madure su uso de la nube, podrá incorporar los requisitos de ORR en su arquitectura de forma predeterminada. 

 **Resultado deseado:** tiene una lista de verificación de ORR con las prácticas recomendadas para su organización. Las ORR se llevan a cabo antes de lanzar las cargas de trabajo. Las ORR se llevan a cabo periódicamente a lo largo del ciclo de vida de la carga de trabajo. 

 **Patrones comunes de uso no recomendados:** 
+ Lanza una carga de trabajo sin saber si puede utilizarla. 
+ Los requisitos de gobernanza y seguridad no se incluyen en la certificación de una carga de trabajo para su lanzamiento. 
+ Las cargas de trabajo no se revalúan periódicamente. 
+ Las cargas de trabajo se lanzan sin los procedimientos necesarios. 
+ Observa la repetición de los mismos errores de causa raíz en varias cargas de trabajo. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Sus cargas de trabajo incluyen las prácticas recomendadas de arquitectura, procesos y administración. 
+  Las lecciones aprendidas se incorporan al proceso de ORR. 
+  Se aplican los procedimientos necesarios cuando se lanzan las cargas de trabajo. 
+  Las ORR se ejecutan a lo largo del ciclo de vida del software de sus cargas de trabajo. 

 **Nivel de riesgo si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 Una ORR es dos cosas: un proceso y una lista de verificación. Su organización debe adoptar el proceso de ORR y contar con la asistencia de un patrocinador ejecutivo. Como mínimo, las ORR deben hacerse antes de que una carga de trabajo se lance a la disponibilidad general. Ejecute la ORR durante todo el ciclo de vida del desarrollo del software para mantenerla actualizada con las prácticas recomendadas o los nuevos requisitos. La lista de verificación de ORR debe incluir elementos de configuración, requisitos de seguridad y gobernanza, y las prácticas recomendadas de su organización. Con el tiempo, puede utilizar servicios, como [AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html), [AWS Security Hub CSPM](https://docs.aws.amazon.com/securityhub/latest/userguide/what-is-securityhub.html) y las [barreras de protección de AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/guardrails.html) para convertir las prácticas recomendadas de la ORR en barreras de protección para la detección automática de las prácticas recomendadas. 

 **Ejemplo de cliente** 

 Tras varios incidentes de producción, AnyCompany Retail decidió implementar un proceso de ORR. Elaboró una lista de verificación compuesta de prácticas recomendadas, requisitos de gobernanza y conformidad, y lecciones aprendidas de las interrupciones. Las nuevas cargas de trabajo llevan a cabo las ORR antes de su lanzamiento. Cada carga de trabajo lleva a cabo una ORR anual con un subconjunto de prácticas recomendadas para incorporar nuevas prácticas y requisitos que se agregan a la lista de verificación de ORR. Con el tiempo, AnyCompany Retail utilizó [AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html) para detectar algunas prácticas recomendadas, lo que agilizó el proceso de ORR. 

 **Pasos para la implementación** 

 Para obtener más información sobre las ORR, lea el [documento técnico sobre las revisiones de la preparación operativa (ORR)](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/wa-operational-readiness-reviews.html). En él se ofrece información detallada sobre la historia del proceso ORR, cómo crear su propia práctica ORR y cómo desarrollar su lista de verificación de ORR. Los siguientes pasos son una versión abreviada de ese documento. Para conocer en profundidad qué son las ORR y cómo crear las suyas, le recomendamos que lea ese documento técnico. 

1. Reúna a las principales partes interesadas, incluidos los representantes de seguridad, operaciones y desarrollo. 

1. Pida a cada parte interesada que aporte al menos un requisito. Para la primera iteración, intente limitar el número de elementos a treinta o menos. 
   +  El [Appendix B: Example ORR questions](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/appendix-b-example-orr-questions.html) del documento técnico sobre las revisiones de la preparación operativa (ORR) contiene las preguntas de ejemplo que puede usar para empezar. 

1. Recopile sus requisitos en una hoja de cálculo. 
   + Puede usar [enfoques personalizados](https://docs.aws.amazon.com/wellarchitected/latest/userguide/lenses-custom.html) en [AWS Well-Architected Tool](https://console.aws.amazon.com/wellarchiected/) para desarrollar su ORR y compartirlos entre sus cuentas y su organización de AWS. 

1. Identifique una carga de trabajo para llevar a cabo la ORR en ella. Lo ideal es una carga de trabajo previa al lanzamiento o una carga de trabajo interna. 

1. Repase la lista de verificación de ORR y tome nota de las detecciones. Los descubrimientos pueden ser correctos si existe una mitigación. Agregue cualquier descubrimiento que carezca de una mitigación a su lista de tareas pendientes e impleméntelas antes de lanzarlas. 

1. Siga agregando las prácticas recomendadas y los requisitos a su lista de verificación ORR con el tiempo. 

 Los clientes de Soporte con Enterprise Support pueden solicitar el [taller de revisión de la preparación operativa](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/) a su gerente técnico de cuentas. El taller es una sesión de *trabajo en sentido inverso* interactiva para desarrollar su propia lista de verificación de ORR. 

 **Nivel de esfuerzo para el plan de implementación:** alto. La adopción de una práctica de ORR en su organización requiere el patrocinio ejecutivo y la aceptación de las partes interesadas. Cree y actualice la lista de verificación con las aportaciones de toda su organización. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+ [OPS01-BP03 Evaluación de los requisitos de gobernanza](ops_priorities_governance_reqs.md) : los requisitos de gobernanza encajan de forma natural en una lista de verificación de ORR. 
+ [OPS01-BP04 Evaluación de los requisitos de cumplimiento](ops_priorities_compliance_reqs.md) : los requisitos de conformidad se incluyen a veces en una lista de verificación de ORR. Otras veces son un proceso independiente. 
+ [OPS03-BP07 Recursos adecuados para los equipos](ops_org_culture_team_res_appro.md): la capacidad del equipo es un buen candidato para un requisito de ORR. 
+ [OPS06-BP01 Planificación para hacer frente a los cambios infructuosos](ops_mit_deploy_risks_plan_for_unsucessful_changes.md): antes de lanzar la carga de trabajo, debe establecerse un plan de restauración o de avance. 
+ [OPS07-BP01 Garantía de la capacidad del personal](ops_ready_to_support_personnel_capability.md): para respaldar una carga de trabajo hay que contar con el personal necesario. 
+ [SEC01-BP03 Identificación y validación de los objetivos de control](https://docs.aws.amazon.com/wellarchitected/latest/framework/sec_securely_operate_control_objectives.html): los objetivos de control de seguridad son excelentes requisitos de ORR. 
+ [REL13-BP01 Definición de objetivos de recuperación para el tiempo de inactividad y la pérdida de datos](https://docs.aws.amazon.com/wellarchitected/latest/framework/rel_planning_for_recovery_objective_defined_recovery.html): los planes de recuperación de desastres son un buen requisito de ORR. 
+ [COST02-BP01 Desarrollo de políticas basadas en los requisitos de su organización](https://docs.aws.amazon.com/wellarchitected/latest/framework/cost_govern_usage_policies.html): las políticas de administración de costos son adecuadas para incluirlas en su lista de verificación de ORR. 

 **Documentos relacionados:** 
+  [AWS Control Tower - Guardrails in AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/guardrails.html) 
+  [AWS Well-Architected Tool - Custom Lenses](https://docs.aws.amazon.com/wellarchitected/latest/userguide/lenses-custom.html) 
+  [Operational Readiness Review Template de Adrian Hornsby](https://medium.com/the-cloud-architect/operational-readiness-review-template-e23a4bfd8d79) 
+  [Operational Readiness Reviews (ORR) Whitepaper](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/wa-operational-readiness-reviews.html) 

 **Videos relacionados:** 
+  [AWS Supports You \$1 Building an Effective Operational Readiness Review (ORR)](https://www.youtube.com/watch?v=Keo6zWMQqS8) 

 **Ejemplos relacionados:** 
+  [Sample Operational Readiness Review (ORR) Lens](https://github.com/aws-samples/custom-lens-wa-sample/tree/main/ORR-Lens) 

 **Servicios relacionados:** 
+  [AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html) 
+  [AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/what-is-control-tower.html) 
+  [AWS Security Hub CSPM](https://docs.aws.amazon.com/securityhub/latest/userguide/what-is-securityhub.html) 
+  [AWS Well-Architected Tool](https://docs.aws.amazon.com/wellarchitected/latest/userguide/intro.html) 

# OPS07-BP03 Uso de manuales de procedimientos para llevar a cabo los procedimientos
OPS07-BP03 Uso de manuales de procedimientos para llevar a cabo los procedimientos

 Un *manual de procedimientos* es un proceso documentado para lograr un resultado específico. Los manuales de procedimientos consisten en una serie de pasos que alguien sigue para conseguir algo. Los manuales de procedimientos se han utilizado en operaciones que se remontan a los primeros días de la aviación. En las operaciones en la nube, utilizamos manuales de procedimientos para reducir el riesgo y lograr los resultados deseados. En su forma más simple, un manual de procedimientos es una lista de verificación para completar una tarea. 

 Los manuales de procedimientos son una parte esencial del funcionamiento de su carga de trabajo. Desde la incorporación de un nuevo miembro del equipo hasta la implementación de una versión importante, los manuales de procedimientos son los procesos codificados que proporcionan resultados coherentes independientemente de quién los utilice. Los manuales de procedimientos deben publicarse en una ubicación central y actualizarse a medida que el proceso evolucione, ya que la actualización de los manuales de procedimientos es un componente clave de un proceso de administración de cambios. También deben incluir directrices sobre la gestión de errores, las herramientas, los permisos, las excepciones y las escalaciones en caso de que se produzca un problema. 

 A medida que su organización madure, comience a automatizar los manuales de procedimientos. Comience con manuales de procedimientos que sean cortos y se utilicen con frecuencia. Utilice lenguajes de scripting para automatizar pasos o facilitar que se haga. A medida que automatice los primeros manuales de procedimientos, dedicará tiempo a automatizar manuales de procedimientos más complejos. Con el tiempo, la mayoría de sus manuales de procedimientos deberían estar automatizados de alguna manera. 

 **Resultado deseado:** su equipo dispone de una colección de guías paso a paso para llevar a cabo las tareas de la carga de trabajo. Los manuales de procedimientos contienen el resultado deseado, las herramientas y los permisos necesarios y las instrucciones para la gestión de errores. Se almacenan en una ubicación central (sistema de control de versiones) y se actualizan con frecuencia. Por ejemplo, sus manuales de procedimientos ofrecen a sus equipos la capacidad de supervisar, comunicarse y responder a los eventos de AWS Health de las cuentas críticas durante las alarmas de las aplicaciones, los problemas operativos y los eventos planificados del ciclo de vida. 

 **Patrones comunes de uso no recomendados:** 
+  Depender de la memoria para completar cada paso de un proceso. 
+  Implementar manualmente los cambios sin una lista de verificación. 
+  Diferentes miembros del equipo llevan a cabo el mismo proceso, pero con diferentes pasos o resultados. 
+  Dejar que los manuales de procedimientos se desincronicen con los cambios del sistema y la automatización. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Reducción de los índices de error en las tareas manuales. 
+  Las operaciones se llevan a cabo de forma coherente. 
+  Los nuevos miembros del equipo pueden empezar a efectuar tareas antes. 
+  Los manuales de procedimientos pueden automatizarse para reducir el trabajo. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 Los manuales de procedimientos pueden adoptar varias formas en función del nivel de madurez de su organización. Como mínimo, deben consistir en un documento de texto paso a paso. El resultado deseado debe indicarse claramente. Documente claramente los permisos o herramientas especiales necesarios. Proporcione directrices detalladas sobre la gestión de errores y las derivaciones en caso de que algo vaya mal. Indique el propietario del manual de procedimientos y publíquelo en una ubicación central. Una vez que el manual de procedimientos esté documentado, haga que otra persona de su equipo lo ejecute para validarlo. A medida que los procedimientos evolucionen, actualice sus manuales de procedimientos de acuerdo con su proceso de administración de cambios. 

 Sus manuales de procedimientos deben automatizarse a medida que su organización madura. Con servicios como la [Automatización de AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html), puede transformar un texto plano en automatizaciones que pueden ejecutarse contra su carga de trabajo. Estas automatizaciones pueden ejecutarse en respuesta a eventos, lo que reduce la carga operativa para mantener su carga de trabajo. AWS La Automatización de Systems Manager también proporciona una [experiencia de diseño visual](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-visual-designer.html) con poco código para crear manuales de automatización con mayor facilidad. 

 **Ejemplo de cliente** 

 AnyCompany Retail debe llevar a cabo actualizaciones del esquema de la base de datos durante implementaciones de software. El equipo de operaciones en la nube trabajó con el equipo de administración de bases de datos para crear un manual de procedimientos para implementar manualmente estos cambios. El manual de procedimientos enumeraba cada paso del proceso en forma de lista de verificación. Incluía una sección sobre la gestión de errores en caso de que algo saliera mal. Publicaron el manual de procedimientos en su wiki interna junto con sus otros manuales de procedimientos. El equipo de operaciones en la nube tiene previsto automatizar el manual de procedimientos en un futuro sprint. 

### Pasos para la implementación
Pasos para la implementación

 Si no tiene un repositorio de documentos, un repositorio de control de versiones es un buen lugar para empezar a crear su biblioteca de manuales de procedimientos. Puede crear sus manuales de procedimientos con Markdown. Hemos proporcionado una plantilla de manual de procedimientos de ejemplo que puede utilizar para empezar a crear manuales de procedimientos. 

```
# Runbook Title
## Runbook Info
| Runbook ID | Description | Tools Used | Special Permissions | Runbook Author | Last Updated | Escalation POC | 
|-------|-------|-------|-------|-------|-------|-------|
| RUN001 | What is this runbook for? What is the desired outcome? | Tools | Permissions | Your Name | 2022-09-21 | Escalation Name |
## Steps
1. Step one
2. Step two
```

1.  Si no tiene un repositorio de documentación o un wiki, cree un nuevo repositorio de control de versiones en su sistema de control de versiones. 

1.  Identifique un proceso que no tenga un manual de procedimientos. Un proceso ideal es aquel que se lleva a cabo de forma semirregular, es corto en número de pasos y tiene errores de bajo impacto. 

1.  En su repositorio de documentos, use la plantilla para crear un nuevo borrador de documento Markdown. Rellene el título del manual de procedimientos y los campos obligatorios en Información del manual de procedimientos. 

1.  En el primer paso, rellene la parte Pasos del manual de procedimientos. 

1.  Asigne el manual de procedimientos a un miembro del equipo. Pídales que utilicen el manual de procedimientos para validar los pasos. Si falta algo o hay que aclararlo, actualice el manual de procedimientos. 

1.  Publique el manual de procedimientos en su almacén de documentación interno. Una vez publicado, comuníquelo a su equipo y a otras partes interesadas. 

1.  Con el tiempo, creará una biblioteca de manuales de procedimientos. A medida que esa biblioteca crezca, comience a trabajar para automatizar los manuales de procedimientos. 

 **Nivel de esfuerzo para el plan de implementación:** bajo. El estándar mínimo para un manual de procedimientos es una guía de texto paso a paso. La automatización de manuales de procedimientos puede aumentar el esfuerzo de implementación. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS02-BP02 Procesos y procedimientos con propietarios identificados](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_proc_owners.html) 
+  [OPS07-BP04 Uso de manuales de estrategias para investigar problemas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ready_to_support_use_playbooks.html) 
+  [OPS10-BP01 Uso de un proceso para la administración de eventos, incidentes y problemas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_event_incident_problem_process.html) 
+  [OPS10-BP02 Implementación de un proceso por alerta](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_process_per_alert.html) 
+  [OPS11-BP04 Administración de conocimientos](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_knowledge_management.html) 

 **Documentos relacionados:** 
+  [Achieving Operational Excellence using automated playbook and runbook](https://aws.amazon.com/blogs/mt/achieving-operational-excellence-using-automated-playbook-and-runbook/) 
+  [AWS Systems Manager: Creación de sus propios manuales de procedimientos](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html) 
+  [Migration playbook for AWS large migrations - Task 4: Improving your migration runbooks](https://docs.aws.amazon.com/prescriptive-guidance/latest/large-migration-migration-playbook/task-four-migration-runbooks.html) 
+  [Use AWS Systems Manager Automation runbooks to resolve operational tasks](https://aws.amazon.com/blogs/mt/use-aws-systems-manager-automation-runbooks-to-resolve-operational-tasks/) 

 **Videos relacionados:** 
+  [AWS re:Invent 2019: DIY guide to runbooks, incident reports, and incident response](https://www.youtube.com/watch?v=E1NaYN_fJUo) 
+  [How to automate IT Operations on AWS \$1 Amazon Web Services](https://www.youtube.com/watch?v=GuWj_mlyTug) 
+  [Integrate Scripts into AWS Systems Manager](https://www.youtube.com/watch?v=Seh1RbnF-uE) 

 **Ejemplos relacionados:** 
+  [Well-Architected Labs: Automating operations with Playbooks and Runbooks](https://wellarchitectedlabs.com/operational-excellence/200_labs/200_automating_operations_with_playbooks_and_runbooks/) 
+  [AWS Entrada en el blog de : Build a Cloud Automation Practice for Operational Excellence: Best Practices from AWS Managed Services](https://aws.amazon.com/blogs/mt/build-a-cloud-automation-practice-for-operational-excellence-best-practices-from-aws-managed-services/) 
+  [AWS Systems Manager: tutoriales de Automation](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk.html) 
+  [AWS Systems Manager: Restauración de un volumen raíz a partir de la última instantánea del manual de procedimientos](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-document-sample-restore.html) 
+  [Building an AWS incident response runbook using Jupyter notebooks and CloudTrail Lake](https://catalog.us-east-1.prod.workshops.aws/workshops/a5801f0c-7bd6-4282-91ae-4dfeb926a035/en-US) 
+  [Gitlab: Runbooks](https://gitlab.com/gitlab-com/runbooks) 
+  [Rubix: una biblioteca de Python para crear manuales de procedimientos en cuadernos de Jupyter](https://github.com/Nurtch/rubix) 
+  [Uso del Generador de documentos para crear un manual de procedimientos](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk-document-builder.html) 

 **Servicios relacionados:** 
+  [AWS Systems Manager Automation](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html) 

# OPS07-BP04 Uso de manuales de estrategias para investigar problemas
OPS07-BP04 Uso de manuales de estrategias para investigar problemas

 Los *manuales de estrategias* son guías paso a paso que se utilizan para investigar un incidente. Cuando se producen incidentes, se usan para investigar, determinar el impacto e identificar la causa raíz. Los manuales de estrategias se utilizan en diversas situaciones, desde implementaciones erróneas hasta incidentes de seguridad. En numerosos casos, identifican la causa raíz para la que se usa un manual de procedimientos para mitigarla. Las guías de estrategias son un componente esencial de los planes de respuesta a incidentes de su organización. 

 Un buen manual de estrategias tiene varias características clave. Orienta al usuario, paso a paso, a través del proceso de descubrimiento. Viéndolo desde fuera, ¿qué pasos debería seguir alguien para diagnosticar un incidente? Defina de forma clara en el manual de estrategias si se necesitan herramientas especiales o permisos de alto nivel en ella. El hecho de contar con un plan de comunicación para informar a las partes interesadas sobre el estado de la investigación es un componente clave. En las situaciones en las que no se pueda identificar la causa raíz, la guía de estrategias debe tener un plan de derivación. Si se identifica la causa raíz, la guía de estrategias debe señalar un manual de procedimientos que describa cómo resolverla. Los manuales de estrategias deben almacenarse de forma centralizada y se debe hacer un mantenimiento periódico de ellos. Si se utilizan para alertas específicas, facilite a su equipo indicaciones sobre cada guía de estrategias en cada alerta. 

 A medida que madure su organización, automatice los manuales de estrategias. Empiece con manuales de estrategias que cubran incidentes de poco riesgo. Utilice scripting para automatizar los pasos de descubrimiento. Asegúrese de que dispone de manuales de procedimientos complementarios para mitigar las causas raíz más habituales. 

 **Resultado deseado:** su organización dispone de manuales de estrategias para incidentes comunes. Dichos manuales de estrategias se almacenan en una ubicación central y están a disposición de los miembros del equipo. y se actualizan con frecuencia. Se crean manuales de procedimientos complementarios para cualquier causa raíz conocida. 

 **Patrones comunes de uso no recomendados:** 
+  No existe una forma estándar de investigar un incidente. 
+  Los miembros del equipo confían en la memoria muscular o en el conocimiento institucional para solucionar una implementación con errores. 
+  Los nuevos miembros del equipo aprenden a investigar los problemas con el método de ensayo y error. 
+  Las prácticas recomendadas para investigar los problemas no se comparten entre los equipos. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Los manuales de estrategias impulsan sus esfuerzos para mitigar los incidentes. 
+  Los distintos miembros del equipo pueden utilizar el mismo manual de estrategias para identificar la causa raíz de forma coherente. 
+  Las causas raíz conocidas pueden tener manuales de procedimientos desarrollados para ellas, lo que acelera el tiempo de recuperación. 
+  Los manuales de estrategias permiten a los miembros del equipo empezar a contribuir antes. 
+  Los equipos pueden escalar sus procesos con manuales de estrategias repetibles. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 La forma de crear y utilizar las guías de estrategias depende de la madurez de su organización. Si es la primera vez que utiliza la nube, cree guías de estrategias en formato de texto en un repositorio de documentos central. A medida que madure su organización, los manuales de estrategias pueden semiautomatizarse con lenguajes de scripting como Python. Estos scripts pueden ejecutarse en un cuaderno de Jupyter para acelerar el descubrimiento. Las organizaciones avanzadas cuentan con manuales de estrategias completamente automatizados para los problemas más habituales que se solucionan de forma automática con manuales de procedimientos. 

 Elabore una lista de incidentes comunes que afectan a la carga de trabajo para empezar a crear los manuales de estrategias. Como punto de partida, elija manuales de estrategias para incidentes con poco riesgo y en los que la causa raíz se haya reducido a unos pocos problemas. Una vez que disponga de manuales de estrategias para las situaciones más sencillas, continúe con las de mayor riesgo o cuya causa raíz no se conozca bien. 

 Sus manuales de estrategias en texto deben automatizarse a medida que su organización madura. Con servicios como la [Automatización de AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html), se puede transformar un texto plano en automatizaciones. Estas automatizaciones pueden ejecutarse en la carga de trabajo para acelerar las investigaciones. Se pueden activar en respuesta a los incidentes, lo que reduce el tiempo medio para descubrir y resolver los incidentes. 

 Los clientes pueden usar el [Administrador de incidentes de AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) para responder a los incidentes. Este servicio proporciona una interfaz única para clasificar los incidentes, informar a las partes interesadas durante el descubrimiento y la mitigación y colaborar durante todo el incidente. Utiliza las automatizaciones de AWS para acelerar la detección y la recuperación. 

 **Ejemplo de cliente** 

 La empresa AnyCompany Retail se ha visto afectada por un incidente de producción. El ingeniero de guardia utilizó un manual de estrategias para investigar el problema. A medida que iba siguiendo los pasos, informaba a las partes interesadas clave identificadas en el manual de estrategias. El ingeniero identificó la causa raíz como una condición de secuencia en un servicio backend. Mediante un manual de procedimientos, el ingeniero relanzó el servicio, con lo que AnyCompany Retail volvió a estar en línea. 

### Pasos para la implementación
Pasos para la implementación

 Si no tiene un repositorio de documentos, le sugerimos que cree uno de control de versiones para su biblioteca de manuales de estrategias. Puede crear los manuales de estrategias con Markdown, que es compatible con la mayoría de los sistemas de automatización de este tipo de manuales. Si está empezando desde cero, utilice la siguiente plantilla de guía de estrategias de ejemplo. 

```
# Playbook Title
## Playbook Info
| Playbook ID | Description | Tools Used | Special Permissions | Playbook Author | Last Updated | Escalation POC | Stakeholders | Communication Plan |
|-------|-------|-------|-------|-------|-------|-------|-------|-------|
| RUN001 | What is this playbook for? What incident is it used for? | Tools | Permissions | Your Name | 2022-09-21 | Escalation Name | Stakeholder Name | How will updates be communicated during the investigation? |
## Steps
1. Step one
2. Step two
```

1.  Si no tiene un repositorio de documentos o un wiki, cree un nuevo repositorio de control de versiones para los manuales de estrategias en su sistema de control de versiones. 

1.  Identifique un problema común que requiera una investigación. Este debería ser un escenario en el que la causa raíz se limita a unos pocos problemas y la resolución conlleva poco riesgo. 

1.  Con la plantilla de Markdown, rellene la sección Nombre del manual de estrategias y los campos de información de la guía de estrategias. 

1.  Rellene los pasos de solución adicionales. Indique con la mayor claridad posible las acciones que se deben llevar a cabo o las áreas que debe investigar. 

1.  Entregue a un miembro del equipo la guía de estrategias y pídale que la revise para validarla. Si falta algo o no está claro, actualice la guía de estrategias. 

1.  Publique el manual de estrategias en el repositorio de documentos e informe al equipo y a las partes interesadas. 

1.  Esta biblioteca de manuales de estrategias crecerá a medida que vaya agregando más guías. Una vez que tenga varias guías de estrategias, empiece a automatizarlas con herramientas como las Automatizaciones de AWS Systems Manager para sincronizar la automatización y las guías de estrategias. 

 **Nivel de esfuerzo para el plan de implementación:** bajo. Los manuales de estrategias deben ser documentos de texto almacenados en una ubicación central. Las organizaciones más maduras se inclinarán por la automatización de los manuales de estrategias. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS02-BP02 Procesos y procedimientos con propietarios identificados](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_proc_owners.html) 
+  [OPS07-BP03 Uso de manuales de procedimientos para llevar a cabo los procedimientos](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ready_to_support_use_runbooks.html) 
+  [OPS10-BP01 Uso de un proceso para la administración de eventos, incidentes y problemas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_event_incident_problem_process.html) 
+  [OPS10-BP02 Implementación de un proceso por alerta](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_process_per_alert.html) 
+  [OPS11-BP04 Administración de conocimientos](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_knowledge_management.html) 

 **Documentos relacionados:** 
+  [Achieving Operational Excellence using automated playbook and runbook](https://aws.amazon.com/blogs/mt/achieving-operational-excellence-using-automated-playbook-and-runbook/) 
+  [AWS Systems Manager: Creación de sus propios manuales de procedimientos](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html) 
+  [Use AWS Systems Manager Automation runbooks to resolve operational tasks](https://aws.amazon.com/blogs/mt/use-aws-systems-manager-automation-runbooks-to-resolve-operational-tasks/) 

 **Videos relacionados:** 
+  [AWS re:Invent 2019: DIY guide to runbooks, incident reports, and incident response (SEC318-R1)](https://www.youtube.com/watch?v=E1NaYN_fJUo) 
+  [AWS Systems Manager Incident Manager - AWS Virtual Workshops](https://www.youtube.com/watch?v=KNOc0DxuBSY) 
+  [Integrate Scripts into AWS Systems Manager](https://www.youtube.com/watch?v=Seh1RbnF-uE) 

 **Ejemplos relacionados:** 
+  [AWS Customer Playbook Framework](https://github.com/aws-samples/aws-customer-playbook-framework) 
+  [AWS Systems Manager: tutoriales de Automation](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk.html) 
+  [Building an AWS incident response runbook using Jupyter notebooks and CloudTrail Lake](https://catalog.workshops.aws/workshops/a5801f0c-7bd6-4282-91ae-4dfeb926a035/en-US) 
+  [Rubix: una biblioteca de Python para crear manuales de procedimientos en cuadernos de Jupyter](https://github.com/Nurtch/rubix) 
+  [Uso del Generador de documentos para crear un manual de procedimientos](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk-document-builder.html) 

 **Servicios relacionados:** 
+  [AWS Systems Manager Automation](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html) 
+  [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) 

# OPS07-BP05 Toma de decisiones fundamentadas para implementar sistemas y cambios
OPS07-BP05 Toma de decisiones fundamentadas para implementar sistemas y cambios

Disponga de procesos en caso de cambios fructíferos e infructuosos de la carga de trabajo. Un pre mortem es un ejercicio en el que un equipo simula un error para desarrollar estrategias de mitigación. haga ensayos de errores pre mortem para anticipar el fracaso y crear procedimientos cuando sea apropiado. Evalúe las ventajas y los riesgos de implementar cambios en la carga de trabajo. Verifique que todos los cambios cumplan con la gobernanza. 

 **Resultado deseado:** 
+  Tomará decisiones informadas cuando implemente cambios en la carga de trabajo. 
+  Los cambios cumplirán con la gobernanza. 

 **Patrones comunes de uso no recomendados:** 
+ implementación de un cambio en la carga de trabajo sin un proceso para gestionar una implementación infructuosa.
+ Hacer cambios en el entorno de producción que incumplen los requisitos de gobernanza.
+ Implementación de una nueva versión de la carga de trabajo sin establecer una línea de referencia para la utilización de recursos.

 **Beneficios de establecer esta práctica recomendada:** 
+  Estará preparado para cambios infructuosos en su carga de trabajo. 
+  Los cambios en la carga de trabajo cumplirán con las políticas de gobernanza. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** bajo 

## Guía para la implementación
Guía para la implementación

 Utilice ejercicios pre mortem para desarrollar procesos en caso de cambios infructuosos. Documente los procesos para los cambios infructuosos. Asegúrese de que todos los cambios se ajusten a la gobernanza. Evalúe las ventajas y los riesgos de implementar cambios en la carga de trabajo. 

 **Ejemplo de cliente** 

 AnyCompany Retail lleva a cabo con regularidad ejercicios pre mortem para validar los procesos en caso de cambios infructuosos. Documenta los procesos en una wiki compartida y la actualiza con frecuencia. Todos los cambios se ajustan a los requisitos de gobernanza. 

 **Pasos para la implementación** 

1.  Tome decisiones fundamentadas cuando implemente cambios en la carga de trabajo. Establezca y revise los criterios para una implementación fructífera. Desarrolle escenarios o criterios que desencadenen la reversión de un cambio. Sopese las ventajas de la implementación de cambios frente a los riesgos de un cambio infructuoso. 

1.  Verifique que todos los cambios cumplan las políticas de gobernanza. 

1.  Utilice ejercicios pre mortem para desarrollar planes en caso de cambios infructuosos y documentar las estrategias de mitigación. Lleve a cabo un ejercicio de simulación para modelar un cambio infructuoso y validar los procedimientos de reversión. 

 **Nivel de esfuerzo para el plan de implementación:** moderado. La implementación de una práctica de pre mortem exige la coordinación y el esfuerzo de las partes interesadas de toda la organización. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS01-BP03 Evaluación de los requisitos de gobernanza](ops_priorities_governance_reqs.md): los requisitos de gobernanza son un factor clave para determinar si se debe implementar un cambio. 
+  [OPS06-BP01 Planificación para hacer frente a los cambios infructuosos](ops_mit_deploy_risks_plan_for_unsucessful_changes.md): establezca planes para mitigar una implementación infructuosa y utilice actividades pre mortem para validarlas. 
+  [OPS06-BP02 Implementaciones de prueba](ops_mit_deploy_risks_test_val_chg.md): cada cambio de software debe probarse adecuadamente antes de su implementación, a fin de reducir los defectos en producción. 
+  [OPS07-BP01 Garantía de la capacidad del personal](ops_ready_to_support_personnel_capability.md): disponer de suficiente personal formado para atender la carga de trabajo es esencial para tomar una decisión informada sobre la implementación de un cambio en el sistema. 

 **Documentos relacionados:** 
+ [ Amazon Web Services: Risk and Compliance ](https://docs.aws.amazon.com/whitepapers/latest/aws-risk-and-compliance/welcome.html)
+ [Modelo de responsabilidad compartida de AWS](https://aws.amazon.com/compliance/shared-responsibility-model/)
+ [Governance in the Nube de AWS: The Right Balance Between Agility and Safety](https://aws.amazon.com/blogs/apn/governance-in-the-aws-cloud-the-right-balance-between-agility-and-safety/)

# OPS07-BP06 Creación de planes de asistencia para cargas de trabajo de producción
OPS07-BP06 Creación de planes de asistencia para cargas de trabajo de producción

 Facilite la asistencia de cualquier software y servicio del que dependa su carga de trabajo de producción. Seleccione un nivel de asistencia adecuado para satisfacer sus necesidades de nivel de servicio de producción. Los planes de asistencia para estas dependencias son necesarios en caso de que se produzca una interrupción del servicio o un problema con el software. Documente los planes de asistencia y cómo solicitar asistencia de todos los proveedores de servicios y software. Implemente mecanismos que verifiquen que los puntos de asistencia de los contactos se mantengan actualizados. 

 **Resultado deseado:** 
+  Implemente planes de asistencia para el software y los servicios de los que dependen las cargas de trabajo de producción. 
+  Elija un plan de asistencia adecuado en función de las necesidades del nivel de servicio. 
+  Documente los planes de asistencia, los niveles de asistencia y la forma de solicitarla. 

 **Patrones comunes de uso no recomendados:** 
+  No dispone de un plan de asistencia para un proveedor de software fundamental. Su carga de trabajo se ve afectada por su proveedor y no puede hacer nada para acelerar una solución u obtener actualizaciones puntuales de él. 
+  Un desarrollador que era el principal punto de contacto para un proveedor de software ha abandonado la empresa. No puede ponerse en contacto directamente con el equipo de asistencia del proveedor. Debe dedicar tiempo a investigar y recorrer los sistemas de contacto genéricos, lo que aumenta el tiempo necesario para responder cuando sea necesario. 
+  Se produce una interrupción de la producción con un proveedor de software. No hay documentación sobre cómo presentar un caso de asistencia. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Con el nivel de asistencia adecuado, podrá obtener una respuesta en el plazo necesario para satisfacer las necesidades de servicio. 
+  Como cliente con asistencia puede remitir a un nivel superior si hay problemas de producción. 
+  Los proveedores de software y servicios pueden ayudar en la resolución de problemas durante un incidente. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** bajo 

## Guía para la implementación
Guía para la implementación

 Facilite planes de asistencia de cualquier proveedor de software y servicio del que dependa su carga de trabajo de producción. Configure planes de asistencia adecuados para satisfacer las necesidades de nivel de servicio. Para los clientes de AWS, esto significa activar AWS Business Support o superior en cualquier cuenta en la que tenga cargas de trabajo de producción. Reúnase con los proveedores de asistencia con regularidad para obtener información actualizada sobre las ofertas de asistencia, los procesos y los contactos. Documente cómo solicitar asistencia a los proveedores de software y servicios, incluida la forma de remitir a un nivel superior si se produce una interrupción. Implemente mecanismos para mantener actualizados los contactos de asistencia. 

 **Ejemplo de cliente** 

 En AnyCompany Retail, todas las dependencias de software y servicios comerciales disponen de planes de asistencia. Por ejemplo, tienen activado AWS Enterprise Support en todas las cuentas con cargas de trabajo de producción. Cualquier desarrollador puede abrir un caso de asistencia cuando surja un problema. Hay una página wiki con información sobre cómo solicitar asistencia, a quién notificarlo y las prácticas recomendadas para agilizar un caso. 

 **Pasos para la implementación** 

1.  Colabore con las partes interesadas de su organización para identificar a los proveedores de software y servicios en los que se basa su carga de trabajo. Documente estas dependencias. 

1.  Determine las necesidades de nivel de servicio de su carga de trabajo. Seleccione un plan de asistencia que se ajuste a ellas. 

1.  Para el software y los servicios comerciales, establezca un plan de asistencia con los proveedores. 

   1.  Al suscribirse a AWS Business Support o un plan superior en todas las cuentas de producción, disfrutará de tiempos de respuesta más rápidos por parte de AWS Support, lo que resulta muy recomendable. Si no dispone de Premium Support, deberá tener un plan de acción para administrar los problemas que requieran la ayuda de AWS Support. AWS Support le ofrece una combinación de herramientas, tecnología, personal y programas diseñados para ayudarlo de forma proactiva a optimizar el rendimiento, rebajar los costos e innovar rápidamente. Además, AWS Business Support proporciona beneficios adicionales, incluido el acceso de API a AWS Trusted Advisor y AWS Healthpara la integración mediante programación con los sistemas, junto con otros métodos de acceso como la Consola de administración de AWS y los canales de Amazon EventBridge. 

1.  Documente el plan de asistencia en su herramienta de administración de conocimientos. Incluya la forma de solicitar asistencia, a quién notificar si se presenta un caso de asistencia y cómo derivar el caso a un nivel superior durante un incidente. Un wiki es un buen mecanismo para que cualquiera pueda llevar a cabo las actualizaciones necesarias en la documentación cuando tenga conocimiento de cambios en los procesos de asistencia o en los contactos. 

 **Nivel de esfuerzo para el plan de implementación:** bajo. La mayoría de los proveedores de software y servicios ofrecen planes de asistencia opcionales. Al documentar y compartir las prácticas recomendadas de asistencia en su sistema de administración de conocimientos, verifica que su equipo sabe qué hacer cuando se produce un problema de producción. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS02-BP02 Procesos y procedimientos con propietarios identificados](ops_ops_model_def_proc_owners.md) 

 **Documentos relacionados:** 
+ [AWS Support Plans ](https://docs.aws.amazon.com/awssupport/latest/user/aws-support-plans.html)

 **Servicios relacionados:** 
+ [AWS Business Support ](https://aws.amazon.com/premiumsupport/plans/business/)
+ [AWS Enterprise Support ](https://aws.amazon.com/premiumsupport/plans/enterprise/)

# Operación
Operación

**Topics**
+ [

# OPS 8. ¿Cómo utiliza la observabilidad de la carga de trabajo en su organización?
](ops-08.md)
+ [

# OPS 9. ¿Cómo hace para comprender el estado de las operaciones?
](ops-09.md)
+ [

# OPS 10. ¿Cómo administra la carga de trabajo y los eventos de operaciones?
](ops-10.md)

# OPS 8. ¿Cómo utiliza la observabilidad de la carga de trabajo en su organización?


Recurra a la observabilidad para garantizar un estado óptimo de la carga de trabajo. Utilice métricas, registros y rastros pertinentes para obtener una visión integral del rendimiento de su carga de trabajo y abordar los problemas de manera eficiente.

**Topics**
+ [

# OPS08-BP01 Análisis de las métricas de la carga de trabajo
](ops_workload_observability_analyze_workload_metrics.md)
+ [

# OPS08-BP02 Análisis de los registros de la carga de trabajo
](ops_workload_observability_analyze_workload_logs.md)
+ [

# OPS08-BP03 Análisis de los rastreos de la carga de trabajo
](ops_workload_observability_analyze_workload_traces.md)
+ [

# OPS08-BP04 Creación de alertas procesables
](ops_workload_observability_create_alerts.md)
+ [

# OPS08-BP05 Creación de paneles
](ops_workload_observability_create_dashboards.md)

# OPS08-BP01 Análisis de las métricas de la carga de trabajo
OPS08-BP01 Análisis de las métricas de la carga de trabajo

 Después de implementar la telemetría de la aplicación, analice periódicamente las métricas recopiladas. Si bien la latencia, las solicitudes, los errores y la capacidad (o las cuotas) proporcionan información sobre el rendimiento del sistema, es fundamental dar prioridad la revisión de las métricas de resultados empresariales. Esto garantiza que tome decisiones basadas en datos alineadas con sus objetivos empresariales. 

 **Resultado deseado:** información veraz sobre el rendimiento de la carga de trabajo que genera decisiones basadas en datos y garantiza la alineación con los objetivos empresariales. 

 **Patrones comunes de uso no recomendados:** 
+  Analizar las métricas de forma aislada sin tener en cuenta su impacto en los resultados empresariales. 
+  Confiar de forma excesiva en las métricas técnicas y, al mismo tiempo, dejar de lado las métricas empresariales. 
+  Revisar infrecuentemente las métricas, lo que hace que se pierdan oportunidades de toma de decisiones en tiempo real. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Comprensión mejorada de la correlación entre el rendimiento técnico y los resultados empresariales. 
+  Proceso de toma de decisiones mejorado basado en datos en tiempo real. 
+  Identificación y mitigación proactivas de los problemas antes de que afecten a los resultados empresariales. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 Utilice herramientas como Amazon CloudWatch para llevar a cabo análisis de métricas. Los servicios de AWS como detección de anomalías de CloudWatch y Amazon DevOps Guru pueden utilizarse para detectar anomalías, especialmente cuando se desconocen los umbrales estáticos o cuando los patrones de comportamiento son más adecuados para la detección de anomalías. 

### Pasos para la implementación
Pasos para la implementación

1.  **Análisis y revisión:** revise e interprete periódicamente las métricas de carga de trabajo. 

   1.  Priorice las métricas de resultados empresariales sobre las métricas puramente técnicas. 

   1.  Comprenda la importancia de los picos, las caídas o los patrones en sus datos. 

1.  **Uso de Amazon CloudWatch:** utilice Amazon CloudWatch para obtener una vista centralizada y un análisis exhaustivo. 

   1.  Configure paneles de CloudWatch para visualizar sus métricas y compararlas a lo largo del tiempo. 

   1.  Utilice [percentiles de CloudWatch](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/) para obtener una vista clara de la distribución de métricas, lo que puede ayudar a definir los SLA y comprender los valores atípicos. 

   1.  Configure la [detección de anomalías de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) para identificar patrones inusuales sin depender de umbrales estáticos. 

   1.  Implemente la [observabilidad entre cuentas de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html) para supervisar y solucionar problemas en las aplicaciones que abarcan varias cuentas de una región. 

   1.  Utilice [Información de métricas de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html) para consultar y analizar datos de métricas en cuentas y regiones, identificando tendencias y anomalías. 

   1.  Aplique [calculadora de métricas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/using-metric-math.html) para transformar, agregar o hacer cálculos en sus métricas a fin de obtener información más detallada. 

1.  **Uso de Amazon DevOps Guru:** integre [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) por su detección de anomalías mejorada con machine learning para identificar los primeros signos de problemas operativos en sus aplicaciones sin servidor y solucionarlos antes de que afecten a sus clientes. 

1.  **Optimización basada en información:** tome decisiones fundamentadas en función de su análisis de métricas para ajustar y mejorar sus cargas de trabajo. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificación de los indicadores clave de rendimiento](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementación de telemetría de aplicaciones](ops_observability_application_telemetry.md) 

 **Documentos relacionados:** 
+ [ The Wheel Blog: Emphasizing the importance of continually reviewing metrics ](https://aws.amazon.com/blogs/opensource/the-wheel/)
+ [ Percentiles are important ](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/)
+ [ Uso de AWS Cost Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html)
+ [ Observabilidad entre cuentas de CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html)
+ [ Consulte sus métricas con Información de métricas de CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html)

 **Videos relacionados:** 
+ [ Enable Cross-Account Observability in Amazon CloudWatch ](https://www.youtube.com/watch?v=lUaDO9dqISc)
+ [ Introduction to Amazon DevOps Guru ](https://www.youtube.com/watch?v=2uA8q-8mTZY)
+ [ Continuously Analyze Metrics using AWS Cost Anomaly Detection](https://www.youtube.com/watch?v=IpQYBuay5OE)

 **Ejemplos relacionados:** 
+ [ One Observability Workshop ](https://catalog.workshops.aws/observability/en-US/intro)
+ [ Gaining operation insights with AIOps using Amazon DevOps Guru ](https://catalog.us-east-1.prod.workshops.aws/workshops/f92df379-6add-4101-8b4b-38b788e1222b/en-US)

# OPS08-BP02 Análisis de los registros de la carga de trabajo
OPS08-BP02 Análisis de los registros de la carga de trabajo

 El análisis periódico de los registros de la carga de trabajo es esencial para adquirir una comprensión exhaustiva de los aspectos operativos de su aplicación. Al examinar, visualizar e interpretar de manera eficiente los datos de registro, puede optimizar continuamente el rendimiento y la seguridad de las aplicaciones. 

 **Resultado deseado:** amplios conocimientos sobre el comportamiento y las operaciones de las aplicaciones derivados de un análisis exhaustivo de los registros, lo que garantiza la detección y mitigación proactivas de los problemas. 

 **Patrones comunes de uso no recomendados:** 
+  Descuidar el análisis de los registros hasta que surja un problema crítico. 
+  No utilizar el conjunto completo de herramientas disponibles para el análisis de registros, lo que significa perder información crucial. 
+  Confiar únicamente en la revisión manual de los registros sin utilizar las capacidades de automatización y consulta. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Identificación proactiva de los cuellos de botella operativos, las amenazas a la seguridad y otros posibles problemas. 
+  Uso eficiente de los datos de registro para la optimización continua de las aplicaciones. 
+  Mejor comprensión del comportamiento de las aplicaciones, lo que ayuda a depurar y solucionar problemas. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 [Registros de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) es una herramienta potente para el análisis de registros. Las características integradas, como Información de registros de CloudWatch e Información de colaboradores, hacen que el proceso de obtener información significativa de los registros sea intuitivo y eficiente. 

### Pasos para la implementación
Pasos para la implementación

1.  **Configuración de Registros de CloudWatch**: configure aplicaciones y servicios para enviar registros a Registros de CloudWatch. 

1.  **Uso de la detección de anomalías en los registros:** utilice la [detección de anomalías de Registros de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/LogsAnomalyDetection.html) para identificar y alertar automáticamente sobre patrones de registros inusuales. Esta herramienta le ayuda a administrar de forma proactiva las anomalías en sus registros y a detectar posibles problemas con antelación. 

1.  **Configuración de Información de registros de CloudWatch**: use [Información de registros de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) para buscar y analizar de forma interactiva los datos de registro. 

   1.  Cree consultas para extraer patrones, visualizar datos de registro y obtener información procesable. 

   1.  Utilice el [análisis de patrones de Información de registros de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Patterns.html) para analizar y visualizar los patrones de registro frecuentes. Esta característica le ayuda a conocer las tendencias operativas comunes y los posibles valores atípicos en sus datos de registro. 

   1.  Utilice la [comparativa (diff) de Registros de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Compare.html) para llevar a cabo análisis diferenciales entre distintos periodos de tiempo o entre distintos grupos de registros. Utilice esta capacidad para identificar los cambios y evaluar su repercusión en el rendimiento o el comportamiento del sistema. 

1.  **Supervisión de los registros en tiempo real con Live Tail:** utilice [Live Tail de Registros de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CloudWatchLogs_LiveTail.html) para ver los datos de registro en tiempo real. Puede supervisar activamente las actividades operativas de su aplicación a medida que se producen, lo que proporciona una visibilidad inmediata del rendimiento del sistema y de los posibles problemas. 

1.  **Aproveche Información de colaboradores**: utilice [Información de colaboradores de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) para identificar a los principales interlocutores en dimensiones de alta cardinalidad, como las direcciones IP o los agentes de usuario. 

1.  **Implementación de filtros de métricas de Registros de CloudWatch**: configure los [filtros de métricas de Registros de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) para convertir los datos de registro en métricas procesables. Esto le permite configurar alarmas o analizar más a fondo los patrones. 

1.  **Implementación de la [observabilidad entre cuentas de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html):** supervise y solucione problemas en las aplicaciones que abarcan varias cuentas de una región. 

1.  **Revisión y perfeccionamiento periódicos**: revise periódicamente sus estrategias de análisis de registros para recoger toda la información pertinente y optimizar continuamente el rendimiento de las aplicaciones. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificación de los indicadores clave de rendimiento](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementación de telemetría de aplicaciones](ops_observability_application_telemetry.md) 
+  [OPS08-BP01 Análisis de las métricas de la carga de trabajo](ops_workload_observability_analyze_workload_metrics.md) 

 **Documentos relacionados:** 
+  [Analyzing Log Data with CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) 
+  [Using CloudWatch Contributor Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) 
+  [Creating and Managing CloudWatch Log Metric Filters](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

 **Videos relacionados:** 
+  [Analyze Log Data with CloudWatch Logs Insights](https://www.youtube.com/watch?v=2s2xcwm8QrM) 
+  [Use CloudWatch Contributor Insights to Analyze High-Cardinality Data](https://www.youtube.com/watch?v=ErWRBLFkjGI) 

 **Ejemplos relacionados:** 
+  [CloudWatch Logs Sample Queries](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_QuerySyntax-examples.html) 
+  [One Observability Workshop](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP03 Análisis de los rastreos de la carga de trabajo
OPS08-BP03 Análisis de los rastreos de la carga de trabajo

 El análisis de los datos de rastreo es crucial para lograr una visión integral del recorrido operativo de una aplicación. Al visualizar y comprender las interacciones entre varios componentes, se puede ajustar el rendimiento, identificar los cuellos de botella y mejorar las experiencias de los usuarios. 

 **Resultado deseado:** logre una visibilidad clara de las operaciones distribuidas de su aplicación, lo que permite una resolución de problemas más rápida y una mejor experiencia del usuario. 

 **Patrones comunes de uso no recomendados:** 
+  Pasar por alto los datos de rastreo y confiar únicamente en los registros y las métricas. 
+  No se correlacionan los datos de rastreo con los registros asociados. 
+  Hacer caso omiso de las métricas derivadas de los rastreos, como la latencia y las tasas de errores. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Mejore la solución de problemas y reduzca el tiempo medio de resolución (MTTR). 
+  Obtenga información sobre las dependencias y su impacto. 
+  Identifique y corrija rápidamente los problemas de rendimiento. 
+  Utilice las métricas derivadas de los rastreos para tomar decisiones informadas. 
+  Mejore la experiencia del usuario mediante interacciones de componentes optimizadas. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 [AWS X-Ray](https://www.docs.aws.com/xray/latest/devguide/aws-xray.html) ofrece un conjunto completo para el análisis de datos de rastreo, que proporciona una visión integral de las interacciones del servicio, supervisa las actividades de los usuarios y detecta problemas de rendimiento. Características como ServiceLens, X-Ray Insights, X-Ray Analytics y Amazon DevOps Guru mejoran la profundidad de la información procesable derivada de los datos de rastreo. 

### Pasos para la implementación
Pasos para la implementación

 Los siguientes pasos ofrecen un enfoque estructurado para implementar de manera eficaz el análisis de datos de rastreo mediante servicios de AWS: 

1.  **Integración de AWS X-Ray**: asegúrese de que X-Ray esté integrado con sus aplicaciones para obtener datos de rastreo. 

1.  **Análisis de las métricas de X-Ray**: profundice en las métricas obtenidas de los rastreos de X-Ray, como la latencia, las tasas de solicitudes, las tasas de errores y las distribuciones del tiempo de respuesta mediante el [mapa de servicios](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-servicemap.html#xray-console-servicemap-view) para supervisar el estado de las aplicaciones. 

1.  **Uso de ServiceLens**: aproveche el mapa de [ServiceLens](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_service_map.html) para mejorar la observabilidad de sus servicios y aplicaciones. Esto permite la visualización integrada de rastreos, métricas, registros, alarmas y otra información de estado. 

1.  **Activación de X-Ray Insights**: 

   1.  Active [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) para la detección automática de anomalías en los rastreos. 

   1.  Examine la información para identificar patrones y determinar las causas raíz, como el aumento de tasas de errores o latencias. 

   1.  Consulte el cronograma de información para obtener un análisis cronológico de los problemas detectados. 

1.  **Uso de X-Ray Analytics**: [X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) le permite explorar a fondo los datos de rastreo, identificar patrones y extraer información. 

1.  **Uso de grupos en X-Ray**: cree grupos en X-Ray para filtrar los rastreos en función de criterios como la alta latencia, lo que permite un análisis más específico. 

1.  **Integración de Amazon DevOps Guru**: utilice [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) para beneficiarse de los modelos de machine learning que identifican anomalías operativas en los rastreos. 

1.  **Uso de CloudWatch Synthetics**: utilice [CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries_tracing.html) para crear canarios para supervisar continuamente sus puntos de enlace y flujos de trabajo. Estos canarios pueden integrarse con X-Ray para proporcionar datos de rastreo para un análisis en profundidad de las aplicaciones que se están probando. 

1.  **Uso de Real User Monitoring (RUM)**: con [AWS X-Ray y CloudWatch RUM](https://docs.aws.amazon.com/xray/latest/devguide/xray-services-RUM.html), puede analizar y depurar la ruta de solicitud a partir de los usuarios finales de su aplicación y hasta los servicios administrados de AWS posteriores. Eso le ayuda a identificar las tendencias de latencia y los errores que afectan a sus usuarios finales. 

1.  **Correlación con registros**: correlacione los [datos de seguimiento con los registros relacionados](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_troubleshooting.html#servicelens_troubleshooting_Nologs) en la vista de rastreo de X-Ray para obtener una perspectiva detallada del comportamiento de las aplicaciones. Esto le permite ver los eventos de registro directamente asociados con las transacciones rastreadas. 

1.  **Implementación de la [observabilidad entre cuentas de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html):** supervise y solucione problemas en las aplicaciones que abarcan varias cuentas de una región. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS08-BP01 Análisis de las métricas de la carga de trabajo](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Análisis de los registros de la carga de trabajo](ops_workload_observability_analyze_workload_logs.md) 

 **Documentos relacionados:** 
+  [Using ServiceLens to Monitor Application Health](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ServiceLens.html) 
+  [Exploring Trace Data with X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) 
+  [Detecting Anomalies in Traces with X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-insights.html) 
+  [Continuous Monitoring with CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 

 **Videos relacionados:** 
+  [Analyze and Debug Applications Using Amazon CloudWatch Synthetics & AWS X-Ray](https://www.youtube.com/watch?v=s2WvaV2eDO4) 
+  [Use AWS X-Ray Insights](https://www.youtube.com/watch?v=tl8OWHl6jxw) 

 **Ejemplos relacionados:** 
+  [One Observability Workshop](https://catalog.workshops.aws/observability/en-US/intro) 
+  [Implementación de X-Ray con AWS Lambda](https://docs.aws.amazon.com/lambda/latest/dg/services-xray.html) 
+  [Plantillas de canarios de CloudWatch Synthetics](https://github.com/aws-samples/cloudwatch-synthetics-canary-terraform) 

# OPS08-BP04 Creación de alertas procesables
OPS08-BP04 Creación de alertas procesables

 Es crucial detectar y responder rápidamente a las desviaciones en el comportamiento de su aplicación. Es especialmente vital reconocer cuándo están en peligro los resultados basados en los indicadores clave de rendimiento (KPI) o cuándo surgen anomalías inesperadas. Basar las alertas en los KPI garantiza que las señales que reciba estén directamente relacionadas con el impacto empresarial u operativo. Este enfoque de alertas procesables promueve respuestas proactivas y ayuda a mantener el rendimiento y la fiabilidad del sistema. 

 **Resultado deseado:** reciba alertas oportunas, pertinentes y procesables para identificar y mitigar rápidamente los posibles problemas, especialmente cuando los resultados de los KPI están en peligro. 

 **Patrones comunes de uso no recomendados:** 
+  Configurar demasiadas alertas que no son críticas, lo que provoca un exceso de alertas. 
+  No dar prioridad a las alertas en función de los KPI, lo que dificulta la comprensión del impacto empresarial de los problemas. 
+  No abordar las causas raíz, lo que genera alertas repetitivas sobre el mismo problema. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Se ha reducido el exceso de alertas al poner el foco en las alertas pertinentes y procesables. 
+  Se ha mejorado el tiempo de actividad y la fiabilidad del sistema gracias a la detección y mitigación proactivas de problemas. 
+  Se ha mejorado la colaboración en equipo y se ha agilizado la resolución de problemas mediante la integración con herramientas de alerta y comunicación populares. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 Para crear un mecanismo de alerta eficaz, es fundamental utilizar métricas, registros y datos de rastreo que indiquen cuándo los resultados basados en los KPI están en peligro o se detectan anomalías. 

### Pasos para la implementación
Pasos para la implementación

1.  **Definición de los indicadores clave de rendimiento (KPI)**: identifique los KPI de su aplicación. Las alertas deben estar vinculadas a estos KPI para reflejar el impacto empresarial con precisión. 

1.  **Implementación de la detección de anomalías**: 
   +  **Uso de la detección de anomalías de Amazon CloudWatch**: configure la [detección de anomalías de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) para detectar automáticamente patrones inusuales, lo que le ayuda a generar alertas únicamente para anomalías auténticas. 
   +  **Uso de AWS X-Ray Insights**: 

     1.  Configure [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) para detectar anomalías en los datos de rastreo. 

     1.  Configure las [notificaciones de X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) para recibir alertas sobre los problemas detectados. 
   +  **Integración con Amazon DevOps Guru**: 

     1.  Use [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) por sus capacidades de machine learning para detectar anomalías operativas con los datos existentes. 

     1.  Vaya a la [configuración de notificaciones](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html#navigate-to-notification-settings) en DevOps Guru para configurar alertas de anomalías. 

1.  **Implementación de alertas procesables:** diseñe alertas que proporcionen la información adecuada para tomar medidas de inmediato. 

   1.  Supervise los eventos de [AWS Health con las reglas de Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) o intégrelos mediante programación con la API de AWS Health para automatizar las acciones cuando reciba eventos de AWS Health. Puede tratarse de acciones generales, como el envío de todos los mensajes de eventos del ciclo de vida planificado a una interfaz de chat, o de acciones específicas, como el inicio de un flujo de trabajo en una herramienta de administración de servicios de TI. 

1.  **Reducción de la fatiga de alertas**: minimice las alertas no críticas. Cuando los equipos se sienten abrumados porque reciben numerosas alertas insignificantes, podrían dejar pasar problemas críticos, lo que disminuye la eficacia general del mecanismo de alertas. 

1.  **Configuración de alarmas compuestas**: utilice [alarmas compuestas de Amazon CloudWatch](https://aws.amazon.com/bloprove-monitoring-efficiency-using-amazon-cloudwatch-composite-alarms-2/) para consolidar varias alarmas. 

1.  **Integración con herramientas de alerta**: incorpore herramientas como [Ops Genie](https://www.atlassian.com/software/opsgenie) y [PagerDuty](https://www.pagerduty.com/). 

1.  **Participación de Amazon Q Developer en las aplicaciones de chat**: integre [Amazon Q Developer en las aplicaciones de chat](https://aws.amazon.com/chatbot/) para transmitir alertas a Amazon Chime, Microsoft Teams y Slack. 

1.  **Alerta basada en registros**: utilice [filtros de métricas de registro](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) en CloudWatch para crear alarmas basadas en eventos de registro específicos. 

1.  **Revisión e iteración**: revisite y perfeccione periódicamente las configuraciones de las alertas. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificación de los indicadores clave de rendimiento](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementación de telemetría de aplicaciones](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 Implementación de telemetría de la experiencia del usuario](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 Implementación de telemetría de dependencias](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 Implementación de rastreo distribuido](ops_observability_dist_trace.md) 
+  [OPS08-BP01 Análisis de las métricas de la carga de trabajo](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Análisis de los registros de la carga de trabajo](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Análisis de los rastreos de la carga de trabajo](ops_workload_observability_analyze_workload_traces.md) 

 **Documentos relacionados:** 
+  [Uso de las alarmas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Crear una alarma compuesta](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) 
+  [Crear una alarma de CloudWatch en función de la detección de anomalías](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) 
+  [DevOps Guru Notifications](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html) 
+  [X-ray insights notifications](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) 
+  [Monitoree, opere y resuelva problemas en sus recursos de AWS con ChatOps interactivos](https://aws.amazon.com/chatbot/) 
+  [Amazon CloudWatch Integration Guide \$1 PagerDuty](https://support.pagerduty.com/docs/amazon-cloudwatch-integration-guide) 
+  [Integrate Opsgenie with Amazon CloudWatch](https://support.atlassian.com/opsgenie/docs/integrate-opsgenie-with-amazon-cloudwatch/) 

 **Videos relacionados:** 
+  [Create Composite Alarms in Amazon CloudWatch](https://www.youtube.com/watch?v=0LMQ-Mu-ZCY) 
+  [Información general de Amazon Q Developer en aplicaciones de chat](https://www.youtube.com/watch?v=0jUSEfHbTYk) 
+  [AWS On Air ft. Mutative Commands in Amazon Q Developer in chat applications](https://www.youtube.com/watch?v=u2pkw2vxrtk) 

 **Ejemplos relacionados:** 
+  [Alarms, incident management, and remediation in the cloud with Amazon CloudWatch](https://aws.amazon.com/bloarms-incident-management-and-remediation-in-the-cloud-with-amazon-cloudwatch/) 
+  [Tutorial: Creating an Amazon EventBridge rule that sends notifications to Amazon Q Developer in chat applications](https://docs.aws.amazon.com/chatbot/latest/adminguide/create-eventbridge-rule.html) 
+  [One Observability Workshop](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP05 Creación de paneles
OPS08-BP05 Creación de paneles

 Los paneles son la perspectiva centrada en las personas de los datos de telemetría de sus cargas de trabajo. Si bien proporcionan una interfaz visual vital, no deben reemplazar los mecanismos de alerta, sino complementarlos. Cuando se diseñan con cuidado, no solo pueden ofrecer información rápida sobre el estado y el rendimiento del sistema, sino que también pueden presentar a las partes interesadas información en tiempo real sobre los resultados empresariales y el impacto de los problemas. 

 **Resultado deseado:** 

 información clara y procesable sobre el estado del sistema y la empresa mediante representaciones visuales. 

 **Patrones comunes de uso no recomendados:** 
+  Paneles demasiado complicados con demasiadas métricas. 
+  Confiar en los paneles sin alertas de detección de anomalías. 
+  No actualizar los paneles a medida que evolucionan las cargas de trabajo. 

 **Beneficios de esta práctica recomendada:** 
+  Visibilidad inmediata de las métricas y los KPI cruciales del sistema. 
+  Mejora de la comunicación y la comprensión de las partes interesadas. 
+  Información rápida sobre el impacto de los problemas operativos. 

 **Nivel de riesgo si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 **Paneles centrados en la empresa** 

 Los paneles adaptados a los KPI empresariales implican a un mayor número de partes interesadas. Si bien es posible que estas personas no estén interesadas en las métricas del sistema, están interesadas en comprender las implicaciones empresariales de estas cifras. Un panel centrado en la empresa garantiza que todas las métricas técnicas y operativas que se supervisan y analizan estén en sintonía con los objetivos empresariales generales. Esta alineación proporciona claridad y garantiza que todo el mundo coincida en lo que es esencial y lo que no. Además, los paneles que destacan los KPI empresariales suelen ser más procesables. Las partes interesadas pueden comprender rápidamente el estado de las operaciones, las áreas que requieren atención y el impacto potencial en los resultados empresariales. 

 Con esto en mente, al crear sus paneles, asegúrese de que haya un equilibrio entre las métricas técnicas y los KPI empresariales. Ambos son vitales, pero se dirigen a públicos diferentes. Lo ideal sería disponer de paneles que proporcionen una visión integral del estado y el rendimiento del sistema y, al mismo tiempo, hagan hincapié en los resultados empresariales clave y sus implicaciones. 

 Los paneles de Amazon CloudWatch son páginas de inicio personalizables en la consola de CloudWatch que puede utilizar para supervisar sus recursos en una vista única, incluso aquellos que se reparten entre diferentes Regiones de AWS y cuentas. 

### Pasos para la implementación
Pasos para la implementación

1.  **Creación de un panel básico:** [cree un panel nuevo en CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create_dashboard.html) y asígnele un nombre descriptivo. 

1.  **Uso de los widgets de Markdown:** antes de sumergirse en las métricas, use [widgets de Markdown](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_text_dashboard.html) para agregar contexto textual en la parte superior de su panel de control. Debe explicar lo que cubre el panel, la importancia de las métricas representadas y también puede contener enlaces a otros paneles y herramientas de solución de problemas. 

1.  **Creación de variables de panel:** [integre variables de panel](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html) cuando sea necesario para permitir vistas de panel dinámicas y flexibles. 

1.  **Creación de widgets de métricas:** [agregue widgets de métricas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create-and-work-with-widgets.html) para visualizar las diversas métricas que emite su aplicación. Adapte estos widgets para que representen de forma eficaz el estado del sistema y los resultados empresariales. 

1.  **Consultas de Información de registros:** utilice [Información de registros de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_ExportQueryResults.html) para obtener métricas procesables de sus registros y mostrar esta información en su panel de control. 

1.  **Configuración de alarmas:** integre las [alarmas de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_alarm_dashboard.html) en su panel de control para ver rápidamente cualquier métrica que supere los umbrales. 

1.  **Uso de Información de colaboradores:** integre [Información de colaboradores de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights-ViewReports.html) para analizar los campos de alta cardinalidad y comprender mejor a los principales contribuyentes de su recurso. 

1.  **Diseño de widgets personalizados:** para necesidades específicas que no satisfagan los widgets estándar, considere la posibilidad de crear [widgets personalizados](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html). Pueden proceder de varios orígenes de datos o representar los datos de formas únicas. 

1.  **Utilice AWS Health:** AWS Health es el origen de información sobre el estado de los recursos de Nube de AWS. Utilice [Panel de AWS Health](https://health.aws.amazon.com/health/status) directamente o utilice los datos de AWS Health en los paneles y las herramientas propios para disponer de la información adecuada para tomar decisiones con conocimiento de causa. 

1.  **Iteración y ajuste:** a medida que evolucione la aplicación, revisite periódicamente el panel para asegurarse de que siga siendo relevante. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificación de los indicadores clave de rendimiento](ops_observability_identify_kpis.md) 
+  [OPS08-BP01 Análisis de las métricas de la carga de trabajo](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Análisis de los registros de la carga de trabajo](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Análisis de los rastreos de la carga de trabajo](ops_workload_observability_analyze_workload_traces.md) 
+  [OPS08-BP04 Creación de alertas procesables](ops_workload_observability_create_alerts.md) 

 **Documentos relacionados:** 
+  [La creación de paneles para la visibilidad operativa](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/) 
+  [Uso de paneles de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 

 **Videos relacionados:** 
+  [Create Cross Account & Cross Region CloudWatch Dashboards](https://www.youtube.com/watch?v=eIUZdaqColg) 
+  [AWS re:Invent 2021 - Gain enterprise visibility with Nube de AWS operation dashboards)](https://www.youtube.com/watch?v=NfMpYiGwPGo) 

 **Ejemplos relacionados:** 
+  [One Observability Workshop](https://catalog.workshops.aws/observability/en-US/intro) 
+  [Supervisión de aplicaciones con Amazon CloudWatch](https://aws.amazon.com/solutions/implementations/application-monitoring-with-cloudwatch/) 
+  [AWS Health Events Intelligence Dashboards and Insights](https://aws.amazon.com/blogs/mt/aws-health-events-intelligence-dashboards-insights/) 
+  [Visualize AWS Health events using Amazon Managed Grafana](https://aws.amazon.com/blogs/mt/visualize-aws-health-events-using-amazon-managed-grafana/) 

# OPS 9. ¿Cómo hace para comprender el estado de las operaciones?


 Defina, capture y analice las métricas de las operaciones para obtener visibilidad de los eventos de operaciones y poder tomar las medidas adecuadas. 

**Topics**
+ [

# OPS09-BP01 Medición de los objetivos operativos y los KPI con métricas
](ops_operations_health_measure_ops_goals_kpis.md)
+ [

# OPS09-BP02 Comunicación del estado y las tendencias para garantizar la visibilidad de la operación
](ops_operations_health_communicate_status_trends.md)
+ [

# OPS09-BP03 Revisión de las métricas de las operaciones y priorización de las mejoras
](ops_operations_health_review_ops_metrics_prioritize_improvement.md)

# OPS09-BP01 Medición de los objetivos operativos y los KPI con métricas
OPS09-BP01 Medición de los objetivos operativos y los KPI con métricas

 Obtenga objetivos y KPI que definan el éxito de las operaciones de su organización y determine las métricas que los reflejen. Establezca líneas de base como puntos de referencia y reevalúelas periódicamente. Desarrolle mecanismos para recopilar estas métricas de los equipos para su evaluación. Las métricas de [DevOps Research and Assessment (DORA)](https://dora.dev/guides/dora-metrics-four-keys/) proporcionan un método de uso extendido para medir el progreso en el uso de prácticas de DevOps de entrega de software. 

 **Resultado deseado:** 
+ La organización publica y comparte los objetivos y los KPI de los equipos de operaciones.
+ Establece métricas que reflejan estos KPI. Algunos ejemplos podrían ser:
  +  Profundidad de la cola de tickets o antigüedad media de los tickets. 
  +  Recuento de tickets agrupado por tipo de problema. 
  +  Tiempo dedicado a resolver problemas con o sin un procedimiento operativo estandarizado (SOP). 
  +  Cantidad de tiempo empleado en recuperarse de un error producido al introducir código. 
  +  Volumen de llamadas 

 **Patrones comunes de uso no recomendados:** 
+  No se cumplen los plazos de implementación porque los desarrolladores se ven obligados a llevar a cabo tareas de solución de problemas. Los equipos de desarrollo abogan por más personal, pero no pueden indicar cuántas personas necesitan porque no se puede medir el tiempo empleado. 
+  Se configuró un servicio de asistencia de nivel 1 para gestionar las llamadas de los usuarios. Con el tiempo, se agregaron más cargas de trabajo, pero no se asignó personal al servicio de asistencia de nivel 1. La satisfacción de los clientes se resiente a medida que aumenta la duración de las llamadas y los problemas tardan más en resolverse, pero la administración no ve ningún indicador de ello, lo que impide tomar medidas. 
+  Una carga de trabajo problemática se ha transferido a un equipo de operaciones independiente para su gestión. A diferencia de otras cargas de trabajo, esta nueva carga no se suministró con la documentación y los manuales de procedimientos adecuados. Por lo tanto, los equipos dedican más tiempo a solucionar problemas y hacer frente a errores. Sin embargo, no hay métricas que lo documenten, lo que dificulta la rendición de cuentas. 

 **Beneficios de establecer esta práctica recomendada:** mientras que la supervisión de la carga de trabajo muestra el estado de nuestras aplicaciones y servicios, la supervisión de los equipos de operaciones proporciona a los propietarios información sobre los cambios que se producen entre los consumidores de esas cargas de trabajo, como los cambios en las necesidades empresariales. Mida la eficacia de estos equipos y evalúelos con respecto a los objetivos empresariales mediante la creación de métricas que puedan reflejar el estado de las operaciones. Las métricas pueden resaltar los problemas de asistencia o identificar cuándo se producen desviaciones respecto a un objetivo de nivel de servicio. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

Programe tiempo con la dirección empresarial y las partes interesadas para determinar los objetivos generales del servicio. Determine cuáles deberían ser las tareas de los distintos equipos de operaciones y qué desafíos podrían presentárseles. Con estos, haga una lluvia de ideas sobre los indicadores clave de rendimiento (KPI) para reflejar los objetivos operativos. Podría ser la satisfacción del cliente, el tiempo transcurrido desde la concepción de la característica hasta la implementación, el tiempo medio de resolución de problemas o las eficiencias de costes.

 A partir de los KPI, identifique las métricas y los orígenes de datos que podrían reflejar mejor estos objetivos. La satisfacción del cliente podría ser una combinación de varios indicadores, como los tiempos de espera o respuesta de las llamadas, las puntuaciones de satisfacción y los tipos de problemas planteados. Los tiempos de implementación podrían ser la suma del tiempo necesario para las pruebas y la implementación, además de las correcciones posteriores a la implementación que deban agregarse. Las estadísticas que muestran el tiempo dedicado a diferentes tipos de problemas (o el recuento de esos problemas) pueden proporcionar una panorámica de dónde se necesita un esfuerzo específico. 

## Recursos
Recursos

 **Documentos relacionados:** 
+ [Quick: uso de KPI ](https://docs.aws.amazon.com/quicksight/latest/user/kpi.html)
+ [ Uso de métricas de Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)
+ [ Creación de paneles ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ How to track your cost optimization KPIs with KPI Dashboard ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [Guía sobre AWS DevOps](https://docs.aws.amazon.com/wellarchitected/latest/devops-guidance/devops-guidance.html)

 **Ejemplos relacionados:** 
+ [Monitoree el rendimiento de su entrega de software mediante herramientas nativas de AWS de monitoreo y observabilidad](https://catalog.us-east-1.prod.workshops.aws/workshops/3b7f3d77-c6ef-44b2-aa29-d2719b8be897/en-US)
+ [Equilibre la velocidad y la estabilidad de la implementación con las métricas de DORA](https://aws.amazon.com/blogs/devops/balance-deployment-speed-and-stability-with-dora-metrics/)
+ [Ejemplo de métricas operativas de MLOP en el sector de servicios financieros](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-unlock-value-data-financial-services/operational-metrics.html)
+ [ How to track your cost optimization KPIs with the KPI Dashboard ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)

# OPS09-BP02 Comunicación del estado y las tendencias para garantizar la visibilidad de la operación
OPS09-BP02 Comunicación del estado y las tendencias para garantizar la visibilidad de la operación

 Es necesario conocer el estado de sus operaciones y la dirección de sus tendencias para identificar qué resultados corren peligro, si se puede respaldar o no el trabajo adicional o los efectos que los cambios han tenido en sus equipos. Durante los eventos de operaciones, disponer de páginas de estado que los usuarios y los equipos de operaciones puedan consultar para obtener información puede reducir la presión sobre los canales de comunicación y difundir la información de forma proactiva. 

 **Resultado deseado:** 
+  La dirección de operaciones puede ver de un vistazo el volumen de llamadas que reciben sus equipos y las actividades que se están llevando a cabo, como las implementaciones. 
+  Las alertas se difunden a las partes interesadas y las comunidades de usuarios cuando se producen repercusiones en las operaciones normales. 
+  La dirección de la organización y las partes interesadas pueden consultar una página de estado en respuesta a una alerta o una repercusión y obtener información sobre un evento operativo, como puntos de contacto, información de tickets y tiempos de recuperación estimados. 
+  Los informes se ponen a disposición de la dirección y otras partes interesadas para mostrar las estadísticas de las operaciones, como el volumen de llamadas durante un periodo de tiempo, las puntuaciones de satisfacción de los usuarios, el número de entradas pendientes y su antigüedad. 

 **Patrones comunes de uso no recomendados:** 
+  Una carga de trabajo deja de funcionar y un servicio no está disponible. El volumen de llamadas aumenta a medida que los usuarios quieren saber qué pasa. Los administradores contribuyen al aumento del volumen de solicitudes, pues quieren saber quién está trabajando en el problema. Varios equipos de operaciones duplican sus esfuerzos al tratar de investigar. 
+  El interés por una nueva capacidad lleva a la reasignación de varios miembros del personal a tareas de ingeniería. No se proporcionan refuerzos y los tiempos de resolución de problemas aumentan. Esta información no se recopila, y la dirección no se da cuenta del problema hasta después de varias semanas y de que los usuarios muestren su insatisfacción. 

 **Beneficios de establecer esta práctica recomendada:** durante los eventos operativos que afectan a la empresa, se puede desperdiciar mucho tiempo y energía solicitando información a varios equipos para intentar comprender la situación. Al establecer paneles y páginas de estado ampliamente difundidos, las partes interesadas pueden obtener rápidamente información sobre si se detectó o no un problema, quién se encarga del problema o cuándo se espera que las operaciones vuelvan a la normalidad. Esto evita que los miembros del equipo dediquen demasiado tiempo a comunicar su estado a los demás y dediquen más tiempo a abordar los problemas. 

 Además, los paneles y los informes pueden proporcionar información a los responsables de la toma de decisiones y a las partes interesadas para que evalúen cómo los equipos de operaciones pueden responder a las necesidades empresariales y cómo se asignan sus recursos. Esto es crucial para determinar si se cuenta con los recursos adecuados para respaldar a la empresa. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 Cree paneles en los que se muestren las métricas clave actuales de sus equipos de operaciones y póngalos a disposición tanto de la dirección de operaciones como de la administración. 

 Cree páginas de estado que se puedan actualizar rápidamente para mostrar cuándo se produce un incidente o evento, quién es el propietario y quién coordina la respuesta. Comparta en esta página todos los pasos o soluciones que los usuarios deberían tener en cuenta y difunda ampliamente la ubicación. Anime a los usuarios a comprobar primero esta ubicación cuando se enfrenten a un problema desconocido. 

 Recopile y proporcione informes que muestren el estado de las operaciones a lo largo del tiempo y distribúyalos entre la dirección y los responsables de la toma de decisiones para ilustrar el trabajo de operaciones junto con los desafíos y las necesidades. 

 Comparta con los equipos las métricas e informes que mejor reflejen los objetivos y los KPI y en qué aspectos han influido a la hora de impulsar el cambio. Dedique tiempo a estas actividades para aumentar la importancia de las operaciones dentro de los equipos y entre ellos. 

 Utilice [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) junto a paneles propios o integre eventos de AWS Health en ellos para que los equipos puedan correlacionar los problemas de la aplicación con el estado del servicio AWS. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+ [OPS09-BP01 Medición de los objetivos operativos y los KPI con métricas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_measure_ops_goals_kpis.html)

 **Documentos relacionados:** 
+ [Measure Progress](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-cloud-operating-model/measure-progress.html)
+ [La creación de paneles para la visibilidad operativa](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)

 **Ejemplos relacionados:** 
+ [Operaciones de datos](https://aws.amazon.com/solutions/app-development/data-operations)
+ [ How to track your cost optimization KPIs with KPI Dashboard ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [La importancia de los indicadores clave de rendimiento (KPI) para las migraciones a gran escala a la nube](https://aws.amazon.com/blogs/mt/the-importance-of-key-performance-indicators-kpis-for-large-scale-cloud-migrations/)

# OPS09-BP03 Revisión de las métricas de las operaciones y priorización de las mejoras
OPS09-BP03 Revisión de las métricas de las operaciones y priorización de las mejoras

 Destinar tiempo y recursos dedicados a revisar el estado de las operaciones garantiza que atender la línea empresarial diaria siga siendo una prioridad. Reúna a la dirección de operaciones y las partes interesadas para revisar periódicamente las métricas, reafirmar o modificar las metas y los objetivos y dar prioridad a las mejoras. 

 **Resultado deseado:** 
+  La dirección y el personal de operaciones se reúnen periódicamente para revisar las métricas durante un periodo de informe determinado. Se comunican los desafíos, se celebran las victorias y se comparten las lecciones aprendidas. 
+  Las partes interesadas y la dirección empresarial reciben información periódica sobre el estado de las operaciones y se les pide su opinión sobre los objetivos, los KPI y las iniciativas futuras. Se analizan y contextualizan las compensaciones entre la prestación de servicios, las operaciones y el mantenimiento. 

 **Patrones comunes de uso no recomendados:** 
+  Se lanza un nuevo producto, pero los equipos de operaciones de nivel 1 y nivel 2 no cuentan con la formación adecuada para ofrecer soporte ni cuentan con personal adicional. La dirección no ve las métricas que muestran el empeoramiento de los tiempos de resolución de los tickets y el aumento del volumen de incidentes. No se toman medidas hasta que han transcurrido varias semanas, cuando el número de suscriptores comienza a caer porque los usuarios descontentos abandonan la plataforma. 
+  Hace mucho tiempo que existe un proceso manual para efectuar el mantenimiento de una carga de trabajo. Si bien había interés por automatizar, esta era una prioridad baja dada la poca importancia del sistema. Sin embargo, con el tiempo, el sistema ha ido ganando importancia y ahora estos procesos manuales consumen la mayor parte del tiempo de las operaciones. No hay recursos programados para proporcionar más herramientas a las operaciones, lo que provoca el agotamiento del personal a medida que aumentan las cargas de trabajo. La dirección se da cuenta cuando se les informa que el personal se va a la competencia. 

 **Beneficios de establecer esta práctica recomendada:** en algunas organizaciones, puede ser desafiante asignar el mismo tiempo y atención que se dedica a la prestación de servicios y a los nuevos productos u ofertas. Cuando esto ocurre, la línea empresarial puede resentirse a medida que el nivel de servicio esperado se deteriora lentamente. Esto se debe a que las operaciones no cambian ni evolucionan con el crecimiento de la empresa y pronto pueden quedarse rezagadas. Sin una revisión periódica de la información que recopilan las operaciones, es posible que el riesgo para la empresa solo resulte evidente cuando sea demasiado tarde. Al asignar tiempo para revisar las métricas y los procedimientos tanto entre el personal de operaciones como con la dirección, el papel crucial que desempeñan las operaciones permanece visible y los riesgos se pueden identificar mucho antes de que alcancen niveles críticos. Los equipos de operaciones obtienen una mejor perspectiva de los cambios e iniciativas empresariales inminentes, lo que permite llevar a cabo esfuerzos proactivos. La visibilidad de la dirección de las métricas de las operaciones muestra el papel que desempeñan estos equipos en la satisfacción del cliente, tanto interna como externa, y les permite sopesar mejor las opciones en función de las prioridades, o garantizar que las operaciones tengan el tiempo y los recursos para cambiar y evolucionar con las nuevas iniciativas empresariales y de carga de trabajo. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 Dedique tiempo a revisar las métricas de las operaciones entre las partes interesadas y los equipos de operaciones y a revisar los datos de los informes. Analice estos informes en el contexto de las metas y los objetivos de la organización para determinar si se están cumpliendo. Identifique los orígenes de ambigüedad en los que las metas no estén claras o en las que pueda haber conflictos entre lo que se pide y lo que se da. 

 Identifique dónde pueden ayudar el tiempo, las personas y las herramientas a obtener resultados operativos. Determine a qué KPI afectaría esto y cuáles deberían ser los objetivos de éxito. Revisite todo esto periódicamente a fin de garantizar que las operaciones cuenten con los recursos suficientes para respaldar la línea empresarial. 

## Recursos
Recursos

 **Documentos relacionados:** 
+ [ Amazon Athena ](https://aws.amazon.com/athena/)
+ [Referencia de métricas y dimensiones de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html)
+ [Amazon Quick](https://aws.amazon.com/quicksight/)
+ [AWS Glue](https://aws.amazon.com/glue/)
+ [AWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html)
+ [Recopilación de métricas y registros de instancias de Amazon EC2 y en los servidores en las instalaciones con el agente de Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html)
+ [Uso de métricas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)

# OPS 10. ¿Cómo administra la carga de trabajo y los eventos de operaciones?


 Prepare y valide los procedimientos de respuesta a los eventos para minimizar la interrupción de la carga de trabajo. 

**Topics**
+ [

# OPS10-BP01 Uso de un proceso para la administración de eventos, incidentes y problemas
](ops_event_response_event_incident_problem_process.md)
+ [

# OPS10-BP02 Implementación de un proceso por alerta
](ops_event_response_process_per_alert.md)
+ [

# OPS10-BP03 Priorización de los eventos operativos según el impacto empresarial
](ops_event_response_prioritize_events.md)
+ [

# OPS10-BP04 Definición de rutas de escalado
](ops_event_response_define_escalation_paths.md)
+ [

# OPS10-BP05 Definición de un plan de comunicación con los clientes en caso de eventos que afecten al servicio
](ops_event_response_push_notify.md)
+ [

# OPS10-BP06 Comunicación del estado a través de paneles
](ops_event_response_dashboards.md)
+ [

# OPS10-BP07 Automatización de las respuestas a eventos
](ops_event_response_auto_event_response.md)

# OPS10-BP01 Uso de un proceso para la administración de eventos, incidentes y problemas
OPS10-BP01 Uso de un proceso para la administración de eventos, incidentes y problemas

La capacidad de administrar eficazmente los eventos, los incidentes y los problemas es clave para mantener el estado y el rendimiento de las cargas de trabajo. Es crucial reconocer y comprender las diferencias entre estos elementos para desarrollar una estrategia eficaz de respuesta y resolución. Establecer y seguir un proceso bien definido para cada aspecto ayuda a su equipo a administrar de forma rápida y eficaz cualquier desafío operativo que surja.

 **Resultado deseado:** su organización administra eficazmente los eventos, incidentes y problemas operativos a través de procesos bien documentados y almacenados de forma centralizada. Estos procesos se actualizan constantemente para reflejar los cambios, agilizar la gestión y mantener una alta fiabilidad del servicio y el rendimiento de las cargas de trabajo. 

 **Patrones comunes de uso no recomendados:** 
+  Responde a los eventos reactivamente, en lugar de hacerlo proactivamente. 
+  Se adoptan enfoques incoherentes para diferentes tipos de eventos o incidentes. 
+ Su organización no analiza los incidentes ni aprende de ellos para evitar que ocurran en el futuro.

 **Beneficios de establecer esta práctica recomendada:** 
+  Procesos de respuesta simplificados y estandarizados. 
+  Reducción del impacto de los incidentes en los servicios y los clientes. 
+  Resolución rápida de problemas. 
+  Mejora continua de los procesos operativos. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 La implementación de esta práctica recomendada implica el seguimiento de los eventos de la carga de trabajo. Dispone de procesos para gestionar las incidencias y los problemas. Los procesos se documentan, se comparten y se actualizan con frecuencia. Los problemas se identifican, se priorizan y se solucionan. 

 **Comprensión de los eventos, los incidentes y los problemas** 
+  **Eventos:** un *evento* consiste en observar de una acción, un suceso o un cambio de estado. Los eventos pueden planificarse o no y pueden originarse de forma interna o externa en la carga de trabajo. 
+  **Incidentes**: los *incidentes* son eventos que requieren una respuesta, como interrupciones no planificadas o mermas en la calidad del servicio. Representan interrupciones que requieren atención inmediata para restablecer el funcionamiento normal de las cargas de trabajo. 
+  **Problemas:** los *problemas* son las causas subyacentes de uno o más incidentes. Identificar y resolver los problemas implica profundizar en los incidentes para evitar que ocurran en el futuro. 

### Pasos para la implementación
Pasos para la implementación

 **Events (Eventos** 

1.  **Supervisión de los eventos:** 
   +  [Implemente la observabilidad](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html) y [utilice la observabilidad de la carga de trabajo](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html). 
   +  Las acciones de supervisión hechas por un usuario, un rol o un servicio de AWS se registran como eventos en [AWS CloudTrail](https://aws.amazon.com/cloudtrail/). 
   +  Responda a los cambios operativos en sus aplicaciones en tiempo real con [Amazon EventBridge](https://aws.amazon.com/eventbridge/). 
   +  Evalúe, supervise y registre de forma continua los cambios en la configuración de los recursos con [AWS Config](https://aws.amazon.com/config/). 

1.  **Creación de procesos:** 
   +  Desarrolle un proceso para evaluar qué eventos son importantes y requieren supervisión. Esto implica establecer umbrales y parámetros para las actividades normales y anómalas. 
   +  Determine los criterios por los que un evento pasa a ser un incidente. Por ejemplo, puede basarse en la gravedad, el impacto en los usuarios o la desviación del comportamiento esperado. 
   +  Revise periódicamente los procesos de supervisión y respuesta a los eventos. Por ejemplo, analice los incidentes pasados o ajuste los umbrales y los mecanismos de alerta. 

 **Incidentes** 

1.  **Respuesta a los incidentes:** 
   +  Utilice la información de las herramientas de observabilidad para identificar y responder rápidamente a los incidentes. 
   +  Implemente el [Centro de operaciones de AWS Systems Manager](https://aws.amazon.com/systems-manager/features/#OpsCenter) para agregar, organizar y priorizar los elementos e incidentes operativos. 
   +  Utilice servicios como [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) y [AWS X-Ray](https://aws.amazon.com/xray/) para llevar a cabo análisis más detallados y solucionar problemas. 
   +  Considere la posibilidad de usar [AWS Managed Services (AMS)](https://aws.amazon.com/managed-services/) para mejorar la administración de incidentes, aprovechando sus capacidades proactivas, preventivas y de detección. AMS amplía el soporte operativo con servicios como la supervisión, la detección y respuesta a incidentes y la administración de la seguridad. 
   +  Los clientes de Enterprise Support pueden usar [Detección y respuesta a incidentes de AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), que proporciona supervisión proactiva continua y administración de incidentes para las cargas de trabajo de producción. 

1.  **Creación de un proceso de administración de incidentes:** 
   +  Establezca un proceso estructurado de administración de incidentes, que incluya protocolos de comunicación, pasos para resolver problemas y roles claramente establecidos. 
   +  Integre la administración de incidentes con herramientas como [Amazon Q Developer en las aplicaciones de chat](https://aws.amazon.com/chatbot/) para una respuesta y coordinación eficientes. 
   +  Clasifique los incidentes por gravedad, con [planes de respuesta a incidentes](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) predefinidos para cada categoría. 

1.  **Aprenda y mejore:** 
   +  Lleve a cabo un [análisis posterior al incidente](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) para comprender las causas fundamentales y la eficacia de la resolución. 
   +  Actualice y mejore continuamente los planes de respuesta en función de las revisiones y en la evolución de los procedimientos. 
   +  Documente y comparta las lecciones aprendidas entre los equipos para mejorar la resiliencia operativa. 
   +  Los clientes de Enterprise Support pueden solicitar el [taller de administración de incidentes](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) a su Technical Account Manager. Este taller guiado pone a prueba su actual plan de respuesta a incidentes y le ayuda a identificar áreas de mejora. 

 **Problemas de** 

1.  **Identificación de los problemas:** 
   +  Utilice los datos de incidentes anteriores para identificar patrones periódicos que pueden indicar problemas sistémicos más profundos. 
   +  Aproveche herramientas como [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) y [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) para analizar las tendencias y descubrir los problemas subyacentes. 
   +  Involucre a equipos multifuncionales, incluidas las unidades de operaciones, desarrollo y negocios, para obtener diversas perspectivas sobre las causas raíz. 

1.  **Creación de un proceso de administración de problemas:** 
   +  Desarrolle un proceso estructurado para la administración de problemas y céntrese en soluciones a largo plazo en lugar de en soluciones rápidas. 
   +  Incorpore técnicas de análisis de causa raíz (RCA) para investigar y comprender las causas subyacentes de los incidentes. 
   +  Actualice las políticas, los procedimientos y la infraestructura operativos en función de los resultados para evitar que se repitan. 

1.  **Continuación de la mejora:** 
   +  Fomente una cultura de aprendizaje y mejora constantes, y anime a los equipos a identificar y abordar de manera proactiva los posibles problemas. 
   +  Revise periódicamente los procesos y herramientas de administración de problemas para adaptarlos a la evolución de la empresa y la tecnología. 
   +  Comparta información y prácticas recomendadas con el resto de la organización para crear un entorno operativo más resiliente y eficiente. 

1.  **Uso de AWS Support:** 
   +  Utilice los recursos de asistencia de AWS, como [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/), para obtener orientación proactiva y recomendaciones de optimización. 
   +  Los clientes de Enterprise Support pueden acceder a programas especializados como [AWS Countdown](https://aws.amazon.com/premiumsupport/aws-countdown/) para obtener asistencia durante eventos críticos. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificación de los indicadores clave de rendimiento](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementación de telemetría de aplicaciones](ops_observability_application_telemetry.md) 
+  [OPS07-BP03 Uso de manuales de procedimientos para llevar a cabo los procedimientos](ops_ready_to_support_use_runbooks.md)
+  [OPS07-BP04 Uso de manuales de estrategias para investigar problemas](ops_ready_to_support_use_playbooks.md) 
+  [OPS08-BP01 Análisis de las métricas de la carga de trabajo](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS11-BP02 Análisis después del incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documentos relacionados:** 
+  [AWS Security Incident Response Guide](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+ [AWS Incident Detection and Response ](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)
+ [AWS Cloud Adoption Framework: Operations Perspective - Incident and problem management ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+  [Incident Management in the Age of DevOps and SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty - What is Incident Management?](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Videos relacionados:** 
+ [Top incident response tips from AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [AWS re:Invent 2022 - The Amazon Builders' Library: 25 yrs of Amazon operational excellence ](https://www.youtube.com/watch?v=DSRhgBd_gtw)
+ [AWS re:Invent 2022 - AWS Incident Detection and Response (SUP201) ](https://www.youtube.com/watch?v=IbSgM4IP9IE)
+ [Introducing Incident Manager from AWS Systems Manager](https://www.youtube.com/watch?v=I6lScgh4qds)

 **Ejemplos relacionados:** 
+  [AWS Proactive Services – Incident Management Workshop](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+ [How to Automate Incident Response with PagerDuty and Administrador de incidentes de AWS Systems Manager](https://aws.amazon.com/blogs/mt/how-to-automate-incident-response-with-pagerduty-and-aws-systems-manager-incident-manager/)
+ [Engage Incident Responders with the On-Call Schedules in Administrador de incidentes de AWS Systems Manager](https://aws.amazon.com/blogs/mt/engage-incident-responders-with-the-on-call-schedules-in-aws-systems-manager-incident-manager/)
+ [Improve the Visibility and Collaboration during Incident Handling in Administrador de incidentes de AWS Systems Manager](https://aws.amazon.com/blogs/mt/improve-the-visibility-and-collaboration-during-incident-handling-in-aws-systems-manager-incident-manager/)
+ [Incident reports and service requests in AMS](https://docs.aws.amazon.com/managedservices/latest/userguide/support-experience.html)

 **Servicios relacionados:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 

# OPS10-BP02 Implementación de un proceso por alerta
OPS10-BP02 Implementación de un proceso por alerta

 Establecer un proceso claro y definido para cada alerta de su sistema es esencial para una administración de incidentes eficaz y eficiente. Esta práctica garantiza que cada alerta genere una respuesta específica y procesable, lo que mejora la fiabilidad y la capacidad de respuesta de sus operaciones. 

 **Resultado deseado:** cada alerta inicia un plan de respuesta específico y bien definido. Siempre que sea posible, las respuestas se automatizan, con una propiedad clara y una ruta de escalado definida. Las alertas están vinculadas a una base de conocimientos actualizada para que cualquier operador pueda responder de forma coherente y eficaz. Las respuestas son rápidas y uniformes en todos los ámbitos, lo que mejora la eficiencia y la fiabilidad operativas. 

 **Patrones comunes de uso no recomendados:** 
+  Las alertas no tienen un proceso de respuesta predefinido, lo que lleva a resoluciones improvisadas y tardías. 
+  La sobrecarga de alertas hace que se pasen por alto alertas importantes. 
+  Las alertas se gestionan de forma incoherente debido a la falta de propiedad y responsabilidad claras. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Se ha reducido la fatiga de las alertas al generar solo alertas procesables. 
+  Disminución del tiempo medio de resolución (MTTR) de los problemas operativos. 
+  Disminución del tiempo medio de investigación (MTTI), lo que ayuda a reducir el MTTR. 
+  Mejora de la capacidad para escalar las respuestas operativas. 
+  Mejora de la coherencia y la fiabilidad en la gestión de los eventos operativos. 

 Por ejemplo, cuenta con un proceso definido para eventos de AWS Health para cuentas críticas, incluidas las alarmas de operaciones, los problemas operativos, los eventos de ciclo de vida planificados (como actualizar las versiones de Amazon EKS antes de que los clústeres se actualicen automáticamente) y ofrece a sus equipos la capacidad para monitorear activamente estos eventos, comunicarse y responder al respecto. Estas acciones lo ayudan a evitar las interrupciones del servicio causadas por cambios en AWS o mitigarlas más rápidamente cuando se producen problemas inesperados. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 Tener un proceso por alerta implica establecer un plan de respuesta claro para cada alerta, automatizar las respuestas siempre que sea posible y perfeccionar continuamente estos procesos en función de los comentarios operativos y los requisitos en evolución. 

### Pasos para la implementación
Pasos para la implementación

 El siguiente diagrama muestra el flujo de trabajo de administración de incidentes en [Administrador de incidentes de AWS Systems Manager](https://aws.amazon.com/systems-manager/features/incident-manager/). Está diseñado para responder rápidamente a los problemas operativos mediante la creación automática de incidentes en respuesta a eventos específicos de [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) o [Amazon EventBridge](https://aws.amazon.com/eventbridge/). Cuando se crea un incidente, ya sea de forma automática o manual, el Administrador de incidentes centraliza la administración del incidente, organiza la información relevante de los recursos de AWS e inicia planes de respuesta predefinidos. Esto incluye ejecutar manuales de procedimientos de Automatización de Systems Manager para tomar medidas inmediatas, así como crear un elemento de trabajo operativo principal en el Centro de operaciones para hacer un seguimiento de las tareas y los análisis relacionados. Este proceso simplificado acelera y coordina la respuesta a los incidentes en todo su entorno de AWS. 

![\[Diagrama de flujo en el que se muestra cómo funciona el Administrador de incidentes: Amazon Q Developer en las aplicaciones de chat, los planes y contactos de escalado y los manuales de procedimientos desembocan en planes de respuesta, que a su vez se convierten en análisis e incidentes. Amazon CloudWatch también se refleja en los planes de respuesta.\]](http://docs.aws.amazon.com/es_es/wellarchitected/latest/framework/images/incident-manager-how-it-works.png)


1.  **Uso de alarmas compuestas:** cree [alarmas compuestas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) en CloudWatch para agrupar las alarmas relacionadas, reducir el ruido y permitir respuestas más significativas. 

1.  **Manténgase informado con [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html):** AWS Health es la fuente autorizada de información sobre el estado de los recursos de Nube de AWS. Utilice AWS Health para visualizar y recibir notificaciones de cualquier evento de servicio actual y de los próximos cambios, como los eventos de ciclo de vida planificados, de forma que pueda tomar medidas para mitigar los impactos. 

   1.  [Cree notificaciones de eventos de AWS Health adaptadas al propósito](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) para el correo electrónico y los canales de chat a través de [AWS User Notifications](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) e intégrelas mediante programación con [las herramientas de supervisión y alerta a través de Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) o la [API de AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Planifique y realice un seguimiento del progreso de los eventos de estado que requieran una acción mediante la integración con herramientas de administración de cambios o ITSM (como [Jira](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) o [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)) que ya pueda utilizar a través de Amazon EventBridge o la API de AWS Health. 

   1.  Si usa AWS Organizations, habilite la [vista de organización para AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html) a fin de agregar eventos de AWS Health en todas las cuentas. 

1.  **Integración de las alarmas de Amazon CloudWatch con el Administrador de incidentes:** configure las alarmas de CloudWatch para crear incidentes automáticamente en [Administrador de incidentes de AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html). 

1.  **Integración de Amazon EventBridge con el Administrador de incidentes:** cree [reglas de EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule.html) para reaccionar ante los eventos y crear incidentes mediante planes de respuesta definidos. 

1.  **Preparación para incidentes en el Administrador de incidentes:** 
   +  Establezca [planes de respuesta](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) detallados en el Administrador de incidentes para cada tipo de alerta. 
   +  Establezca canales de chat mediante [Amazon Q Developer en aplicaciones de chat](https://docs.aws.amazon.com/incident-manager/latest/userguide/chat.html) conectadas a los planes de respuesta del Administrador de incidentes, lo que facilita la comunicación en tiempo real durante los incidentes en plataformas como Slack, Microsoft Teams y Amazon Chime. 
   +  Incorpore [manuales de procedimientos de Automatización de Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/runbooks.html) en el Administrador de incidentes para impulsar respuestas automatizadas a los incidentes. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificación de los indicadores clave de rendimiento](ops_observability_identify_kpis.md) 
+  [OPS08-BP04 Creación de alertas procesables](ops_workload_observability_create_alerts.md) 

 **Documentos relacionados:** 
+ [AWS Cloud Adoption Framework: Operations Perspective - Incident and problem management ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+ [Uso de las alarmas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)
+ [ Setting up Administrador de incidentes de AWS Systems Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/setting-up.html)
+ [Preparing for incidents in Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-response.html)

 **Videos relacionados:** 
+ [Top incident response tips from AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [ re:Invent 2023 \$1 Manage resource lifecycle events at scale with AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA)

 **Ejemplos relacionados:** 
+ [AWS Workshops - Administrador de incidentes de AWS Systems Manager - Automate incident response to security events ](https://catalog.workshops.aws/automate-incident-response/en-US/settingupim/onboarding)

# OPS10-BP03 Priorización de los eventos operativos según el impacto empresarial
OPS10-BP03 Priorización de los eventos operativos según el impacto empresarial

 Responder con prontitud a los eventos operativos es fundamental, pero no todos los eventos son iguales. Cuando se establecen prioridades en función del impacto en la empresa, también se da prioridad a los eventos que pueden tener consecuencias importantes, como la seguridad, las pérdidas financieras, las infracciones de la normativa o los daños a la reputación. 

 **Resultado deseado:** las respuestas a los eventos operativos se priorizan en función del posible impacto en las operaciones y los objetivos comerciales. Esto hace que las respuestas sean eficientes y efectivas. 

 **Patrones comunes de uso no recomendados:** 
+  Todos los eventos se tratan con el mismo nivel de urgencia, lo que genera confusión y retrasos a la hora de abordar los problemas críticos. 
+  No puede distinguir entre eventos de alto y bajo impacto, lo que lleva a una mala asignación de recursos. 
+  Su organización carece de un marco de priorización claro, lo que deriva en respuestas incongruentes a los eventos operativos. 
+  Los eventos se priorizan en función del orden en el que se informan, en lugar de su impacto en los resultados empresariales. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Garantiza que las funciones empresariales críticas reciban la atención en primer lugar, lo que minimiza los posibles daños. 
+  Mejora la asignación de recursos durante varios eventos simultáneos. 
+  Mejora la capacidad de la organización para mantener la confianza y cumplir con los requisitos reglamentarios. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 Cuando nos enfrentamos a múltiples eventos operativos, es esencial adoptar un enfoque estructurado para la priorización en función del impacto y la urgencia. Este enfoque le ayuda a tomar decisiones informadas, dirigir los esfuerzos hacia donde más se necesitan y mitigar el riesgo para la continuidad del negocio. 

### Pasos para la implementación
Pasos para la implementación

1.  **Evaluación del impacto:** desarrolle un sistema de clasificación para evaluar la gravedad de los eventos en términos de su posible impacto en las operaciones y los objetivos comerciales. En el siguiente ejemplo se muestran las categorías de impacto:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Evaluación de la urgencia:** defina los niveles de urgencia para determinar la rapidez con la que un evento necesita una respuesta, teniendo en cuenta factores como la seguridad, las implicaciones financieras y los acuerdos de nivel de servicio (SLA). En el siguiente ejemplo se muestran las categorías de urgencia:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Creación de una matriz de priorización:** 
   +  Utilice una matriz para hacer referencias cruzadas del impacto y la urgencia mediante la asignación de niveles de prioridad a diferentes combinaciones. 
   +  Haga que todos los miembros del equipo responsables de las respuestas a los eventos operativos puedan acceder a la matriz y comprenderla. 
   +  La siguiente matriz de ejemplo muestra la gravedad del incidente según la urgencia y el impacto:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Formación y comunicación:** forme a los equipos de respuesta sobre la matriz de priorización y la importancia de seguirla durante un evento. Comunique el proceso de priorización a todas las partes interesadas para establecer expectativas claras. 

1.  **Integración con la respuesta a incidentes:** 
   +  Incorpore la matriz de priorización en sus planes y herramientas de respuesta a incidentes. 
   +  Automatice la clasificación y la priorización de los eventos siempre que sea posible para acelerar los tiempos de respuesta. 
   +  Los clientes de Enterprise Support pueden aprovechar la [Detección y respuesta a incidentes de AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), que proporciona supervisión proactiva y administración de incidentes ininterrumpidas para las cargas de trabajo de producción. 

1.  **Revisión y adaptación:** revise de forma periódica la eficacia del proceso de priorización y haga ajustes en función de las opiniones y los cambios en el entorno empresarial. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS03-BP03 Fomento de la derivación](ops_org_culture_team_enc_escalation.md) 
+  [OPS08-BP04 Creación de alertas procesables](ops_workload_observability_create_alerts.md) 
+  [OPS09-BP01 Medición de los objetivos operativos y los KPI con métricas](ops_operations_health_measure_ops_goals_kpis.md) 

 **Documentos relacionados:** 
+ [Atlassian - Understanding incident severity levels](https://www.atlassian.com/incident-management/kpis/severity-levels)
+ [IT Process Map - Checklist Incident Priority](https://wiki.en.it-processmaps.com/index.php/Checklist_Incident_Priority)

# OPS10-BP04 Definición de rutas de escalado
OPS10-BP04 Definición de rutas de escalado

Establezca rutas de escalado claras dentro de sus protocolos de respuesta a incidentes para facilitar una acción oportuna y eficaz. Esto incluye especificar las indicaciones para el escalado, detallar el proceso de escalado y aprobar previamente las acciones para acelerar la toma de decisiones y reducir el tiempo medio de resolución (MTTR).

 **Resultado deseado:** un proceso estructurado y eficiente que eleve los incidentes al personal apropiado, lo que reduce los tiempos de respuesta y el impacto. 

 **Patrones comunes de uso no recomendados:** 
+ La falta de claridad en los procedimientos de recuperación conduce a respuestas improvisadas durante los incidentes críticos.
+ La ausencia de permisos y propiedad definidos provoca retrasos cuando se necesita una acción urgente.
+  Las partes interesadas y los clientes no reciben información de acuerdo con las expectativas. 
+  Las decisiones importantes se retrasan. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Respuesta simplificada a los incidentes mediante procedimientos de escalado predefinidos. 
+  Se ha reducido el tiempo de inactividad con acciones preaprobadas y una propiedad clara. 
+  Mejora de la asignación de recursos y los ajustes del nivel de soporte según la gravedad del incidente. 
+  Mejora de la comunicación con las partes interesadas y los clientes. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 Las rutas de escalado bien definidas son cruciales para una respuesta rápida a los incidentes. Administrador de incidentes de AWS Systems Manager permite establecer planes de escalado estructurados y programas de guardia, que alertan al personal adecuado para que esté preparado para actuar cuando se produzcan incidentes. 

### Pasos para la implementación
Pasos para la implementación

1.  **Configuración de las indicaciones de escalado:** configure [alarmas de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) para crear un incidente en [Administrador de incidentes de AWS Systems Manager](https://docs.aws.amazon.com//incident-manager/latest/userguide/incident-creation.html). 

1.  ** Configuración de programas de guardia:** cree [programas de guardia](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule-create.html) en el Administrador de incidentes que se ajusten a sus rutas de escalado. Proporcione al personal de guardia los permisos y las herramientas necesarios para actuar con rapidez. 

1.  **Detalle los procedimientos de escalado:** 
   +  Determine las condiciones específicas en las que se debe escalar un incidente. 
   +  Cree [planes de escalado](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html) en el Administrador de incidentes. 
   +  Los canales de escalado deben consistir en un contacto o un programa de guardia. 
   +  Defina las funciones y responsabilidades del equipo en cada nivel de escalado. 

1.  **Aprobación previa de las acciones de mitigación:** colabore con los responsables de la toma de decisiones para aprobar previamente las acciones para los escenarios previstos. Utilice los [manuales de procedimientos de Automatización de Systems Manager](https://docs.aws.amazon.com//incident-manager/latest/userguide/tutorials-runbooks.html) integrados con el Administrador de incidentes para acelerar la resolución de incidentes. 

1.  **Especificación de la propiedad:** identifique claramente a los propietarios internos de cada paso de la ruta de escalado. 

1.  **Detalle los escalados de terceros:** 
   +  Documente los acuerdos de nivel de servicio (SLA) de terceros y ajústelos a los objetivos internos. 
   +  Establezca protocolos claros para la comunicación con los proveedores durante los incidentes. 
   +  Integre los contactos de los proveedores en las herramientas de administración de incidentes para que se pueda acceder directamente a ellos. 
   +  Lleve a cabo simulacros periódicos que incluyan situaciones de respuesta de terceros. 
   +  Mantenga la información de escalado de proveedores bien documentada y accesible. 

1.  **Formación y práctica de los planes de escalado:** forme a su equipo en el proceso de escalado y lleve a cabo simulacros o días de juego de respuesta a incidentes con regularidad. Los clientes de Enterprise Support pueden solicitar un [taller de administración de incidentes](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/). 

1.  **Continuación de la mejora:** revise la eficacia de sus rutas de escalado con regularidad. Actualice sus procesos en función de las lecciones aprendidas a partir de los análisis posteriores a los incidentes y los comentarios continuos. 

 **Nivel de esfuerzo para el plan de implementación:** moderado 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS08-BP04 Creación de alertas procesables](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Implementación de un proceso por alerta](ops_event_response_process_per_alert.md) 
+  [OPS11-BP02 Análisis después del incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documentos relacionados:** 
+ [Administrador de incidentes de AWS Systems Manager Escalation Plans](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html)
+ [Working with on-call schedules in Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule.html)
+ [Creación y administración de manuales de procedimientos](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html)
+ [Temporary elevated access management with AWS IAM Identity Center](https://aws.amazon.com/blogs/security/temporary-elevated-access-management-with-iam-identity-center/)
+ [Atlassian - Escalation policies for effective incident management](https://www.atlassian.com/incident-management/on-call/escalation-policies)

# OPS10-BP05 Definición de un plan de comunicación con los clientes en caso de eventos que afecten al servicio
OPS10-BP05 Definición de un plan de comunicación con los clientes en caso de eventos que afecten al servicio

 Es fundamental comunicarse eficazmente durante los eventos que afectan al servicio para mantener la confianza y la transparencia con los clientes. Un plan de comunicación bien definido ayuda a su organización a compartir información de forma rápida y clara, tanto interna como externamente, durante los incidentes. 

 **Resultado deseado:** 
+  Un plan de comunicación sólido que informe eficazmente a los clientes y partes interesadas durante los eventos que afectan al servicio. 
+  Transparencia en la comunicación para generar confianza y reducir la ansiedad de los clientes. 
+  Minimizar el impacto de los eventos que afectan el servicio en la experiencia del cliente y las operaciones comerciales. 

 **Patrones comunes de uso no recomendados:** 
+  Una comunicación inadecuada o tardía genera confusión e insatisfacción en los clientes. 
+  Los mensajes demasiado técnicos o vagos no transmiten el impacto real a los usuarios. 
+  No existe una estrategia de comunicación predefinida, lo que da como resultado mensajes incoherentes y reactivos. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Mejora de la confianza y la satisfacción de los clientes mediante una comunicación proactiva y clara. 
+  Se ha reducido la carga de los equipos de asistencia al abordar de forma preventiva las inquietudes de los clientes. 
+  Capacidad mejorada para administrar los incidentes y recuperarse de ellos de forma eficaz. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 La creación de un plan de comunicación integral para los eventos que afectan al servicio implica múltiples facetas, desde la elección de los canales correctos hasta la elaboración del mensaje y el tono. El plan debe ser adaptable, escalable y contemplar diferentes escenarios de interrupción del servicio. 

### Pasos para la implementación
Pasos para la implementación

1.  **Definición de roles y responsabilidades:** 
   +  Asigne un major incident manager para supervisar las actividades de respuesta a los incidentes. 
   +  Designe a un communications manager que se encargue de coordinar todas las comunicaciones externas e internas. 
   +  Incluya al support manager para proporcionar una comunicación congruente a través de los tiques de soporte. 

1.  **Identificación de los canales de comunicación:** seleccione canales como el chat del lugar de trabajo, el correo electrónico, los SMS, las redes sociales, las notificaciones dentro de las aplicaciones y las páginas de estado. Estos canales deben ser resilientes y capaces de funcionar de forma independiente durante los eventos que afecten al servicio. 

1.  **Comunicación con los clientes rápida, clara y regular:** 
   +  Elabore plantillas para varios escenarios de deterioro del servicio, haciendo énfasis en la simplicidad y los detalles esenciales. Incluya información sobre el deterioro del servicio, el tiempo de resolución esperado y el impacto. 
   +  Utilice Amazon Pinpoint para alertar a los clientes mediante notificaciones push, notificaciones dentro de las aplicaciones, correos electrónicos, mensajes de texto, mensajes de voz y mensajes a través de canales personalizados. 
   +  Utilice Amazon Simple Notification Service (Amazon SNS) para alertar a los suscriptores mediante programación o por correo electrónico, notificaciones push móviles y mensajes de texto. 
   +  Comparta de forma pública el panel de Amazon CloudWatch para comunicar el estado del incidente. 
   +  Fomente la participación en las redes sociales: 
     +  Supervise activamente las redes sociales para entender la opinión de los clientes. 
     +  Publique en las plataformas de redes sociales para proporcionar información pública actualizada e implicar a la comunidad. 
     +  Prepare plantillas para una comunicación clara y coherente en las redes sociales. 

1.  **Coordinación de la comunicación interna:** implemente protocolos internos mediante herramientas como Amazon Q Developer en aplicaciones de chat para coordinar a los equipos y facilitar la comunicación. Utilice los paneles de CloudWatch para comunicar el estado. 

1.  ** Orquestación de la comunicación con herramientas y servicios dedicados: ** 
   +  Utilice Administrador de incidentes de AWS Systems Manager con Amazon Q Developer en aplicaciones de chat para configurar canales de chat dedicados para la comunicación interna y la coordinación en tiempo real durante los incidentes. 
   +  Utilice manuales de procedimientos de Administrador de incidentes de AWS Systems Manager para automatizar las notificaciones a los clientes a través de Amazon Pinpoint, Amazon SNS o herramientas de terceros, como las plataformas de redes sociales, durante los incidentes. 
   +  Incorpore flujos de trabajo de aprobación en los manuales de procedimientos para revisar y autorizar, de forma opcional, todas las comunicaciones externas antes de enviarlas. 

1.  ** Práctica y mejora:** 
   +  Lleve a cabo formaciones sobre el uso de herramientas y estrategias de comunicación. Permita a los equipos tomar decisiones oportunas durante los incidentes. 
   +  Ponga a prueba el plan de comunicación mediante simulacros o días de juego. Use estas pruebas para ajustar los mensajes y evaluar la eficacia de los canales. 
   +  Implemente mecanismos para conocer la opinión de los clientes y evaluar así la eficacia de la comunicación durante los incidentes. Desarrolle continuamente el plan de comunicación en función de los comentarios y las necesidades cambiantes. 

 **Nivel de esfuerzo para el plan de implementación:** alto 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS07-BP03 Uso de manuales de procedimientos para llevar a cabo los procedimientos](ops_ready_to_support_use_runbooks.md) 
+  [OPS10-BP06 Comunicación del estado a través de paneles](ops_event_response_dashboards.md) 
+  [OPS11-BP02 Análisis después del incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documentos relacionados:** 
+ [Atlassian - Incident communication best practices](https://www.atlassian.com/incident-management/incident-communication)
+ [Atlassian - How to write a good status update](https://www.atlassian.com/blog/statuspage/how-to-write-a-good-status-update)
+ [PagerDuty - A Guide to Incident Communications](https://www.pagerduty.com/resources/learn/a-guide-to-incident-communications/)

 **Videos relacionados:** 
+ [ Atlassian - Create your own incident communication plan: Incident templates ](https://www.youtube.com/watch?v=ZROVn6-K2qU)

 **Ejemplos relacionados:** 
+  [Panel de AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health-dashboard/) 

# OPS10-BP06 Comunicación del estado a través de paneles
OPS10-BP06 Comunicación del estado a través de paneles

 Utilice los paneles como una herramienta estratégica para transmitir el estado operativo y las métricas clave en tiempo real a diferentes públicos, incluidos los equipos técnicos internos, los líderes y los clientes. Estos paneles ofrecen una representación visual centralizada del estado del sistema y el rendimiento empresarial, lo que mejora la transparencia y la eficiencia de la toma de decisiones. 

 **Resultado deseado:** 
+  Sus paneles proporcionan una visión completa del sistema y de las métricas empresariales relevantes para las diferentes partes interesadas. 
+  Las partes interesadas pueden acceder de forma proactiva a la información operativa, lo que reduce la necesidad de solicitudes de estado frecuentes. 
+  La toma de decisiones en tiempo real mejora durante las operaciones normales y los incidentes. 

 **Patrones comunes de uso no recomendados:** 
+ Los ingenieros que se unen a una llamada de administración de incidentes necesitan actualizaciones de estado para ponerse al día.
+ Confiar en los informes manuales para la administración, lo que provoca retrasos y posibles imprecisiones.
+  Los equipos de operaciones se interrumpen con frecuencia para actualizar el estado durante los incidentes. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Ofrece a las partes interesadas acceso inmediato a información crítica, promoviendo la toma de decisiones informadas. 
+  Reduce las ineficiencias operativas al minimizar los informes manuales y las consultas frecuentes sobre el estado. 
+  Aumenta la transparencia y la confianza a través de la visibilidad en tiempo real del rendimiento del sistema y las métricas empresariales. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 Los paneles comunican eficazmente el estado del sistema y las métricas empresariales y se pueden adaptar a las necesidades de los diferentes grupos de audiencia. Las herramientas como los paneles de Amazon CloudWatch y Amazon Quick ayudan a crear paneles interactivos y en tiempo real para la monitorización del sistema y la inteligencia empresarial. 

### Pasos para la implementación
Pasos para la implementación

1.  **Identificación de las necesidades de las partes interesadas:** determine las necesidades de información específicas de los diferentes grupos de audiencia, como los equipos técnicos, los líderes y los clientes. 

1.  **Elija las herramientas adecuadas:** seleccione las herramientas adecuadas, como los [paneles de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) para supervisar el sistema y [Amazon Quick](https://aws.amazon.com/quicksight/) para obtener inteligencia empresarial interactiva. [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) proporciona una experiencia lista para usar en [Panel de AWS Health](https://health.aws.amazon.com/health/home) o puede utilizar eventos de estado en Amazon EventBridge o mediante la API de AWS Health para aumentar los paneles propios. 

1.  **Diseñe paneles eficaces:** 
   +  Diseñe paneles para presentar con claridad las métricas y los KPI relevantes, asegurándose de que sean comprensibles y procesables. 
   +  Incorpore vistas a nivel de sistema y empresarial según sea necesario. 
   +  Incluya paneles de alto nivel (para obtener una visión general) y de bajo nivel (para un análisis detallado). 
   +  Integre alarmas automatizadas en los paneles para resaltar los problemas críticos. 
   +  Incluya umbrales de métricas y objetivos importantes en los paneles para poder acceder a esos datos de forma inmediata. 

1.  **Integración de los orígenes de datos:** 
   +  Utilice [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) para agregar y mostrar métricas de varios servicios de AWS y [consultar métricas de otros orígenes de datos](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html), creando una vista unificada de las métricas empresariales y de estado de su sistema. 
   +  Utilice características como [Información de registros de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) para consultar y visualizar los datos de registro de diferentes aplicaciones y servicios. 
   +  Utilice los eventos de AWS Health para mantenerse informado sobre el estado operativo y los problemas operativos confirmados de los servicios de AWS mediante la [API de AWS Health](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html) o los [eventos de AWS Health en Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html). 

1.  **Acceso de autoservicio:** 
   +  Comparta paneles de CloudWatch con las partes interesadas pertinentes para acceder a la información de autoservicio mediante [características para compartir paneles](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html). 
   +  Asegúrese de que se pueda acceder fácilmente a los paneles y que incluyan información actualizada en tiempo real. 

1.  **Actualice y ajuste los paneles cada cierto tiempo:** 
   +  Modifique los paneles de forma periódica para alinearlos con las cambiantes necesidades empresariales y las opiniones de las partes interesadas. 
   +  Revise los paneles cada cierto tiempo para que sigan siendo pertinentes a la hora de transmitir la información necesaria. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS08-BP05 Creación de paneles](ops_workload_observability_create_dashboards.md) 

 **Documentos relacionados:** 
+ [ La creación de paneles para la visibilidad operativa ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Uso de paneles de Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html)
+ [ Cree paneles flexibles con variables de panel ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html)
+ [ Compartir paneles de CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html)
+ [ Consulta de métricas de otros orígenes de datos ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html)
+ [ Agregue un widget personalizado a un panel de CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html)

 **Ejemplos relacionados:** 
+ [ One Observability Workshop - Dashboards ](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US/aws-native/dashboards)

# OPS10-BP07 Automatización de las respuestas a eventos
OPS10-BP07 Automatización de las respuestas a eventos

 La automatización de las respuestas a eventos es clave para una gestión operativa rápida, coherente y sin errores. Cree procesos simplificados y utilice herramientas para administrar y responder automáticamente a los eventos, lo que minimiza las intervenciones manuales y mejora la eficacia operativa. 

 **Resultado deseado:** 
+  Se han reducido los errores humanos y tiempos de resolución más rápidos mediante la automatización. 
+  Gestión de eventos operativos coherente y fiable. 
+  Se ha mejorado la eficiencia operativa y la fiabilidad del sistema. 

 **Patrones comunes de uso no recomendados:** 
+ La gestión manual de eventos provoca retrasos y errores.
+ La automatización se pasa por alto en las tareas críticas y repetitivas.
+  Las tareas manuales y repetitivas provocan saturación de alertas y la omisión de problemas críticos. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Respuestas rápidas a los eventos, lo que reduce el tiempo de inactividad del sistema. 
+  Operaciones fiables con una gestión de eventos automatizada y coherente. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación

 Incorpore la automatización para crear flujos de trabajo operativos eficientes y minimizar las intervenciones manuales. 

### Pasos para la implementación
Pasos para la implementación

1.  **Identificación de las oportunidades de automatización:** determine qué tareas repetitivas pueden automatizarse, como la resolución de problemas, el enriquecimiento de tiques, la administración de la capacidad, el escalado, las implementaciones y las pruebas. 

1.  **Identificación de los avisos de automatización:** 
   +  evalúe y defina las condiciones o métricas específicas que inician las respuestas automatizadas mediante [acciones de alarmas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions). 
   +  Use [Amazon EventBridge](https://aws.amazon.com/eventbridge/) para responder a eventos en servicios de AWS, cargas de trabajo personalizadas y aplicaciones SaaS. 
   +  Tenga en cuenta los eventos de inicio, como [entradas de registro específicas](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html), [umbrales de métricas de rendimiento](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) o [cambios de estado](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) en los recursos de AWS. 

1.  **Implementación de la automatización basada en eventos:** 
   +  Utilice los manuales de procedimientos de Automatización de AWS Systems Manager para simplificar las tareas de mantenimiento, implementación y corrección. 
   +  La [creación de incidentes en el Administrador de incidentes](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) recopila y agrega automáticamente detalles sobre los recursos de AWS involucrados en el incidente. 
   +  Supervise las cuotas de forma proactiva mediante el [Monitor de cuotas para AWS](https://aws.amazon.com/solutions/implementations/quota-monitor/). 
   +  Ajuste automáticamente la capacidad con [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) para mantener la disponibilidad y el rendimiento. 
   +  Automatice las canalizaciones de desarrollo con [Amazon CodeCatalyst](https://codecatalyst.aws/explore). 
   +  Haga pruebas de humo o supervise continuamente los puntos de conexión y las API [mediante la supervisión sintética](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html). 

1.  **Mitigación de los riesgos mediante la automatización:** 
   +  Implemente [respuestas de seguridad automatizadas](https://aws.amazon.com/solutions/implementations/automated-security-response-on-aws/) para abordar los riesgos con rapidez. 
   +  Use [AWS Systems Manager State Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) para reducir los cambios en la configuración. 
   +  [Corrija los recursos no conformes con Reglas de AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html). 

 **Nivel de esfuerzo para el plan de implementación:** alto 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS08-BP04 Creación de alertas procesables](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Implementación de un proceso por alerta](ops_event_response_process_per_alert.md) 

 **Documentos relacionados:** 
+  [Using Systems Manager Automation runbooks with Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/tutorials-runbooks.html) 
+  [Creating incidents in Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) 
+  [Service Quotas de AWS](https://docs.aws.amazon.com/general/latest/gr/aws_service_limits.html) 
+  [Monitor resource usage and send notifications when approaching quotas](https://docs.aws.amazon.com/solutions/latest/quota-monitor-for-aws/solution-overview.html) 
+  [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) 
+  [What is Amazon CodeCatalyst?](https://docs.aws.amazon.com/codecatalyst/latest/userguide/welcome.html) 
+  [Uso de las alarmas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Uso de las acciones de alarma de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) 
+  [Remediating Noncompliant Resources with Reglas de AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) 
+  [Creating metrics from log events using filters](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
+  [AWS Systems ManagerState Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) 

 **Videos relacionados:** 
+ [ Create Automation Runbooks with AWS Systems Manager](https://www.youtube.com/watch?v=fQ_KahCPBeU)
+ [ How to automate IT Operations on AWS](https://www.youtube.com/watch?v=GuWj_mlyTug)
+ [AWS Security Hub CSPM automation rules ](https://www.youtube.com/watch?v=XaMfO_MERH8)
+ [ Start your software project fast with Amazon CodeCatalyst blueprints ](https://www.youtube.com/watch?v=rp7roaoPzFE)

 **Ejemplos relacionados:** 
+ [Amazon CodeCatalyst Tutorial: Creating a project with the Modern three-tier web application blueprint](https://docs.aws.amazon.com/codecatalyst/latest/userguide/getting-started-template-project.html)
+ [ One Observability Workshop ](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US)
+ [Respond to incidents using Incident Manager](https://catalog.workshops.aws/getting-started-with-com/en-US/operations-management/incident-manager)

# Evolución
Evolución

**Topics**
+ [

# OPS 11. ¿Cómo desarrolla las operaciones?
](ops-11.md)

# OPS 11. ¿Cómo desarrolla las operaciones?


 Dedique tiempo y recursos a la mejora gradual casi continua, para incrementar la eficacia y la eficiencia de sus operaciones. 

**Topics**
+ [

# OPS11-BP01 Implementación de un proceso de mejora continua
](ops_evolve_ops_process_cont_imp.md)
+ [

# OPS11-BP02 Análisis después del incidente
](ops_evolve_ops_perform_rca_process.md)
+ [

# OPS11-BP03 Implementación de bucles de retroalimentación
](ops_evolve_ops_feedback_loops.md)
+ [

# OPS11-BP04 Administración de conocimientos
](ops_evolve_ops_knowledge_management.md)
+ [

# OPS11-BP05 Definición de los elementos que impulsan la mejora
](ops_evolve_ops_drivers_for_imp.md)
+ [

# OPS11-BP06 Validación de la información
](ops_evolve_ops_validate_insights.md)
+ [

# OPS11-BP07 Revisiones de métricas de operaciones
](ops_evolve_ops_metrics_review.md)
+ [

# OPS11-BP08 Documentación y comunicación de las lecciones aprendidas
](ops_evolve_ops_share_lessons_learned.md)
+ [

# OPS11-BP09 Asignación de tiempo para implementar mejoras
](ops_evolve_ops_allocate_time_for_imp.md)

# OPS11-BP01 Implementación de un proceso de mejora continua
OPS11-BP01 Implementación de un proceso de mejora continua

 Evalúe su carga de trabajo con respecto a las prácticas recomendadas de arquitectura interna y externa. Lleve a cabo revisiones frecuentes e intencionadas de la carga de trabajo. Priorice las oportunidades de mejora en su cadencia de desarrollo de software. 

 **Resultado deseado:** 
+  Analiza con frecuencia su carga de trabajo con respecto a las prácticas recomendadas de arquitectura. 
+  Da a las oportunidades de mejora la misma prioridad que a las características de su proceso de desarrollo de software. 

 **Patrones comunes de uso no recomendados:** 
+  No ha revisado la arquitectura de su carga de trabajo desde que se implementó hace varios años. 
+  Le da menos prioridad a las oportunidades de mejora. En comparación con las nuevas características, estas oportunidades se quedan pendientes. 
+  No existe un estándar para implementar las modificaciones de las prácticas recomendadas para la organización. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Su carga de trabajo se mantiene actualizada en cuanto a las prácticas recomendadas de arquitectura. 
+  Desarrolla su carga de trabajo de manera intencionada. 
+  Puede aprovechar las prácticas recomendadas de la organización para mejorar todas las cargas de trabajo. 
+  Obtiene ganancias marginales que tienen un efecto acumulativo, lo que impulsa una mayor eficiencia. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 Revise con frecuencia la arquitectura de su carga de trabajo. Use prácticas recomendadas internas y externas, evalúe su carga de trabajo e identifique las oportunidades de mejora. Priorice las oportunidades de mejora en su cadencia de desarrollo de software. 

### Pasos para la implementación
Pasos para la implementación

1.  Revise periódicamente la arquitectura de su carga de trabajo de producción con una frecuencia acordada. Utilice un estándar de arquitectura documentado que incluya prácticas recomendadas específicas de AWS. 

   1.  Use sus estándares definidos internamente para estas revisiones. Si no dispone de un estándar interno, utilice el Marco de AWS Well-Architected. 

   1.  Utilice AWS Well-Architected Tool para crear un enfoque personalizado de sus prácticas recomendadas internas y llevar a cabo la revisión de la arquitectura. 

   1.  Contacte con su AWS Solution Architect o Technical Account Manager para llevar a cabo una revisión guiada del Marco de Well-Architected de su carga de trabajo. 

1.  Priorice las oportunidades de mejora identificadas durante la revisión en su proceso de desarrollo de software. 

 **Nivel de esfuerzo para el plan de implementación:** bajo. Puede utilizar el Marco de AWS Well-Architected para llevar a cabo la revisión anual de la arquitectura. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS11-BP02 Análisis después del incidente](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) 
+  [OPS11-BP08 Documentación y comunicación de las lecciones aprendidas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_share_lessons_learned.html) 
+  [OPS04 Implementación de la observabilidad](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_process_cont_imp.html) 

 **Documentos relacionados:** 
+  [AWS Well-Architected Tool - Custom Lenses](https://docs.aws.amazon.com/wellarchitected/latest/userguide/lenses-custom.html) 
+  [Documento técnico sobre AWS Well-Architected: el proceso de revisión](https://docs.aws.amazon.com/wellarchitected/latest/framework/the-review-process.html) 
+  [Customize Well-Architected Reviews using Custom Lenses and the AWS Well-Architected Tool](https://aws.amazon.com/blogs/mt/customize-well-architected-reviews-using-custom-lenses-and-the-aws-well-architected-tool/) 
+  [Implementing the AWS Well-Architected Custom Lens lifecycle in your organization](https://aws.amazon.com/blogs/architecture/implementing-the-aws-well-architected-custom-lens-lifecycle-in-your-organization/) 

 **Videos relacionados:** 
+  [AWS re:Invent 2023 - Scaling AWS Well-Architected best practices across your organization](https://youtu.be/UXtZCoE9qfQ?si=OPATCOY2YAwiF2TS) 

 **Ejemplos relacionados:** 
+  [AWS Well-Architected Tool](https://docs.aws.amazon.com/wellarchitected/latest/userguide/intro.html) 

# OPS11-BP02 Análisis después del incidente
OPS11-BP02 Análisis después del incidente

 Revise los eventos que afectan a los clientes e identifique los factores que contribuyen a ellos y las medidas preventivas. Use esta información para desarrollar un plan de mitigación que limite o evite la reaparición del problema. Desarrolle procedimientos para proporcionar respuestas rápidas y eficaces. Comunique los factores que han contribuido al problema y las medidas correctivas según corresponda, adaptados al público de destino. 

 **Resultado deseado:** 
+  Ha establecido procesos de administración de incidentes que incluyen análisis después del incidente. 
+  Tiene planes de observabilidad para recopilar datos sobre los eventos. 
+  Con estos datos, comprende y recopila las métricas que respaldan su proceso de análisis posterior al incidente. 
+  Aprende de los incidentes para mejorar los resultados futuros. 

 **Patrones comunes de uso no recomendados:** 
+  Administra un servidor de aplicaciones. Aproximadamente cada 23 horas y 55 minutos finalizan todas las sesiones activas. Ha tratado de identificar lo que no funciona correctamente en el servidor de aplicaciones. Sospecha que podría tratarse de un problema de red, pero no consigue que el equipo de red colabore porque están demasiado ocupados para ayudarle. Carece de un proceso predefinido para obtener asistencia y recopilar la información necesaria para determinar lo que está sucediendo. 
+  Ha sufrido pérdidas de datos dentro de la carga de trabajo. Es la primera vez que ocurre y la causa no es evidente. Decide que no es importante porque puede volver a crear los datos. La pérdida de datos comienza a producirse con mayor frecuencia, lo que afecta a los clientes. Esto también supone una carga operativa adicional al restaurar los datos perdidos. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Dispone de un proceso predefinido para determinar los componentes, las condiciones, las acciones y los eventos que han contribuido a un incidente le permite identificar oportunidades de mejora. 
+  Utiliza los datos del análisis posterior al incidente para aplicar mejoras. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 Use un proceso para determinar los factores que han contribuido al problema. Revise todos los incidentes que afectan a los clientes. Disponga de un proceso para identificar y documentar los factores que han contribuido al incidente, de manera que se puedan elaborar medidas de mitigación para limitar o prevenir su repetición y se puedan desarrollar procedimientos para dar respuestas rápidas y eficaces. Comunique las causas raíz de los incidentes según corresponda y adapte la comunicación a su público objetivo. Comparta la información obtenida con el resto de la organización. 

### Pasos para la implementación
Pasos para la implementación

1.  Recopile métricas como el cambio de implementación o de configuración, la hora de inicio del incidente, la hora de la alarma, la hora de activación, la hora de inicio de la mitigación y la hora de resolución del incidente. 

1.  Describa los puntos temporales clave en el cronograma para comprender los eventos del incidente. 

1.  Hágase las siguientes preguntas: 

   1.  ¿Podría mejorar el tiempo de detección? 

   1.  ¿Existen actualizaciones de las métricas y alarmas que detectarían el incidente en menos tiempo? 

   1.  ¿Puede mejorar el tiempo hasta el diagnóstico? 

   1.  ¿Existen actualizaciones para sus planes de respuesta o planes de escalada que implicarían en menos tiempo a los respondedores correctos? 

   1.  ¿Puede mejorar el tiempo de mitigación? 

   1.  ¿Hay pasos del manual de procedimientos o de estrategias que pueda agregar o mejorar? 

   1.  ¿Puede evitar que ocurran futuros incidentes? 

1.  Cree listas de verificación y acciones. Haga un seguimiento y cumpla con todas las acciones. 

 **Nivel de esfuerzo para el plan de implementación:** medio 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS11-BP01 Implementación de un proceso de mejora continua](ops_evolve_ops_process_cont_imp.md) 
+ [ OPS 4: Implementación de la observabilidad ](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html)

 **Documentos relacionados:** 
+  [Performing a post-incident analysis in Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/analysis.html) 
+  [Operational Readiness Review](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/iteration.html) 

# OPS11-BP03 Implementación de bucles de retroalimentación
OPS11-BP03 Implementación de bucles de retroalimentación

Los bucles de retroalimentación proporcionan información procesable que impulsa la toma de decisiones. Cree bucles de retroalimentación en sus procedimientos y cargas de trabajo. Le servirán para identificar los problemas y las áreas que necesitan mejoras. También validan las inversiones hechas en las mejoras. Estos bucles de retroalimentación son la base para mejorar continuamente la carga de trabajo.

 Los bucles de retroalimentación se dividen en dos categorías: *retroalimentación inmediata* y *análisis retrospectivo*. La retroalimentación inmediata se obtiene mediante la revisión del rendimiento y los resultados de las actividades operativas. Esta retroalimentación procede de los miembros del equipo, de los clientes o del resultado automático de la actividad. Se recibe retroalimentación inmediata de aspectos como las pruebas A/B y el envío de nuevas características. Es esencial responder rápido a los errores. 

 El análisis retrospectivo se lleva a cabo periódicamente para obtener retroalimentación de la revisión de resultados operativos y de las métricas a lo largo del tiempo. Estas retrospectivas tienen lugar al final de un sprint, en una cadencia, o después de lanzamientos o eventos importantes. Este tipo de bucle de retroalimentación valida las inversiones en operaciones o la carga de trabajo. Lo ayuda a medir el éxito y valida su estrategia. 

 **Resultado deseado:** utiliza la retroalimentación inmediata y el análisis retrospectivo para impulsar las mejoras. Existe un mecanismo para obtener la retroalimentación de los usuarios y de los miembros del equipo. El análisis retrospectivo se utiliza para identificar las tendencias que impulsan las mejoras. 

 **Patrones comunes de uso no recomendados:** 
+ Lanza una nueva característica, pero no tiene forma de recibir la retroalimentación de los clientes sobre ella.
+ Después de invertir en mejoras operativas, no lleva a cabo una retrospectiva para validarlas.
+ Recopila la retroalimentación de los clientes, pero no la revisa con regularidad.
+ Los bucles de retroalimentación dan lugar a propuestas de acción, pero no se incluyen en el proceso de desarrollo del software.
+  Los clientes no reciben retroalimentación sobre las mejoras que han propuesto. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Puede hacer un recorrido inverso desde el cliente para impulsar nuevas características. 
+  La cultura de su organización puede reaccionar más rápidamente a los cambios. 
+  Las tendencias se utilizan para identificar las oportunidades de mejora. 
+  Las retrospectivas validan las inversiones hechas en la carga de trabajo y las operaciones. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 La implementación de esta práctica recomendada implica utilizar tanto la retroalimentación inmediata como el análisis retrospectivo. Estos bucles de retroalimentación impulsan las mejoras. Existen muchos mecanismos para obtener retroalimentación inmediata, como encuestas, sondeos de opinión de los clientes o formularios de retroalimentación. Su organización también utiliza las retrospectivas para identificar las oportunidades de mejora y validar las iniciativas. 

 **Ejemplo de cliente** 

 AnyCompany Retail ha creado un formulario web en el que los clientes pueden dar retroalimentación o informar de sus problemas. Durante el examen semanal, el equipo de desarrollo de software evalúa la retroalimentación de los usuarios. La retroalimentación se utiliza periódicamente para dirigir la evolución de la plataforma. Se lleva a cabo una retrospectiva al final de cada sprint para identificar los elementos que quiere mejorar. 

## Pasos para la implementación
Pasos para la implementación

1. Retroalimentación inmediata
   +  Necesita un mecanismo para recibir retroalimentación de los clientes y de los miembros del equipo. Las actividades de sus operaciones también se pueden configurar para ofrecer retroalimentación automática. 
   +  Su organización necesita un proceso para revisar esta retroalimentación, determinar qué hay que mejorar y programar la mejora. 
   +  Los comentarios deben agregarse a su proceso de desarrollo de software. 
   +  A medida que vaya incorporando mejoras, haga un seguimiento del remitente de la retroalimentación. 
     +  Puede usar el [Centro de operaciones de AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) para crear esta mejora como [OpsItems](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter-working-with-OpsItems.html) y hacer un seguimiento de ellas.

1.  Análisis retrospectivo 
   +  Lleve a cabo retrospectivas al final de un ciclo de desarrollo, con una cadencia determinada o después de un lanzamiento importante. 
   +  Convoque a las partes implicadas en la carga de trabajo para una reunión retrospectiva. 
   +  Cree tres columnas en una pizarra u hoja de cálculo: Detener, Iniciar y Mantener. 
     +  *Detener* corresponde a lo que quiera que su equipo deje de hacer. 
     +  *Iniciar* corresponde a las ideas que quiere empezar a hacer. 
     +  *Mantener* corresponde a lo que quiere seguir haciendo. 
   +  Recorra la sala y recopile la retroalimentación de las partes interesadas. 
   +  Priorice la retroalimentación. Asigne acciones y partes interesadas a los elementos de los apartados Iniciar o Mantener. 
   +  Agregue las acciones a su proceso de desarrollo de software y comunique las actualizaciones de estado a las partes interesadas a medida que haga las mejoras. 

 **Nivel de esfuerzo para el plan de implementación:** medio. Para implementar esta práctica recomendada, necesita un método para recibir retroalimentación inmediata y analizarla. Además, debe establecer un proceso de análisis retrospectivo. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS01-BP01 Evaluación de las necesidades de los clientes externos](ops_priorities_ext_cust_needs.md): los bucles de retroalimentación son un mecanismo para recopilar las necesidades de los clientes externos. 
+  [OPS01-BP02 Evaluación de las necesidades de los clientes internos](ops_priorities_int_cust_needs.md): las partes interesadas internas pueden utilizar los bucles de retroalimentación para comunicar las necesidades y los requisitos. 
+  [OPS11-BP02 Análisis después del incidente](ops_evolve_ops_perform_rca_process.md): los análisis posteriores a los incidentes son una forma importante de análisis retrospectivo que se lleva a cabo después de los incidentes. 
+  [OPS11-BP07 Revisiones de métricas de operaciones](ops_evolve_ops_metrics_review.md): las revisiones de las métricas de las operaciones identifican tendencias y áreas de mejora. 

 **Documentos relacionados:** 
+  [7 Pitfalls to Avoid When Building a CCOE](https://aws.amazon.com/blogs/enterprise-strategy/7-pitfalls-to-avoid-when-building-a-ccoe/) 
+  [Atlassian Team Playbook - Retrospectives](https://www.atlassian.com/team-playbook/plays/retrospective) 
+  [Email Definitions: Feedback Loops](https://aws.amazon.com/blogs/messaging-and-targeting/email-definitions-feedback-loops/) 
+  [Establishing Feedback Loops Based on the AWS Well-Architected Framework Review](https://aws.amazon.com/blogs/architecture/establishing-feedback-loops-based-on-the-aws-well-architected-framework-review/) 
+  [IBM Garage Methodology - Hold a retrospective](https://www.ibm.com/garage/method/practices/learn/practice_retrospective_analysis/) 
+  [Investopedia – The PDCS Cycle](https://www.investopedia.com/terms/p/pdca-cycle.asp) 
+  [Maximizing Developer Effectiveness, por Tim Cochran](https://martinfowler.com/articles/developer-effectiveness.html) 
+  [Operations Readiness Reviews (ORR) Whitepaper - Iteration](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/iteration.html) 
+  [ITIL CSI - Continual Service Improvement](https://wiki.en.it-processmaps.com/index.php/ITIL_CSI_-_Continual_Service_Improvement)
+  [When Toyota met e-commerce: Lean at Amazon](https://www.mckinsey.com/capabilities/operations/our-insights/when-toyota-met-e-commerce-lean-at-amazon) 

 **Videos relacionados:** 
+  [Building Effective Customer Feedback Loops](https://www.youtube.com/watch?v=zz_VImJRZ3U) 

 **Ejemplos relacionados: ** 
+  [Astuto: herramienta de código abierto para la retroalimentación de los clientes](https://github.com/riggraz/astuto) 
+  [Soluciones de AWS: QnABot en AWS](https://aws.amazon.com/solutions/implementations/qnabot-on-aws/) 
+  [Fider: una plataforma para organizar la retroalimentación de los clientes](https://github.com/getfider/fider) 

 **Servicios relacionados:** 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 

# OPS11-BP04 Administración de conocimientos
OPS11-BP04 Administración de conocimientos

La gestión del conocimiento ayuda a los miembros del equipo a encontrar la información necesaria para cumplir con su cometido. En las organizaciones basadas en el aprendizaje, la información se comparte libremente, lo que capacita a los individuos. La información puede detectarse o buscarse. La información es precisa y está actualizada. Existen mecanismos para crear nueva información, actualizar la existente y archivar la obsoleta. Los ejemplos más frecuentes de plataforma de administración del conocimiento es un sistema de administración de contenido, como una wiki. 

 **Resultado deseado:** 
+  Los miembros del equipo tienen acceso a información oportuna y precisa. 
+  Se puede buscar información. 
+  Existen mecanismos para agregar, actualizar y archivar la información. 

 **Patrones comunes de uso no recomendados:** 
+ No existe un almacenamiento centralizado de conocimientos. Los miembros del equipo administran sus propias notas en sus máquinas locales.
+  Dispone de una wiki autoalojada, pero no de mecanismos para administrar la información, lo que provoca que esta quede obsoleta. 
+  Alguien identifica información que falta, pero no existe un proceso para solicitar que se agrega a la wiki del equipo. La agregan ellos mismos, pero se saltan un paso clave, lo que provoca una interrupción del servicio. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Los miembros del equipo tienen más poder porque la información se comparte libremente. 
+  Los nuevos miembros del equipo se incorporan más rápidamente porque la documentación está actualizada y es posible hacer búsquedas en ella. 
+  La información es oportuna, precisa y procesable. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
Guía para la implementación

 La administración del conocimiento es una faceta importante de las organizaciones de aprendizaje. Para empezar, necesita un repositorio central para almacenar los conocimientos (un ejemplo habitual es una wiki autoalojada). Debe desarrollar procesos para agregar, actualizar y archivar conocimientos. Desarrolle estándares sobre lo que debe documentarse y permita que todos contribuyan. 

 **Ejemplo de cliente** 

 AnyCompany Retail alberga una wiki interna donde se almacenan todos los conocimientos. Se anima a los miembros del equipo a agregar información a la base de conocimientos mientras hacen sus tareas cotidianas. Cada trimestre, un equipo interfuncional evalúa las páginas menos actualizadas y determina si deben archivarse o actualizarse. 

 **Pasos para la implementación** 

1.  Empiece por identificar el sistema de administración de contenido en el que se almacenarán los conocimientos. Consiga el acuerdo de las partes interesadas de toda la organización. 

   1.  Si no dispone de un sistema de administración de contenido, considere la posibilidad de crear una wiki autoalojada o utilizar un repositorio de control de versiones como punto de partida. 

1.  Elabore manuales de procedimientos para agregar, actualizar y archivar información. Forme a su equipo en estos procesos. 

1.  Identifique qué conocimientos deben almacenarse en el sistema de administración de contenido. Empiece por las actividades diarias (manuales de procedimientos y manuales de estrategias) que llevan a cabo los miembros del equipo. Colabore con las partes interesadas para priorizar qué conocimientos se agregan. 

1.  Trabaje periódicamente con las partes interesadas para identificar la información obsoleta y archivarla o actualizarla. 

 **Nivel de esfuerzo para el plan de implementación:** medio. Si no dispone de un sistema de administración de contenido, puede crear una wiki autoalojada o un repositorio de documentos controlado por versiones. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS11-BP08 Documentación y comunicación de las lecciones aprendidas](ops_evolve_ops_share_lessons_learned.md): la administración del conocimiento facilita el intercambio de información sobre las lecciones aprendidas. 

 **Documentos relacionados:** 
+ [ Atlassian - Knowledge Management ](https://www.atlassian.com/itsm/knowledge-management)

 **Ejemplos relacionados:** 
+ [ DokuWiki ](https://www.dokuwiki.org/dokuwiki)
+ [ Gollum ](https://github.com/gollum/gollum)
+ [ MediaWiki ](https://www.mediawiki.org/wiki/MediaWiki)
+ [ Wiki.js ](https://github.com/Requarks/wiki)

# OPS11-BP05 Definición de los elementos que impulsan la mejora
OPS11-BP05 Definición de los elementos que impulsan la mejora

 Identifique los factores que impulsan la mejora para ayudarlo a evaluar y priorizar las oportunidades en función de los datos y los bucles de comentarios. Explore las oportunidades de mejora en sus sistemas y procesos, y automatice cuando corresponda. 

 **Resultado deseado:** 
+  Se hace un seguimiento de los datos en todo el entorno. 
+  Se correlacionan los eventos y las actividades con los resultados empresariales. 
+  Puede comparar y contrastar entornos y sistemas. 
+  Mantiene un historial de actividad detallado de sus implementaciones y resultados. 
+  Recopila datos para respaldar su postura de seguridad. 

 **Patrones comunes de uso no recomendados:** 
+  Recopila datos de todo su entorno, pero no correlaciona eventos ni actividades. 
+  Recopila datos detallados de todo su patrimonio y esto aumenta la actividad y los costos de Amazon CloudWatch y AWS CloudTrail. Sin embargo, no utiliza estos datos de manera significativa. 
+  No tiene en cuenta los resultados empresariales al definir los factores que impulsan la mejora. 
+  No se miden los efectos de las nuevas características. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Minimiza la repercusión de las motivaciones basadas en eventos o la inversión emocional al determinar criterios de mejora. 
+  Responde a los eventos empresariales, no solo a los técnicos. 
+  Mide su entorno para identificar las áreas de mejora. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación
+  Conozca los factores que impulsan la mejora: solo debe hacer cambios en un sistema cuando estos producen un resultado deseado. 
  +  Capacidades deseadas: evalúe las características y capacidades deseadas al evaluar las oportunidades de mejora. 
    +  [Novedades de AWS](https://aws.amazon.com/new/) 
  +  Problemas inaceptables: evalúe los problemas, errores y vulnerabilidades inaceptables al evaluar las oportunidades de mejora. Haga un seguimiento de las opciones de redimensionamiento y busque oportunidades de optimización. 
    +  [Últimos boletines de seguridad de AWS](https://aws.amazon.com/security/security-bulletins/) 
    +  [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/trustedadvisor/) 
    +  [Cloud Intelligence Dashboards](https://www.wellarchitectedlabs.com/cloud-intelligence-dashboards/) 
  +  Requisitos de cumplimiento: evalúe las actualizaciones y los cambios necesarios para mantener el cumplimiento de la normativa, la política o la asistencia de terceros cuando revise las oportunidades de mejora. 
    +  [AWS Cumplimiento de](https://aws.amazon.com/compliance/) 
    +  [Programas de conformidad de AWS](https://aws.amazon.com/compliance/programs/) 
    +  [Novedades sobre conformidad de AWS](https://aws.amazon.com/compliance/compliance-latest-news/) 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS01 Prioridades de la organización](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/organization-priorities.html) 
+  [OPS02 Relaciones y propiedades](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/relationships-and-ownership.html) 
+  [OPS04-BP01 Identificación de los indicadores clave de rendimiento](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_identify_kpis.html) 
+  [OPS08 Uso de la observabilidad de la carga de trabajo](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html) 
+  [OPS09 Descripción del estado operativo](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/understanding-operational-health.html) 
+  [OPS11-BP03 Implementación de bucles de retroalimentación](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_feedback_loops.html) 

 **Documentos relacionados:** 
+  [Amazon Athena](https://aws.amazon.com/athena/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc) 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [AWS Cumplimiento de](https://aws.amazon.com/compliance/) 
+  [Novedades sobre conformidad de AWS](https://aws.amazon.com/compliance/compliance-latest-news/) 
+  [Programas de conformidad de AWS](https://aws.amazon.com/compliance/programs/) 
+  [AWS Glue](https://aws.amazon.com/glue/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc) 
+  [Últimos boletines de seguridad de AWS](https://aws.amazon.com/security/security-bulletins/) 
+  [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/trustedadvisor/) 
+  [Export your log data to Amazon S3](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/S3Export.html) 
+  [Novedades de AWS](https://aws.amazon.com/new/) 
+  [Los aspectos imprescindibles de la innovación centrada en el cliente](https://aws.amazon.com/executive-insights/content/the-imperatives-of-customer-centric-innovation/) 
+  [Digital Transformation: Hype or a Strategic Necessity?](https://aws.amazon.com/blogs/enterprise-strategy/digital-transformation-hype-or-a-strategic-necessity/) 

 **Videos relacionados** 
+  [AWS re:Invent 2023 - Improve operational efficiency and resilience with Soporte (SUP310)](https://youtu.be/jaehZYBNG0Y?si=UNEaLZsXDrxcBgYo) 

# OPS11-BP06 Validación de la información
OPS11-BP06 Validación de la información

 Revise los resultados de los análisis y las respuestas con equipos multifuncionales y con los propietarios de la empresa. Use estas revisiones para establecer un entendimiento común, identificar repercusiones adicionales y determinar cursos de acción. Ajuste las respuestas cuando corresponda. 

 **Resultados deseados:** 
+  Revisa la información con los propietarios de la empresa de forma regular. Los propietarios de la empresa proporcionan un contexto adicional a la información recién adquirida. 
+  Revisa la información y solicita comentarios de sus compañeros técnicos y comparte lo que ha aprendido entre los equipos. 
+  Publica datos e información para que otros equipos técnicos y de la empresa los revisen. Incorpora lo que ha aprendido en las nuevas prácticas de otros departamentos. 
+  Resuma y revise la nueva información con los líderes sénior. Los líderes sénior utilizan la nueva información para definir la estrategia. 

 **Patrones comunes de uso no recomendados:** 
+  Lanza una nueva característica. Esta característica cambia algunos de los comportamientos de sus clientes. Su observabilidad no tiene en cuenta estos cambios. No cuantifica los beneficios de estos cambios. 
+  Publica una nueva actualización y descuida la actualización de su CDN. La caché de CDN ya no es compatible con la última versión. Mide el porcentaje de solicitudes con errores. Todos sus usuarios informan de errores HTTP 400 cuando se comunican con los servidores backend. Investiga los errores del cliente y descubre que midió la dimensión incorrecta y ha perdido el tiempo. 
+  Su acuerdo de nivel de servicio estipula un tiempo de actividad del 99,9 % y su objetivo de punto de recuperación es de cuatro horas. El propietario del servicio sostiene que el sistema no tiene ningún tiempo de inactividad. Implementa una solución de replicación costosa y compleja, lo que supone una pérdida de tiempo y dinero. 

 **Beneficios de establecer esta práctica recomendada: ** 
+  Al validar la información con los propietarios de las unidades de negocio y los expertos en la materia, puede establecer un entendimiento común y orientar las mejoras de forma más eficaz. 
+  Descubre problemas ocultos y los tiene en cuenta en las decisiones futuras. 
+  Su enfoque pasa de los resultados técnicos a los resultados empresariales. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación
+  **Validación de la información:** colabore con los propietarios de la empresa y los expertos en la materia para asegurarse de que exista un entendimiento común y un acuerdo sobre el significado de los datos que ha recopilado. Identifique las preocupaciones adicionales y las repercusiones potenciales, y determine un curso de acción. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS01-BP06 Evaluación de las compensaciones al administrar los beneficios y los riesgos](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_priorities_eval_tradeoffs.html) 
+  [OPS02-BP06 Responsabilidades predefinidas o negociadas entre equipos](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_neg_team_agreements.html) 
+  [OPS11-BP03 Implementación de bucles de retroalimentación](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_feedback_loops.html) 

 **Documentos relacionados:** 
+  [Designing a Cloud Center of Excellence (CCOE)](https://aws.amazon.com/blogs/enterprise-strategy/designing-a-cloud-center-of-excellence-ccoe/) 

 **Videos relacionados:** 
+  [Building observability to increase resiliency](https://youtu.be/6bJkYtrMMPI?si=yu8tVMz4a6ax9f34&t=2695) 

# OPS11-BP07 Revisiones de métricas de operaciones
OPS11-BP07 Revisiones de métricas de operaciones

 Lleve a cabo análisis retrospectivos periódicos de las métricas de operaciones con participantes de diferentes equipos y áreas de la empresa. Use estas revisiones para identificar las oportunidades de mejora, los posibles cursos de acción y para compartir las lecciones aprendidas. Busque oportunidades para mejorar en todos sus entornos (por ejemplo, desarrollo, pruebas y producción). 

 **Resultado deseado:** 
+  Revisa con frecuencia las métricas que afectan a la empresa 
+  Detecta y revisa las anomalías a través de sus capacidades de observabilidad 
+  Utiliza los datos para respaldar los resultados y objetivos empresariales 

 **Patrones comunes de uso no recomendados:** 
+  Su periodo de mantenimiento interrumpe una importante promoción de ventas. La empresa no es consciente de que existe un periodo de mantenimiento estándar que podría retrasarse si se producen otros eventos que afecten a la empresa. 
+  Ha sufrido una interrupción prolongada porque su organización suele utilizar una biblioteca no actualizada en su organización. Desde entonces, ha migrado a una biblioteca compatible. Los demás equipos de su organización no saben que corren un riesgo. 
+  No revisa con regularidad el cumplimiento de los SLA de los clientes. Tiende a no cumplir los SLA de los clientes. Existen sanciones económicas relacionadas con el incumplimiento de los SLA de los clientes. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Cuando se reúne con regularidad para revisar las métricas, los eventos y los incidentes de las operaciones, mantiene un entendimiento común entre los equipos. 
+  Su equipo se reúne de forma rutinaria para revisar las métricas y los incidentes, lo que le permite tomar medidas ante los riesgos y reconocer los SLA de los clientes. 
+  Comparte las lecciones aprendidas, lo que proporciona datos para establecer prioridades y aplica mejoras específicas para los resultados empresariales. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
Guía para la implementación
+  Lleve a cabo análisis retrospectivos periódicos de las métricas de operaciones con participantes de diferentes equipos y áreas de la empresa. 
+  Involucre a las partes interesadas, incluidos los equipos de negocio, desarrollo y operaciones, para confirmar los resultados obtenidos de los comentarios inmediatos y el análisis retrospectivo, y para compartir las lecciones aprendidas. 
+  Use sus ideas para identificar las oportunidades de mejora y los posibles cursos de acción. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS08-BP05 Creación de paneles](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_workload_observability_create_dashboards.html) 
+  [OPS09-BP03 Revisión de las métricas de las operaciones y priorización de las mejoras](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_review_ops_metrics_prioritize_improvement.html) 
+  [OPS10-BP01 Uso de un proceso para la administración de eventos, incidentes y problemas](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_event_incident_problem_process.html) 

 **Documentos relacionados:** 
+  [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) 
+  [Referencia de métricas y dimensiones de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Publish custom metrics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
+  [Uso de métricas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 
+  [Paneles y visualizaciones con CloudWatch](https://docs.aws.amazon.com/prescriptive-guidance/latest/implementing-logging-monitoring-cloudwatch/cloudwatch-dashboards-visualizations.html) 

# OPS11-BP08 Documentación y comunicación de las lecciones aprendidas
OPS11-BP08 Documentación y comunicación de las lecciones aprendidas

 Documente y comparta las lecciones aprendidas de las actividades de operaciones para poder aplicarlas internamente y entre los equipos. Debe compartir lo que sus equipos aprenden para aumentar el beneficio en toda su organización. Comparta información y recursos para evitar errores evitables y facilitar los esfuerzos de desarrollo, y céntrese en ofrecer las características deseadas. 

 Utilice AWS Identity and Access Management (IAM) para definir permisos que permitan el acceso controlado a los recursos que desea compartir en las cuentas y entre ellas. 

 **Resultado deseado:** 
+  Utiliza repositorios controlados por versión para compartir bibliotecas de aplicaciones, procedimientos en scripts, documentación de procedimientos y otra documentación del sistema. 
+  Comparte sus estándares de infraestructura como plantillas de AWS CloudFormation controladas por versiones. 
+  Revisa las lecciones aprendidas en los equipos. 

 **Patrones comunes de uso no recomendados:** 
+  Ha sufrido una interrupción prolongada porque su organización suele utilizar una biblioteca con errores. Desde entonces, ha migrado a una biblioteca fiable. Los demás equipos de su organización no saben que están en peligro. Nadie documenta ni comparte la experiencia con esta biblioteca, y no son conscientes del riesgo que esto supone. 
+  Ha identificado un caso límite en un microservicio compartido internamente que provoca la caída de las sesiones. Ha actualizado sus llamadas al servicio para evitar este caso límite. Los demás equipos de su organización no saben que corren un riesgo. 
+  Ha encontrado una forma de reducir significativamente los requisitos de uso de la CPU para uno de sus microservicios. No sabe si otros equipos podrían aprovechar esta técnica. 

 **Beneficios de establecer esta práctica recomendada:** comparta las lecciones aprendidas para apoyar la mejora y maximizar los beneficios de la experiencia. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** bajo 

## Guía para la implementación
Guía para la implementación
+  **Documentación y comunicación de las lecciones que ha aprendido:** disponga de procedimientos para documentar las lecciones aprendidas durante la ejecución de las actividades de operaciones y el análisis retrospectivo para que puedan servir a otros equipos. 
+  **Comunicación de los resultados del aprendizaje:** disponga de procedimientos para compartir las lecciones aprendidas y los artefactos asociados entre equipos. Por ejemplo, comparta los procedimientos actualizados, la orientación, la gobernanza y las prácticas recomendadas a través de una wiki accesible. Comparta los scripts, el código y las bibliotecas por medio de un repositorio común. 
  +  Aproveche [AWS re:Post Private](https://aws.amazon.com/repost-private/) como servicio de conocimiento para agilizar la colaboración y el intercambio de conocimientos dentro de su organización. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS02-BP06 Responsabilidades predefinidas o negociadas entre equipos](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_neg_team_agreements.html) 
+  [OPS05-BP01 Uso del control de versiones](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_version_control.html) 
+  [OPS05-BP06 Uso compartido de estándares de diseño](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_share_design_stds.html) 
+  [OPS11-BP03 Implementación de bucles de retroalimentación](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_feedback_loops.html) 
+  [OPS11-BP07 Revisiones de métricas de operaciones](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_metrics_review.html) 

 **Documentos relacionados:** 
+ [Aumente la colaboración y comparta de forma segura los conocimientos sobre la nube con AWS re:Post Private](https://aws.amazon.com/blogs/aws/increase-collaboration-and-securely-share-cloud-knowledge-with-aws-repost-private/)
+ [ Reduce project delays with a docs-as-code solution ](https://aws.amazon.com/blogs/infrastructure-and-automation/reduce-project-delays-with-docs-as-code-solution/)

 **Videos relacionados:** 
+ [AWS re:Invent 2023 - Collaborate within your company and with AWS using AWS re:Post Private ](https://www.youtube.com/watch?v=HNq_kU2QJLU)
+  [Soportes You \$1 Exploring the Incident Management Tabletop Exercise](https://www.youtube.com/watch?v=0m8sGDx-pRM) 

# OPS11-BP09 Asignación de tiempo para implementar mejoras
OPS11-BP09 Asignación de tiempo para implementar mejoras

 Dedique tiempo y recursos de sus procesos para hacer posibles las mejoras incrementales continuas. 

 **Resultado deseado:** 
+  Crea duplicados temporales de los entornos, lo que reduce el riesgo, el esfuerzo y el costo de la experimentación y las pruebas. 
+  Estos ambientes duplicados pueden usarse para probar las conclusiones de su análisis, experimentar, así como para desarrollar y probar las mejoras planeadas. 
+  Lleva a cabo días de juego y utiliza el Servicio de inyección de errores (FIS) para proporcionar los controles y las barreras de protección que los equipos necesitan para ejecutar experimentos en un entorno similar al de producción. 

 **Patrones comunes de uso no recomendados:** 
+  Hay un problema de rendimiento conocido en su servidor de aplicaciones. Se agrega a las tareas pendientes existentes detrás de cada implementación de características programadas. Si el ritmo al que se agregan las características previstas se mantiene constante, el problema del rendimiento nunca se solucionará. 
+  Para respaldar la mejora continua, aprueba que los administradores y desarrolladores utilicen todo su tiempo extra para seleccionar e implementar las mejoras. Las mejoras no se completan nunca. 
+  La aceptación operativa está completa y no se vuelven a probar las prácticas operativas. 

 **Beneficios de establecer esta práctica recomendada:** al dedicar tiempo y recursos a sus procesos, hará posibles mejoras continuas e incrementales. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** bajo 

## Guía para la implementación
Guía para la implementación
+  Asignación de tiempo para efectuar mejoras: dedique tiempo y recursos dentro de sus procesos para llevar a cabo mejoras incrementales continuas. 
+  Aplique cambios para mejorar y evalúe los resultados para determinar el éxito. 
+  Si los resultados no alcanzan los objetivos y la mejora sigue siendo una prioridad, busque cursos de acción alternativos. 
+  Simule las cargas de trabajo de producción durante los días de juego y utilice lo aprendido en estas simulaciones para mejorar. 

## Recursos
Recursos

 **Prácticas recomendadas relacionadas:** 
+  [OPS05-BP08 Uso de varios entornos](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_multi_env.html) 

 **Videos relacionados:** 
+  [AWS re:Invent 2023 - Improve application resilience with AWS Fault Injection Service](https://youtu.be/N0aZZVVZiUw?si=ivYa9ScBfHcj-IAq)