# 11. Detecte los errores y reaccione ante ellos
<a name="design-principle-11"></a>

 **¿Cómo detecta y reacciona ante errores que afectan su carga de trabajo de SAP?** Diseñe cómo el software o los procedimientos operativos pueden ayudar a garantizar el estado y la resiliencia de su carga de trabajo de SAP. Supervise los errores potenciales y reales, centrándose, de ser posible, en la prevención. Considere si un componente está distribuido o es un único punto de error y diseñe una solución de resiliencia que minimice el impacto en su carga de trabajo. Además de realizar pruebas periódicamente para comprender su perfil de riesgo, examine cómo la automatización podría mejorar su resiliencia. 

[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/wellarchitected/latest/sap-lens/design-principle-11.html)

 Para obtener más información, consulte lo siguiente: 
+  Documentación de AWS: [Architecture Guidance for Availability and Reliability of SAP on AWS](https://docs.aws.amazon.com/sap/latest/general/architecture-guidance-of-sap-on-aws.html) incluido [Failure Scenarios](https://docs.aws.amazon.com/sap/latest/general/arch-guide-architecture-patterns.html#arch-guide-failure-scenarios) y [Architecture Patterns (Patrones de arquitectura)](https://docs.aws.amazon.com/sap/latest/general/arch-guide-architecture-patterns.html#arch-guide-patterns) 

# Práctica recomendada 11.1: supervise errores de la aplicación SAP, de los recursos de AWS y de la conectividad
<a name="best-practice-11-1"></a>

La supervisión de errores de la aplicación SAP, de los recursos de AWS y de la conectividad ayudan a reaccionar ante errores potenciales o reales de manera oportuna.

 **Sugerencia 11.1.1: utilice AWS Personal Health Dashboard y las notificaciones** 

 El [AWS Personal Health Dashboard](https://aws.amazon.com/premiumsupport/technology/personal-health-dashboard/) brinda una vista personalizada del estado de los servicios de AWS que potencian sus aplicaciones, lo que le permite ver rápidamente cuándo hay problemas que afectan su carga de trabajo de SAP. Por ejemplo, en el caso que se pierda un volumen de [Amazon Elastic Block Store (Amazon EBS)](https://aws.amazon.com/ebs/) asociado con una de sus instancias de [Amazon EC2](https://aws.amazon.com/ec2/) . 

 El panel también brinda notificaciones de proyecciones, y podrá configurar alertas en múltiples canales, incluido el correo electrónico, de modo que reciba información oportuna y relevante para ayudar a planificar los cambios programados. Por ejemplo, en el caso de que se lleven a cabo actividades de mantenimiento del hardware de AWS que afecten a una de sus instancias de [Amazon EC2,](https://aws.amazon.com/ec2/) recibirá una notificación más detallada para ayudarlo a planificar y tratar de manera oportuna cualquier problema asociado con el cambio que va a ocurrir. 

 **Sugerencia 11.1.2: evalúe los servicios de AWS para comprender el estado de su sistema SAP** 

 AWS brinda una cantidad de [servicios de administración y de gobernanza](https://aws.amazon.com/products/management-and-governance/) que debe evaluar. Céntrese en las métricas que indican un error potencial o real, como errores en la instancia de EC2, utilización elevada de la CPU y utilización del sistema de archivos. 

 Consulte el pilar de la excelencia operativa para obtener más detalles: 
+  SAP Lens [excelencia operativa]: [Práctica recomendada 1.1: implemente los requisitos previos para la supervisión de SAP on AWS](best-practice-1-1.md) 
+  SAP Lens [excelencia operativa]: [Práctica recomendada 1.4: implemente la supervisión de la configuración de la carga de trabajo](best-practice-1-4.md) 

 **Sugerencia 11.1.3: evalúe la capacidad de las herramientas de SAP para supervisar errores** 

 Las herramientas de SAP, como Solution Manager y Landscape Manager, permiten ver cualquier dato de supervisión en el contexto de la aplicación. Las siguientes soluciones de supervisión están disponibles en SAP. Revise cualquier costo de licencia adicional como parte de la evaluación de estas herramientas. 
+  Documentación de SAP: [SAP Focused run (Ejecución de SAP Focused)](https://support.sap.com/en/alm/sap-focused-run.html) 
+  Documentación de SAP: [SAP Solution Manager](https://support.sap.com/en/alm/solution-manager.html) 
+  Documentación de SAP: [SAP Landscape Management (LaMa)](https://help.sap.com/viewer/lama_help) 
+  Notas de SAP: [2574820 - SAP Landscape Management Cloud Manager for Amazon Web Services (AWS)](https://launchpad.support.sap.com/#/notes/2574820) [Se necesita acceso al portal de SAP] 

 **Sugerencia 11.1.4: evalúe herramientas de terceros para la supervisión de AWS y SAP** 

 Las siguientes soluciones de supervisión están disponibles en AWS Marketplace. Debe evaluar estas y otras herramientas de terceros. 
+  Documentación de AWS: [Soluciones de supervisión en AWS Marketplace](https://aws.amazon.com/marketplace/b/2649280011?ref_=mp_nav_category_2649280011) 

# Práctica recomendada 11.2: defina un enfoque para mantener la disponibilidad
<a name="best-practice-11-2"></a>

Mantenga la disponibilidad con una arquitectura resiliente que pueda sostener el error de un solo componente técnico o servicio de AWS. Entre los mecanismos, se podrían enumerar la capacidad redundante, los balanceadores de carga y los clústeres de software, entre otros.

 **Sugerencia 11.2.1: evite errores por agotamiento de recursos o deterioro del servicio** 

Investigue el aprovisionamiento excesivo de recursos, la supervisión proactiva del crecimiento y la limitación del uso mediante la fijación de límites.

 El pilar de excelencia operativa cubre las diferentes formas en que puede comprender el estado de su aplicación SAP y garantizar que se toman las medidas correctas, consulte [Excelencia operativa]: [1. Diseñe la carga de trabajo de SAP para permitir la comprensión y la reacción a su estado](design-principle-1.md) . 

 El pilar de rendimiento puede ser de ayuda para orientarse sobre cómo hacer ajustes de tamaño correctos y sobre la capacidad de escalado [rendimiento]: [16. Comprenda las opciones de optimización y rendimiento en curso](design-principle-16.md) . 

 **Sugerencia 11.2.2: tenga una estrategia de mantenimiento programado** 

 Si su empresa tiene la obligación de minimizar las interrupciones programadas, debe desarrollar una estrategia de mantenimiento en todos los niveles: aplicación SAP, base de datos, sistema operativo y AWS. Considere lo siguiente: 
+ Uso de soluciones de replicación y clúster para alternar el nodo principal y secundario
+ Exceso de capacidad y mecanismos para escalar y reducir verticalmente a fin de facilitar las interrupciones consecutivas
+  Uso de un enfoque de revisión en tiempo real para el sistema operativo, en caso de ser posible 
  +  [SUSE Linux Enterprise Live Patching](https://www.suse.com/products/live-patching/) 
  +  [Documento técnico Red Hat Reducing Downtime for SAP HANA (Reducción del tiempo de inactividad para SAP HANA)](https://www.redhat.com/cms/managed-files/pa-sap-hana-reducing-downtime-overview-f22788pr-202004-en.pdf) 
+  Documentación de AWS: [AWS Systems Manager Patch Manager Patch Groups (Grupos de parches de AWS Systems Manager Patch Manager)](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-patch.html) 
+  Notas de SAP: [1913302 - HANA: Suspend DB connections for short maintenance tasks (HANA: suspenda conexiones de base de datos para tareas de mantenimiento breves)](https://launchpad.support.sap.com/#/notes/1913302) [Se necesita acceso al portal de SAP] 
+  Notas de SAP: [2077934 - Rolling kernel switch in HA environments (2077934: Rolling Kernel Switch en entornos de alta disponibilidad)](https://launchpad.support.sap.com/#/notes/2077934) [Se necesita acceso al portal de SAP] 
+  Notas de SAP: [953653 - Rolling Kernel Switch](https://launchpad.support.sap.com/#/notes/953653) [Se necesita acceso al portal de SAP] 
+  Notas de SAP: [2254173 - Linux: Rolling Kernel Switch in Pacemaker-based NetWeaver HA environments (Linux: Rolling Kernel Switch en entornos de alta disponibilidad de NetWeaver basados en Pacemaker)](https://launchpad.support.sap.com/#/notes/2254173) [Se necesita acceso al portal de SAP] 

También debe evaluar las capacidades elásticas de los servicios de AWS para reducir el tiempo de inactividad general del mantenimiento programado mediante el aumento temporal del rendimiento. Por ejemplo, escalar verticalmente el tamaño de la instancia de Amazon EC2 que ejecuta su base de datos para brindar más capacidad de procesamiento y rendimiento de almacenamiento para actividades de actualización, o cambiar los tipos de volúmenes de EBS de gp2 a io2 a fin de mejorar el rendimiento de almacenamiento durante una reorganización de la base de datos.

 **Sugerencia 11.2.3: proteja los únicos puntos de error de SAP con clústeres de software u otros mecanismos** 

Puede utilizar una solución de clústeres de alta disponibilidad para la conmutación por error autónoma del único punto de error de SAP (servicios centrales y base de datos) en las AZ.

 Existen múltiples soluciones de agrupación en clústeres certificadas por SAP [enumeradas en el sitio web de SAP](https://wiki.scn.sap.com/wiki/display/SI/Certified+HA-Interface+Partners) . Las soluciones de agrupamiento en clústeres de SAP son compatibles con los propios proveedores de software de clústeres, no con SAP. SAP solo certifica la solución. Cualquier solución personalizada no está certificada y necesitará el respaldo del creador de la solución. 

Si elije no utilizar una solución de agrupamiento en clústeres para su único punto de error (SPOF), considere recurrir a la creación de scripts o a manuales de procedimientos para minimizar los errores asociados con los servicios de restauración.

 **Sugerencia 11.2.4: capacidad redundante o escalado automático para los componentes que la soportan** 

Evalúe los cambios de capacidad estáticos, dinámicos y programados para que coincidan con su uso. Examine los requisitos mínimos de capacidad y cómo se verían afectados por errores y mantenimiento. Efectúe un sobreaprovisionamiento cuando sea adecuado para darse el tiempo de recuperarse del error.

Si necesita mantener el 100 % de la capacidad en caso de que se produzca un error en la zona de disponibilidad, debería considerar implementar la aplicación en tres AZ, cada una con el 50 % de la capacidad total requerida.

 Además de implementar la capa del servidor de la aplicación SAP en varias AZ, podría considerar escalar soluciones como la que se describe en el siguiente artículo del blog de SAP on AWS, la cual se centra en aprovechar las capacidades de [Amazon EC2 Auto Scaling](https://aws.amazon.com/ec2/autoscaling) . 
+  Blog de SAP on AWS: [Using AWS to enable SAP Application Auto Scaling (Uso de AWS para habilitar el escalado automático de aplicaciones SAP)](https://aws.amazon.com/blogs/awsforsap/using-aws-to-enable-sap-application-auto-scaling/) 
+  Documentación de AWS: [Amazon EC2 Instance Types for SAP](https://aws.amazon.com/sap/instance-types/) 
+  Notas de SAP: [1656099 - SAP Applications on AWS: Supported DB/OS and Amazon EC2 products (Aplicaciones SAP en AWS: bases de datos, sistemas operativos y productos de Amazon EC2 compatibles)](https://launchpad.support.sap.com/#/notes/1656099) [Se necesita acceso al portal de SAP] 

 **Sugerencia 11.2.5: garantice la disponibilidad de capacidad para todos los casos de errores identificados** 

 Los siguientes son ejemplos de situaciones de error que podrían utilizarse para orientar su análisis. La granularidad, cobertura, clasificación o impacto de las situaciones variarán según sus requisitos y arquitectura. 

[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/wellarchitected/latest/sap-lens/best-practice-11-2.html)

 Puede obtener más información sobre las reservas de capacidad en [fiabilidad] [Sugerencia 10.2.5: investigue estrategias para garantizar la capacidad](best-practice-10-2.md) y en el documento técnico de AWS: [Architecture Guidance for Availability and Reliability of SAP on AWS](https://docs.aws.amazon.com/sap/latest/general/architecture-guidance-of-sap-on-aws.html) . 

 Puede consultar las instancias reservadas disponibles en su cuenta de AWS por medio de los [informes de instancias reservadas de AWS Cost Explorer](https://docs.aws.amazon.com/awsaccountbilling/latest/aboutv2/ce-default-reports.html#ce-ri-reports) . 

 **Sugerencia 11.2.6: utilice servicios de AWS que tengan disponibilidad inherente cuando corresponda** 

 Varios servicios de AWS tienen disponibilidad inherente como parte de su diseño y se ejecutan en varias AZ para lograr un alto grado de disponibilidad. Entre algunos de los servicios relevantes utilizados en el contexto de SAP, se incluyen los siguientes: 
+  Servicio de AWS: [Amazon EFS](https://docs.aws.amazon.com/efs/latest/ug/how-it-works.html) 
+  Servicio de AWS: [Elastic Load Balancing](https://docs.aws.amazon.com/elasticloadbalancing/latest/userguide/how-elastic-load-balancing-works.html) 
+  Servicio de AWS: [Route 53](https://aws.amazon.com/route53/faqs/) 
+  Servicio de AWS: [Puerta de enlace de tránsito de AWS](https://docs.aws.amazon.com/vpc/latest/tgw/how-transit-gateways-work.html) 
+  Servicio de AWS: [Amazon S3](https://aws.amazon.com/s3/) 

Además, los componentes que usan servicios sin estado, como los hosts bastión o SAPRouter, pueden recurrir a grupos de Auto Scaling para lograr una alta disponibilidad.

 **Sugerencia 11.2.7: siga las prácticas recomendadas de AWS para garantizar la conectividad de la red** 

 Evalúe una o más de las siguientes prácticas recomendadas de AWS para garantizar la resiliencia de la conectividad a través de la red a la región de AWS en uso: 
+  Documentación de AWS: [Kit de herramientas de resistencia de AWS Direct Connect](https://docs.aws.amazon.com/directconnect/latest/UserGuide/resilency_toolkit.html) 
+  Documentación de AWS: [AWS VPN CloudHub](https://docs.aws.amazon.com/whitepapers/latest/aws-vpc-connectivity-options/aws-vpn-cloudhub.html) 

 Si su solución de clúster se basa en una IP superpuesta, considere lo siguiente para habilitar el acceso desde el exterior de la VPC: 
+  Documentación de AWS: [SAP on AWS High Availability with Overlay IP Address Routing (SAP on AWS: alta disponibilidad con enrutamiento de direcciones IP superpuestas)](https://docs.aws.amazon.com/sap/latest/sap-hana/sap-ha-overlay-ip.html) 

# Práctica recomendada 11.3: defina un enfoque para restaurar la disponibilidad del servicio
<a name="best-practice-11-3"></a>

La restauración de la disponibilidad supone que, para una situación de error específica, se producirá alguna pérdida de servicio. El enfoque de restauración adoptado debe incluir examinar la cantidad de tiempo necesario para restaurar el servicio y las acciones necesarias para alcanzar el objetivo de disponibilidad.

 **Sugerencia 11.3.1: habilite la recuperación de instancias en instancias de EC2** 

 Puede crear una alarma de Amazon CloudWatch que supervise una instancia de Amazon EC2 y recupere automáticamente la instancia si se daña debido a un error de hardware subyacente. Con esta acción, se puede eliminar la necesidad de una intervención manual, pero los tiempos de inicio, reinicio de la aplicación y de carga deben tenerse en cuenta en el Objetivo de tiempo de recuperación (RTO). Si tiene la intención de utilizar una solución de clúster para protegerse contra errores de hardware, debe evaluar si la recuperación de instancias es compatible con la solución de clúster. 
+  Documentación de AWS: [Recuperación de instancias de Amazon EC2](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-instance-recover.html) 

 **Sugerencia 11.3.2: prepare una estrategia para reconstruir instancias de EC2 utilizando AMI e infraestructura como código** 

 El beneficio de la infraestructura como código es la capacidad de crear y deshacer entornos enteros mediante programación. Si su arquitectura está diseñada para la resiliencia, puede implementar un entorno en cuestión de minutos con ayuda de las [plantillas de AWS CloudFormation](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/Welcome.html) o [AWS Systems Manager Automation](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html) . La automatización es crucial para mantener una alta disponibilidad y lograr una rápida recuperación. 

 Deberá evaluar los siguientes servicios de AWS como parte de su estrategia: 
+  Servicio de AWS: [EC2 Image Builder](https://aws.amazon.com/image-builder/) 
+  Servicio de AWS: [AWS Launch Wizard para SAP](https://docs.aws.amazon.com/launchwizard/latest/userguide/launch-wizard-sap.html) 
+  Servicio de AWS: [Kit de desarrollo de la nube de AWS](https://aws.amazon.com/cdk/) 
+  Blog de SAP on AWS: [DevOps for SAP (DevOps para SAP)](https://aws.amazon.com/blogs/awsforsap/category/devops/) 

 **Sugerencia 11.3.3: comprenda los errores de Amazon EBS** 

 Que se produzcan errores en uno o más volúmenes de EBS podría afectar la disponibilidad y la durabilidad de su carga de trabajo de SAP. Por lo tanto, debe comprender las tasas de error, los mecanismos de notificación y las opciones de recuperación de Amazon EBS. 
+  Documentación de AWS: [Duración de Amazon EBS](https://aws.amazon.com/ebs/features/#Amazon_EBS_availability_and_durability) 
+  Documentación de AWS: [Monitorear el estado de los volúmenes](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/monitoring-volume-status.html) 
+  Servicio de AWS: [AWS Personal Health Dashboard](https://aws.amazon.com/premiumsupport/technology/personal-health-dashboard/) 
+  Documentación de AWS: [Recuperación de volúmenes con instantáneas de Amazon EBS](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/EBSSnapshots.html) 

 **Sugerencia 11.3.4: prepare una estrategia para reaccionar a las notificaciones de AWS Personal Health Dashboard** 

 Debe tener una estrategia para recibir notificaciones de AWS Personal Health Dashboard y actuar en función de ellas. Esto podría incluir el uso de CloudWatch para iniciar Amazon SNS o la integración con sus herramientas de ITSM a través de [la API de AWS Health](https://docs.aws.amazon.com/health/latest/ug/health-api.html) . 

 **Sugerencia 11.3.5: asegúrese de estar protegido contra eventos accidentales o maliciosos que afecten la disponibilidad** 

Debe tener en cuenta los siguientes enfoques para asegurarse de estar protegido contra eventos accidentales o maliciosos que podrían afectar la disponibilidad de su carga de trabajo de SAP.
+  Implemente un [principio de privilegio mínimo](https://docs.aws.amazon.com/IAM/latest/UserGuide/best-practices.html#grant-least-privilege) y aplique la separación de funciones dentro de AWS Identity and Access Management. 
+  Siga la guía que se detalla en el artículo del Centro de conocimientos de AWS [How do I protect my data against accidental EC2 instance termination? (¿Cómo protejo mis datos contra la terminación de una instancia de EC2?)](https://aws.amazon.com/premiumsupport/knowledge-center/accidental-termination/) 
+  Siga las [prácticas recomendadas establecidas para Amazon EC2.](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-best-practices.html) 
+  También le recomendamos seguir la guía de seguridad que se detalla en [seguridad] [Práctica recomendada 8.3: proteja sus mecanismos de recuperación de datos para resguardarse contra amenazas.](best-practice-8-3.md) 

 **Sugerencia 11.3.6: identifique dependencias adicionales a las de su carga de trabajo de SAP enAWS** 

Comprenda las dependencias subyacentes de sus procesos empresariales de SAP, incluidos los servicios compartidos y los componentes o sistemas de soporte. Entre algunos ejemplos, se incluyen Active Directory, DNS, proveedores de identidad, servicios de SaaS y sistemas locales. Evalúe el impacto del error y las mitigaciones necesarias.

# Práctica recomendada 11.4: realice pruebas periódicas de resiliencia
<a name="best-practice-11-4"></a>

Pruebe periódicamente la resiliencia en situaciones de errores críticos para demostrar que el software y los procedimientos tienen un resultado predecible. Evalúe cualquier cambio en la arquitectura, software o personal de soporte para determinar si es necesario realizar pruebas adicionales.

 **Sugerencia 11.4.1: defina las situaciones de error críticas dentro de su alcance en función de los requisitos de su empresa** 

 Debe definir qué situaciones de error críticas puede probaren función de sus requisitos empresariales. Los siguientes son ejemplos de situaciones de error que podrían servir de guía para su análisis. La granularidad, cobertura, clasificación o impacto de las situaciones variarán según sus requisitos y arquitectura. 

[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/wellarchitected/latest/sap-lens/best-practice-11-4.html)

 **Sugerencia 11.4.2: defina un conjunto de casos de prueba para simular errores críticos** 

Debería tener un conjunto completo de pruebas definidas para simular las situaciones de error críticas que afectarían su carga de trabajo de SAP.

Debe tener en cuenta que, para algunas situaciones de error, es posible que una simulación no represente completamente el error real que ocurriría. Por ejemplo, para simular un problema de hardware, no puede causar un error en una instancia de EC2, pero, en el caso de las instancias basadas en Nitro, puede generar un pánico del kernel para que la instancia se reinicie.

 Además, [AWS Fault Injection Simulation](https://aws.amazon.com/fis/) está diseñado para ayudar a simular errores dentro de sus recursos de AWS. 
+  Documentación de AWS: [Guía de configuración de alta disponibilidad para SAP HANA on AWS](https://docs.aws.amazon.com/sap/latest/sap-hana/sap-hana-on-aws-ha-configuration.html) 
+  Documentación de AWS: [Enviar una interrupción de diagnóstico](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/diagnostic-interrupt.html#diagnostic-interrupt-prereqs) 

 **Sugerencia 11.4.3: defina el comportamiento esperado para cada caso de prueba** 

Debería documentar una serie de resultados esperados que sirvan como estándares de referencia de sus pruebas.

 **Sugerencia 11.4.4: defina un enfoque para evaluar el impacto de un cambio y las pruebas posteriores requeridas** 

Debería definir un enfoque para evaluar el impacto de un cambio en su entorno y el número de pruebas que se deben realizar tras ese cambio con el fin de garantizar que no invalide su enfoque de disponibilidad y fiabilidad. Entre algunos ejemplos de cambios, se incluyen actualizaciones de software, revisiones y cambios de parámetros.

 **Sugerencia 11.4.5: defina un cronograma de pruebas** 

Asegúrese de contar con un cronograma de pruebas en el que se contemple la implementación inicial, las pruebas de los cambios y la validación periódica de su entorno.

 **Sugerencia 11.4.6: revise los resultados de las pruebas** 

Según los resultados de la prueba, identifique cualquier mejora en los casos de prueba, la configuración o la arquitectura.

 **Sugerencia 11.4.7: defina las actividades requeridas para hacer una reversión a un estado previo a la prueba** 

En cada prueba, debe definir las actividades necesarias para revertir el estado anterior a la prueba. Esto es para garantizar que cada caso de prueba esté aislado de otras pruebas y que la prueba no afecte la disponibilidad y fiabilidad de un sistema de producción.

# Práctica recomendada 11.5: automatice la reacción ante errores
<a name="best-practice-11-5"></a>

Puede minimizar el impacto en el servicio al automatizar la respuesta ante errores. Diseñe acciones automáticas para responder ante errores y situaciones de deterioro de la capacidad o pérdida de conectividad. Asegúrese de que se definan criterios de arbitraje claros para evitar falsos positivos.

 **Sugerencia 11.5.1: evalúe su automatización por riesgo de corrupción** 

Ante la presencia de componentes en los que hay riesgo de corrupción de datos, asegúrese de que su solución de alta disponibilidad (HA) tenga en cuenta el método de replicación de datos, la estabilidad de la conectividad y el conocimiento de aplicaciones, y que evite situaciones de “cerebro dividido”.

 **Sugerencia 11.5.2: evalúe los mecanismos de comprobación de estado que inician la automatización** 

Los controles de estado deben diseñarse con controles para ayudar a garantizar que las automatizaciones no se inicien como resultado de falsos positivos.