

# OPS10-BP02 Implementieren eines Prozesses für jede Warnmeldung
<a name="ops_event_response_process_per_alert"></a>

 Die Einrichtung eines klaren und definierten Prozesses für jede Warnmeldung in Ihrem System ist für ein effektives und effizientes Vorfallmanagement unerlässlich. Diese Vorgehensweise stellt sicher, dass jede Warnmeldung zu einer spezifischen, umsetzbaren Reaktion führt, wodurch die Zuverlässigkeit und Reaktionsfähigkeit Ihrer Abläufe verbessert wird. 

 **Gewünschtes Ergebnis:** Jede Warnmeldung leitet einen bestimmten, genau definierten Reaktionsplan ein. Wenn möglich, werden die Antworten automatisiert, mit klaren Zuständigkeiten und einem definierten Eskalationspfad. Warnmeldungen sind mit einer aktuellen Wissensdatenbank verknüpft, sodass jeder Bediener konsistent und effektiv reagieren kann. Die Antworten sind schnell und einheitlich, was die betriebliche Effizienz und Zuverlässigkeit erhöht. 

 **Typische Anti-Muster:** 
+  Für Warnmeldungen gibt es keinen vordefinierten Reaktionsprozess, was zu provisorischen und verzögerten Lösungen führt. 
+  Eine Überlastung mit Warnmeldungen führt dazu, dass wichtige Warnmeldungen übersehen werden. 
+  Warnmeldungen werden uneinheitlich gehandhabt, da es an klaren Zuständigkeiten und Verantwortlichkeiten mangelt. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Weniger Ermüdungserscheinungen, da nur umsetzbare Warnmeldungen ausgelöst werden. 
+  Geringere durchschnittliche Zeit bis zur Behebung (MTTR) von Betriebsproblemen. 
+  Geringere durchschnittliche Zeit bis zur Untersuchung, was zur Verringerung der MTTR beiträgt. 
+  Verbesserte Fähigkeit, operative Reaktionen zu skalieren. 
+  Verbesserte Konsistenz und Zuverlässigkeit beim Umgang mit Betriebsereignissen. 

 Sie haben beispielsweise einen definierten Prozess für AWS Health-Ereignisse für kritische Konten eingerichtet, einschließlich Anwendungsalarmen, operationaler Probleme und geplanter Lebenszyklusereignisse (z. B. die Aktualisierung von Amazon-EKS-Versionen vor der automatischen Aktualisierung von Clustern), und stellen Ihren Teams die Möglichkeit bereit, diese Ereignisse aktiv zu überwachen, zu kommunizieren und auf sie zu reagieren. Diese Maßnahmen helfen Ihnen, Serviceunterbrechungen aufgrund AWS-seitiger Änderungen zu verhindern oder diese schneller zu beheben, wenn unerwartete Probleme auftreten. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Ein Prozess pro Warnmeldung beinhaltet die Erstellung eines klaren Reaktionsplans für jede Warnmeldung, die Automatisierung von Reaktionen (soweit dies möglich ist) und die kontinuierliche Optimierung dieser Prozesse auf Grundlage des betrieblichen Feedbacks und der sich entwickelnden Anforderungen. 

### Implementierungsschritte
<a name="implementation-steps"></a>

 Das folgende Diagramm veranschaulicht den Arbeitsablauf für das Vorfallmanagement in [AWS Systems Manager Incident Manager](https://aws.amazon.com/systems-manager/features/incident-manager/). Es ist so konzipiert, dass es schnell auf betriebliche Probleme reagiert, indem es automatisch Vorfälle als Reaktion auf bestimmte Ereignisse von [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) oder [Amazon EventBridge](https://aws.amazon.com/eventbridge/) erstellt. Wenn ein Vorfall entweder automatisch oder manuell erstellt wird, zentralisiert Incident Manager die Verwaltung des Vorfalls, organisiert relevante Informationen über AWS-Ressourcen und initiiert vordefinierte Reaktionspläne. Dazu gehört das Ausführen von Systems-Manager-Automation-Runbooks für sofortige Maßnahmen sowie das Erstellen eines übergeordneten betrieblichen Arbeitselements in OpsCenter, um verwandte Aufgaben und Analysen zu verfolgen. Dieser optimierte Prozess beschleunigt und koordiniert die Reaktion auf Vorfälle in Ihrer gesamten AWS-Umgebung. 

![\[Flussdiagramm, das zeigt, wie Incident Manager funktioniert: – Amazon Q Developer in Chat-Anwendungen, Eskalationspläne und Kontakte sowie Runbooks fließen in die Reaktionspläne ein, die ihrerseits in Vorfälle und Analysen einfließen. Amazon CloudWatch fließt ebenfalls in die Reaktionspläne ein.\]](http://docs.aws.amazon.com/de_de/wellarchitected/latest/framework/images/incident-manager-how-it-works.png)


 

1.  **Verwendung zusammengesetzter Alarme:** Erstellen Sie [zusammengesetzte Alarme](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) in CloudWatch, um zusammenhängende Alarme zu gruppieren, das Rauschen zu reduzieren und sinnvollere Reaktionen zu ermöglichen. 

1.  **Bleiben Sie mit [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) auf dem Laufenden:** AWS Health ist die maßgebliche Informationsquelle für den Zustand Ihrer AWS Cloud-Ressourcen. Ermöglicht AWS Health die Visualisierung und den Erhalt von Benachrichtigungen über aktuelle Serviceereignisse und bevorstehende Änderungen, z. B. geplante Lebenszyklusereignisse. So können Sie Maßnahmen ergreifen, um die Auswirkungen zu minimieren. 

   1.  [Erstellen Sie angepasste AWS Health-Ereignisbenachrichtigungen](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) für E-Mail- und Chat-Kanäle über [AWS-Benutzerbenachrichtigungen](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) und integrieren Sie diese programmgesteuert mit [Ihren Überwachungs- und Warnungstools über Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) oder die [AWS Health-API](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Planen und verfolgen Sie den Fortschritt bei Gesundheitsereignissen, die Maßnahmen erfordern, indem Sie diese in Änderungsmanagement- oder ITSM-Tools (wie [Jira](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) oder [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)) integrieren, die Sie möglicherweise bereits über Amazon EventBridge oder die AWS Health-API verwenden. 

   1.  Wenn Sie AWS Organizations verwenden, aktivieren Sie die [Organisationsansicht für AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html), um AWS Health-Ereignisse über Konten hinweg zu aggregieren. 

1.  **Integration von Amazon-CloudWatch-Alarmen in Incident Manager:** Konfigurieren Sie CloudWatch-Alarme für die automatische Erstellung von Vorfällen in [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html). 

1.  **Integration von Amazon EventBridge in Incident Manager:** Erstellen Sie [EventBridge-Regeln](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule.html), um auf Ereignisse zu reagieren und Vorfälle mithilfe definierter Reaktionspläne zu erstellen. 

1.  **Vorbereitung auf Vorfälle in Incident Manager:** 
   +  Richten Sie in Incident Manager detaillierte [Reaktionspläne](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) für jede Art von Warnmeldung ein. 
   +  Richten Sie über [Amazon Q Developer in Chat-Anwendungen](https://docs.aws.amazon.com/incident-manager/latest/userguide/chat.html) Chat-Kanäle ein, die mit Reaktionsplänen in Incident Manager verknüpft sind und die Echtzeitkommunikation bei Vorfällen über Plattformen wie Slack, Microsoft Teams und Amazon Chime ermöglichen. 
   +  Integrieren Sie [Systems-Manager-Automation-Runbooks](https://docs.aws.amazon.com/incident-manager/latest/userguide/runbooks.html) in Incident Manager, um automatisierte Reaktionen auf Vorfälle zu ermöglichen. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS04-BP01 Identifizieren Sie die wichtigsten Leistungsindikatoren](ops_observability_identify_kpis.md) 
+  [OPS08-BP04 Erstellen umsetzbarer Warnmeldungen](ops_workload_observability_create_alerts.md) 

 **Zugehörige Dokumente:** 
+ [AWS Cloud Adoption Framework: Betriebsperspektive – Vorfall- und Problemmanagement ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+ [Verwenden von Amazon-CloudWatch-Alarmen](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)
+ [ Einrichten von AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/setting-up.html)
+ [ Preparing for incidents in Incident Manager ](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-response.html)

 **Zugehörige Videos:** 
+ [ Die besten Tipps zur Reaktion auf Vorfälle von AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [ re:Invent 2023 \$1 Manage resource lifecycle events at scale with AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA)

 **Zugehörige Beispiele:** 
+ [AWS-Workshops – AWS Systems Manager Incident Manager – Automatisierung der Reaktion auf Sicherheitsvorfälle ](https://catalog.workshops.aws/automate-incident-response/en-US/settingupim/onboarding)