

# OPS 10. Wie bewältigen Sie Workload- und operationsspezifische Ereignisse?


 Erarbeiten und prüfen Sie Verfahren für die Reaktion auf Ereignisse, um Beeinträchtigungen für Ihre Workload zu minimieren. 

**Topics**
+ [

# OPS10-BP01 Verwenden eines Prozesses für die Bewältigung von Ereignissen, Vorfällen und Problemen
](ops_event_response_event_incident_problem_process.md)
+ [

# OPS10-BP02 Implementieren eines Prozesses für jede Warnmeldung
](ops_event_response_process_per_alert.md)
+ [

# OPS10-BP03 Priorisieren von betrieblichen Ereignissen auf Basis der Auswirkung auf das Unternehmen
](ops_event_response_prioritize_events.md)
+ [

# OPS10-BP04 Definieren von Eskalationspfaden
](ops_event_response_define_escalation_paths.md)
+ [

# OPS10-BP05 Definieren eines Kundenkommunikationsplans für Ereignisse, die sich auf den Service auswirken
](ops_event_response_push_notify.md)
+ [

# OPS10-BP06 Bekanntgeben des Status über Dashboards
](ops_event_response_dashboards.md)
+ [

# OPS10-BP07 Automatisieren Sie Reaktionen auf Ereignisse
](ops_event_response_auto_event_response.md)

# OPS10-BP01 Verwenden eines Prozesses für die Bewältigung von Ereignissen, Vorfällen und Problemen
OPS10-BP01 Verwenden eines Prozesses für die Bewältigung von Ereignissen, Vorfällen und Problemen

Die Fähigkeit, Ereignisse, Vorfälle und Probleme effizient zu verwalten, ist der Schlüssel zur Aufrechterhaltung der Workload und der Leistung. Es ist wichtig, die Unterschiede zwischen diesen Elementen zu erkennen und zu verstehen, um eine effektive Reaktions- und Lösungsstrategie zu entwickeln. Die Einrichtung und Einhaltung eines klar definierten Prozesses für jeden Aspekt hilft Ihrem Team, alle auftretenden betrieblichen Herausforderungen schnell und effektiv zu bewältigen.

 **Gewünschtes Ergebnis:** Ihr Unternehmen verwaltet betriebliche Ereignisse, Vorfälle und Probleme effektiv durch gut dokumentierte und zentral gespeicherte Prozesse. Diese Prozesse werden ständig aktualisiert, um Änderungen zu berücksichtigen, die Handhabung zu optimieren und eine hohe Servicezuverlässlichkeit und Workload-Leistung aufrechtzuerhalten. 

 **Typische Anti-Muster:** 
+  Sie reagieren eher reaktiv als proaktiv auf Ereignisse. 
+  Bei verschiedenen Arten von Ereignissen oder Vorfällen werden inkonsistente Ansätze verfolgt. 
+ Ihr Unternehmen analysiert keine Vorfälle und lernt nicht aus ihnen, um zukünftige Vorfälle zu verhindern.

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  optimierte und standardisierte Reaktionsprozesse 
+  geringere Auswirkungen von Vorfällen auf Services und Kunden 
+  beschleunigte Problemlösung 
+  kontinuierliche Verbesserung der betrieblichen Abläufe 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Hoch 

## Implementierungsleitfaden
Implementierungsleitfaden

 Wenn Sie diese bewährte Methode implementieren, bedeutet dies, dass Sie Workload-Ereignisse nachverfolgen. Sie haben Prozesse für den Umgang mit Vorfällen und Problemen. Die Prozesse werden dokumentiert, geteilt und oft aktualisiert. Die Probleme werden identifiziert, priorisiert und behoben. 

 **Verstehen von Ereignissen, Vorfällen und Problemen** 
+  **Ereignisse:** Bei einem *Ereignis* handelt es sich um eine Beobachtung einer Aktion, eines Vorkommens oder einer Statusänderung. Ereignisse können geplant oder ungeplant sein und sie können intern oder extern zur Workload entstehen. 
+  **Vorfälle:** *Vorfälle* sind Ereignisse, die eine Reaktion erfordern, wie ungeplante Unterbrechungen oder Beeinträchtigungen der Servicequalität. Sie stellen Störungen dar, die sofortige Aufmerksamkeit erfordern, um den normalen Workload-Betrieb wiederherzustellen. 
+  **Probleme:** *Probleme* sind die zugrundeliegenden Ursachen für einen oder mehrere Vorfälle. Bei der Identifizierung und Lösung von Problemen geht es darum, den Vorfällen auf den Grund zu gehen, um zukünftige Vorfälle zu verhindern. 

### Implementierungsschritte
Implementierungsschritte

 **Ereignisse** 

1.  **Überwachen von Ereignissen:** 
   +  [Implementieren Sie Beobachtbarkeit](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html) und [nutzen Sie Workload-Beobachtbarkeit](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html). 
   +  Monitor-Aktionen, die von einem Benutzer, einer Rolle oder einem AWS-Service ausgeführt werden, werden als Ereignisse in [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) aufgezeichnet. 
   +  Reagieren Sie auf betriebliche Änderungen in Ihren Anwendungen in Echtzeit mit [Amazon EventBridge](https://aws.amazon.com/eventbridge/). 
   +  Bewerten, überwachen und zeichnen Sie Änderungen der Ressourcenkonfiguration mit [AWS Config](https://aws.amazon.com/config/) kontinuierlich auf. 

1.  **Erstellen von Prozessen:** 
   +  Entwickeln Sie ein Verfahren zur Bewertung, welche Ereignisse signifikant sind und überwacht werden müssen. Dies beinhaltet die Festlegung von Schwellenwerten und Parametern für normale und abnormale Aktivitäten. 
   +  Legen Sie Kriterien für die Eskalation eines Ereignisses in Bezug auf einen Vorfall fest. Dies kann auf Grundlage des Schweregrads, der Auswirkungen auf die Benutzer oder der Abweichung vom erwarteten Verhalten erfolgen. 
   +  Überprüfen Sie regelmäßig die Prozesse zur Überwachung und Reaktion auf Ereignisse. Dazu gehören die Analyse früherer Vorfälle, die Anpassung von Schwellenwerten und die Verfeinerung von Warnmechanismen. 

 **Vorfälle** 

1.  **Reaktion auf Vorfälle:** 
   +  Nutzen Sie die Erkenntnisse aus den Tools zur Beobachtbarkeit, um Vorfälle schnell zu erkennen und darauf zu reagieren. 
   +  Implementieren Sie [AWS Systems Manager Ops Center](https://aws.amazon.com/systems-manager/features/#OpsCenter), um betriebliche Aufgaben und Vorfälle zu sammeln, zu organisieren und zu priorisieren. 
   +  Nutzen Sie Services wie [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) und [AWS X-Ray](https://aws.amazon.com/xray/) für eingehendere Analysen und Problembehebungen. 
   +  Ziehen Sie [AWS Managed Services (AMS)](https://aws.amazon.com/managed-services/) für ein verbessertes Vorfallmanagement in Betracht, indem Sie die proaktiven, präventiven und detektivischen Fähigkeiten nutzen. AMS erweitert den betrieblichen Support um Services wie Überwachung, Vorfallserkennung und -reaktion sowie Sicherheitsmanagement. 
   +  Kunden von Enterprise Support können [AWS-Vorfallerkennung und -reaktion](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/) verwenden, wodurch eine kontinuierliche proaktive Überwachung und ein Vorfallmanagement für Produktions-Workloads ermöglicht wird. 

1.  **Erstellen eines Vorfallmanagementprozesses:** 
   +  Richten Sie einen strukturierten Vorfallmanagementprozess ein, der klare Rollen, Kommunikationsprotokolle und Lösungsschritte umfasst. 
   +  Integrieren Sie das Vorfallmanagement mit Tools wie [Amazon Q Developer in Chat-Anwendungen](https://aws.amazon.com/chatbot/) für eine effiziente Reaktion und Koordination. 
   +  Kategorisieren Sie Vorfälle nach Schweregrad mit vordefinierten [Vorfallreaktionsplänen](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) für jede Kategorie. 

1.  **Lernen und Verbessern:** 
   +  Führen Sie [Analysen nach Vorfällen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) aus, um die Grundursachen und die Effektivität der Lösung zu verstehen. 
   +  Aktualisieren und verbessern Sie die Reaktionspläne kontinuierlich auf Grundlage von Überprüfungen und sich entwickelnden Praktiken. 
   +  Dokumentieren Sie die gewonnenen Erkenntnisse und geben Sie sie an andere Teams weiter, um die betriebliche Widerstandsfähigkeit zu verbessern. 
   +  Kunden mit Enterprise Support können den [Workshop zum Vorfallmanagement](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) bei ihrem Technical Account Manager anfordern. Dieser angeleitete Workshop testet Ihren vorhandenen Reaktionsplan für Vorfälle und hilft Ihnen, Verbesserungsmöglichkeiten zu identifizieren. 

 **Problems (Probleme** 

1.  **Identifizieren von Problemen:** 
   +  Verwenden Sie Daten aus früheren Vorfällen, um wiederkehrende Muster zu erkennen, die auf tiefere systemische Probleme hinweisen könnten. 
   +  Nutzen Sie Tools wie [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) und [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/), um Trends zu analysieren und grundlegende Probleme aufzudecken. 
   +  Binden Sie funktionsübergreifende Teams ein, einschließlich Betriebs-, Entwicklungs- und Geschäftsbereiche, um unterschiedliche Sichtweisen auf die Grundursachen zu gewinnen. 

1.  **Erstellen eines Problemmanagementprozesses:** 
   +  Entwickeln Sie einen strukturierten Prozess für das Problemmanagement, der sich auf langfristige Lösungen statt auf schnelle Lösungen konzentriert. 
   +  Integrieren Sie Techniken zur Ursachenanalyse, um die zugrunde liegenden Ursachen von Vorfällen zu untersuchen und zu verstehen. 
   +  Aktualisieren Sie Betriebsrichtlinien, Verfahren und Infrastruktur auf Grundlage der Erkenntnisse, um Wiederholungen zu verhindern. 

1.  **Kontinuierliche Verbesserungen:** 
   +  Fördern Sie eine Kultur des ständigen Lernens und der Verbesserung und ermutigen Sie Ihre Teams, potenzielle Probleme proaktiv zu erkennen und anzugehen. 
   +  Überprüfen und überarbeiten Sie regelmäßig die Problemmanagementprozesse und -tools, um sie an die sich entwickelnde Geschäfts- und Technologielandschaft anzupassen. 
   +  Tauschen Sie Erkenntnisse und bewährte Methoden innerhalb des Unternehmens aus, um eine widerstandsfähigere und effizientere Betriebsumgebung zu schaffen. 

1.  **Einsatz von AWS Support:** 
   +  Nutzen Sie AWS-Support-Ressourcen, z. B. [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/), für proaktive Anleitungen und Optimierungsempfehlungen. 
   +  Kunden von Enterprise Support können auf spezielle Programme wie [AWS Countdown](https://aws.amazon.com/premiumsupport/aws-countdown/) zugreifen, um bei kritischen Ereignissen Unterstützung zu erhalten. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
Ressourcen

 **Zugehörige bewährte Methoden:** 
+  [OPS04-BP01 Identifizieren Sie die wichtigsten Leistungsindikatoren](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementieren Sie Anwendungstelemetrie](ops_observability_application_telemetry.md) 
+  [OPS07-BP03 Verwenden von Runbooks zur Durchführung von Verfahren](ops_ready_to_support_use_runbooks.md)
+  [OPS07-BP04 Verwenden von Playbooks zum Untersuchen von Problemen](ops_ready_to_support_use_playbooks.md) 
+  [OPS08-BP01 Analysieren Sie Workload-Metriken](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS11-BP02 Führen Sie eine Analyse nach dem Vorfall durch](ops_evolve_ops_perform_rca_process.md) 

 **Zugehörige Dokumente:** 
+  [AWS Security Incident Response Guide](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+ [AWS-Vorfallerkennung und -reaktion ](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)
+ [AWS Cloud Adoption Framework: Betriebsperspektive – Vorfall- und Problemmanagement ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+  [Vorfallmanagement im Zeitalter von DevOps und SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty – What is Incident Management?](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Zugehörige Videos:** 
+ [ Die besten Tipps zur Reaktion auf Vorfälle in AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [AWS re:Invent 2022 – Die Amazon Builders' Library: 25 Jahre operative Exzellenz von Amazon ](https://www.youtube.com/watch?v=DSRhgBd_gtw)
+ [AWS re:Invent 2022 – AWS-Vorfallerkennung und -reaktion (SUP201) ](https://www.youtube.com/watch?v=IbSgM4IP9IE)
+ [ Introducing Incident Manager from AWS Systems Manager](https://www.youtube.com/watch?v=I6lScgh4qds)

 **Zugehörige Beispiele:** 
+  [AWS Proactive Services – Workshop zum Vorfallmanagement](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+ [ Automatisierung der Vorfallbehandlung mit PagerDuty und AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/how-to-automate-incident-response-with-pagerduty-and-aws-systems-manager-incident-manager/)
+ [ Einbeziehung des Notfallteams in die Bereitschaftsdienstpläne in AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/engage-incident-responders-with-the-on-call-schedules-in-aws-systems-manager-incident-manager/)
+ [ Verbesserung der Sichtbarkeit und Zusammenarbeit bei der Bearbeitung von Vorfällen in AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/improve-the-visibility-and-collaboration-during-incident-handling-in-aws-systems-manager-incident-manager/)
+ [ Vorfallberichte und Serviceanfragen in AMS ](https://docs.aws.amazon.com/managedservices/latest/userguide/support-experience.html)

 **Zugehörige Services:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 

# OPS10-BP02 Implementieren eines Prozesses für jede Warnmeldung
OPS10-BP02 Implementieren eines Prozesses für jede Warnmeldung

 Die Einrichtung eines klaren und definierten Prozesses für jede Warnmeldung in Ihrem System ist für ein effektives und effizientes Vorfallmanagement unerlässlich. Diese Vorgehensweise stellt sicher, dass jede Warnmeldung zu einer spezifischen, umsetzbaren Reaktion führt, wodurch die Zuverlässigkeit und Reaktionsfähigkeit Ihrer Abläufe verbessert wird. 

 **Gewünschtes Ergebnis:** Jede Warnmeldung leitet einen bestimmten, genau definierten Reaktionsplan ein. Wenn möglich, werden die Antworten automatisiert, mit klaren Zuständigkeiten und einem definierten Eskalationspfad. Warnmeldungen sind mit einer aktuellen Wissensdatenbank verknüpft, sodass jeder Bediener konsistent und effektiv reagieren kann. Die Antworten sind schnell und einheitlich, was die betriebliche Effizienz und Zuverlässigkeit erhöht. 

 **Typische Anti-Muster:** 
+  Für Warnmeldungen gibt es keinen vordefinierten Reaktionsprozess, was zu provisorischen und verzögerten Lösungen führt. 
+  Eine Überlastung mit Warnmeldungen führt dazu, dass wichtige Warnmeldungen übersehen werden. 
+  Warnmeldungen werden uneinheitlich gehandhabt, da es an klaren Zuständigkeiten und Verantwortlichkeiten mangelt. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Weniger Ermüdungserscheinungen, da nur umsetzbare Warnmeldungen ausgelöst werden. 
+  Geringere durchschnittliche Zeit bis zur Behebung (MTTR) von Betriebsproblemen. 
+  Geringere durchschnittliche Zeit bis zur Untersuchung, was zur Verringerung der MTTR beiträgt. 
+  Verbesserte Fähigkeit, operative Reaktionen zu skalieren. 
+  Verbesserte Konsistenz und Zuverlässigkeit beim Umgang mit Betriebsereignissen. 

 Sie haben beispielsweise einen definierten Prozess für AWS Health-Ereignisse für kritische Konten eingerichtet, einschließlich Anwendungsalarmen, operationaler Probleme und geplanter Lebenszyklusereignisse (z. B. die Aktualisierung von Amazon-EKS-Versionen vor der automatischen Aktualisierung von Clustern), und stellen Ihren Teams die Möglichkeit bereit, diese Ereignisse aktiv zu überwachen, zu kommunizieren und auf sie zu reagieren. Diese Maßnahmen helfen Ihnen, Serviceunterbrechungen aufgrund AWS-seitiger Änderungen zu verhindern oder diese schneller zu beheben, wenn unerwartete Probleme auftreten. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
Implementierungsleitfaden

 Ein Prozess pro Warnmeldung beinhaltet die Erstellung eines klaren Reaktionsplans für jede Warnmeldung, die Automatisierung von Reaktionen (soweit dies möglich ist) und die kontinuierliche Optimierung dieser Prozesse auf Grundlage des betrieblichen Feedbacks und der sich entwickelnden Anforderungen. 

### Implementierungsschritte
Implementierungsschritte

 Das folgende Diagramm veranschaulicht den Arbeitsablauf für das Vorfallmanagement in [AWS Systems Manager Incident Manager](https://aws.amazon.com/systems-manager/features/incident-manager/). Es ist so konzipiert, dass es schnell auf betriebliche Probleme reagiert, indem es automatisch Vorfälle als Reaktion auf bestimmte Ereignisse von [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) oder [Amazon EventBridge](https://aws.amazon.com/eventbridge/) erstellt. Wenn ein Vorfall entweder automatisch oder manuell erstellt wird, zentralisiert Incident Manager die Verwaltung des Vorfalls, organisiert relevante Informationen über AWS-Ressourcen und initiiert vordefinierte Reaktionspläne. Dazu gehört das Ausführen von Systems-Manager-Automation-Runbooks für sofortige Maßnahmen sowie das Erstellen eines übergeordneten betrieblichen Arbeitselements in OpsCenter, um verwandte Aufgaben und Analysen zu verfolgen. Dieser optimierte Prozess beschleunigt und koordiniert die Reaktion auf Vorfälle in Ihrer gesamten AWS-Umgebung. 

![\[Flussdiagramm, das zeigt, wie Incident Manager funktioniert: – Amazon Q Developer in Chat-Anwendungen, Eskalationspläne und Kontakte sowie Runbooks fließen in die Reaktionspläne ein, die ihrerseits in Vorfälle und Analysen einfließen. Amazon CloudWatch fließt ebenfalls in die Reaktionspläne ein.\]](http://docs.aws.amazon.com/de_de/wellarchitected/latest/framework/images/incident-manager-how-it-works.png)


 

1.  **Verwendung zusammengesetzter Alarme:** Erstellen Sie [zusammengesetzte Alarme](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) in CloudWatch, um zusammenhängende Alarme zu gruppieren, das Rauschen zu reduzieren und sinnvollere Reaktionen zu ermöglichen. 

1.  **Bleiben Sie mit [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) auf dem Laufenden:** AWS Health ist die maßgebliche Informationsquelle für den Zustand Ihrer AWS Cloud-Ressourcen. Ermöglicht AWS Health die Visualisierung und den Erhalt von Benachrichtigungen über aktuelle Serviceereignisse und bevorstehende Änderungen, z. B. geplante Lebenszyklusereignisse. So können Sie Maßnahmen ergreifen, um die Auswirkungen zu minimieren. 

   1.  [Erstellen Sie angepasste AWS Health-Ereignisbenachrichtigungen](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) für E-Mail- und Chat-Kanäle über [AWS-Benutzerbenachrichtigungen](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) und integrieren Sie diese programmgesteuert mit [Ihren Überwachungs- und Warnungstools über Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) oder die [AWS Health-API](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Planen und verfolgen Sie den Fortschritt bei Gesundheitsereignissen, die Maßnahmen erfordern, indem Sie diese in Änderungsmanagement- oder ITSM-Tools (wie [Jira](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) oder [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)) integrieren, die Sie möglicherweise bereits über Amazon EventBridge oder die AWS Health-API verwenden. 

   1.  Wenn Sie AWS Organizations verwenden, aktivieren Sie die [Organisationsansicht für AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html), um AWS Health-Ereignisse über Konten hinweg zu aggregieren. 

1.  **Integration von Amazon-CloudWatch-Alarmen in Incident Manager:** Konfigurieren Sie CloudWatch-Alarme für die automatische Erstellung von Vorfällen in [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html). 

1.  **Integration von Amazon EventBridge in Incident Manager:** Erstellen Sie [EventBridge-Regeln](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule.html), um auf Ereignisse zu reagieren und Vorfälle mithilfe definierter Reaktionspläne zu erstellen. 

1.  **Vorbereitung auf Vorfälle in Incident Manager:** 
   +  Richten Sie in Incident Manager detaillierte [Reaktionspläne](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) für jede Art von Warnmeldung ein. 
   +  Richten Sie über [Amazon Q Developer in Chat-Anwendungen](https://docs.aws.amazon.com/incident-manager/latest/userguide/chat.html) Chat-Kanäle ein, die mit Reaktionsplänen in Incident Manager verknüpft sind und die Echtzeitkommunikation bei Vorfällen über Plattformen wie Slack, Microsoft Teams und Amazon Chime ermöglichen. 
   +  Integrieren Sie [Systems-Manager-Automation-Runbooks](https://docs.aws.amazon.com/incident-manager/latest/userguide/runbooks.html) in Incident Manager, um automatisierte Reaktionen auf Vorfälle zu ermöglichen. 

## Ressourcen
Ressourcen

 **Zugehörige bewährte Methoden:** 
+  [OPS04-BP01 Identifizieren Sie die wichtigsten Leistungsindikatoren](ops_observability_identify_kpis.md) 
+  [OPS08-BP04 Erstellen umsetzbarer Warnmeldungen](ops_workload_observability_create_alerts.md) 

 **Zugehörige Dokumente:** 
+ [AWS Cloud Adoption Framework: Betriebsperspektive – Vorfall- und Problemmanagement ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+ [Verwenden von Amazon-CloudWatch-Alarmen](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)
+ [ Einrichten von AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/setting-up.html)
+ [ Preparing for incidents in Incident Manager ](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-response.html)

 **Zugehörige Videos:** 
+ [ Die besten Tipps zur Reaktion auf Vorfälle von AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [ re:Invent 2023 \$1 Manage resource lifecycle events at scale with AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA)

 **Zugehörige Beispiele:** 
+ [AWS-Workshops – AWS Systems Manager Incident Manager – Automatisierung der Reaktion auf Sicherheitsvorfälle ](https://catalog.workshops.aws/automate-incident-response/en-US/settingupim/onboarding)

# OPS10-BP03 Priorisieren von betrieblichen Ereignissen auf Basis der Auswirkung auf das Unternehmen
OPS10-BP03 Priorisieren von betrieblichen Ereignissen auf Basis der Auswirkung auf das Unternehmen

 Eine schnelle Reaktion auf Betriebsereignisse ist von entscheidender Bedeutung, aber nicht alle Ereignisse sind gleich. Wenn Sie Ihre Prioritäten auf Grundlage der geschäftlichen Auswirkungen festlegen, müssen Sie sich auch vorrangig mit Ereignissen befassen, die erhebliche Folgen haben könnten, wie z. B. Sicherheit, finanzielle Verluste, Verstöße gegen Vorschriften oder Rufschädigung. 

 **Gewünschtes Ergebnis:** Die Reaktionen auf betriebliche Ereignisse werden auf Grundlage der potenziellen Auswirkungen auf die Geschäftsabläufe und -ziele priorisiert. Dadurch werden die Reaktionen effizient und effektiv. 

 **Typische Anti-Muster:** 
+  Jedes Ereignis wird mit der gleichen Dringlichkeit behandelt, was zu Verwirrung und Verzögerungen bei der Behandlung kritischer Probleme führt. 
+  Sie unterscheiden nicht zwischen Ereignissen mit hoher und geringer Auswirkung, was zu einer Fehlallokation von Ressourcen führt. 
+  Ihrem Unternehmen fehlt ein klarer Rahmen für die Priorisierung, was zu inkonsistenten Reaktionen auf Betriebsereignisse führt. 
+  Ereignisse werden in der Reihenfolge ihrer Meldung priorisiert und nicht nach ihrer Auswirkung auf die Geschäftsergebnisse. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Stellt sicher, dass wichtige Geschäftsfunktionen zuerst berücksichtigt werden, um mögliche Schäden zu minimieren. 
+  Verbessert die Ressourcenzuweisung bei mehreren gleichzeitigen Ereignissen. 
+  Verbessert die Fähigkeit der Organisation, das Vertrauen zu erhalten und die gesetzlichen Anforderungen zu erfüllen. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Hoch 

## Implementierungsleitfaden
Implementierungsleitfaden

 Wenn Sie mit mehreren betrieblichen Ereignissen konfrontiert sind, ist ein strukturierter Ansatz zur Priorisierung auf Grundlage von Auswirkungen und Dringlichkeit unerlässlich. Dieser Ansatz hilft Ihnen, fundierte Entscheidungen zu treffen, Ihre Maßnahmen auf die Bereiche zu lenken, wo sie am dringendsten benötigt werden, und das Risiko für die Geschäftskontinuität zu mindern. 

### Implementierungsschritte
Implementierungsschritte

1.  **Bewertung von Auswirkungen:** Entwickeln Sie ein Klassifizierungssystem, um den Schweregrad von Ereignissen im Hinblick auf ihre potenziellen Auswirkungen auf den Geschäftsbetrieb und die Ziele zu bewerten. Das folgende Beispiel zeigt die Wirkungskategorien:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Bewertung der Dringlichkeit:** Definieren Sie Dringlichkeitsstufen danach, wie schnell auf ein Ereignis reagiert werden muss, und berücksichtigen Sie dabei Faktoren wie Sicherheit, finanzielle Auswirkungen und Service Level Agreements (SLAs). Das folgende Beispiel zeigt die Dringlichkeitskategorien:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Erstellen einer Priorisierungsmatrix:** 
   +  Verwenden Sie eine Matrix, um Auswirkungen und Dringlichkeit miteinander zu vergleichen, und weisen Sie verschiedenen Kombinationen Prioritätsstufen zu. 
   +  Machen Sie die Matrix allen Teammitgliedern, die für die Reaktion auf betriebliche Ereignisse verantwortlich sind, zugänglich und verständlich. 
   +  Die folgende Beispielmatrix zeigt den Schweregrad eines Vorfalls nach Dringlichkeit und Auswirkung an:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Trainieren und Kommunizieren:** Schulen Sie die Response-Teams im Umgang mit der Prioritätenmatrix und der Wichtigkeit, diese während eines Ereignisses zu befolgen. Kommunizieren Sie den Priorisierungsprozess an alle Stakeholder, um klare Erwartungen zu schaffen. 

1.  **Integration der Vorfallreaktion:** 
   +  Integrieren Sie die Priorisierungsmatrix in Ihre Pläne und Tools zur Reaktion auf Vorfälle. 
   +  Automatisieren Sie nach Möglichkeit die Klassifizierung und Priorisierung von Ereignissen, um die Reaktionszeiten zu verkürzen. 
   +  Kunden von Enterprise Support können [AWS-Vorfallerkennung und -reaktion](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/) nutzen, wodurch eine proaktive Überwachung rund um die Uhr und ein Vorfallmanagement für Produktions-Workloads ermöglicht wird. 

1.  **Überprüfen und Anpassen:** Überprüfen Sie regelmäßig die Effektivität des Priorisierungsprozesses und nehmen Sie Anpassungen auf der Grundlage von Rückmeldungen und Änderungen im Geschäftsumfeld vor. 

## Ressourcen
Ressourcen

 **Zugehörige bewährte Methoden:** 
+  [OPS03-BP03 Eskalation wird gefördert](ops_org_culture_team_enc_escalation.md) 
+  [OPS08-BP04 Erstellen umsetzbarer Warnmeldungen](ops_workload_observability_create_alerts.md) 
+  [OPS09-BP01 Messen operativer Ziele und KPIs mit Metriken](ops_operations_health_measure_ops_goals_kpis.md) 

 **Zugehörige Dokumente:** 
+ [ Atlassian – Verständnis der Schweregrade von Vorfällen ](https://www.atlassian.com/incident-management/kpis/severity-levels)
+ [ IT-Prozessplan – Checkliste der Vorfallpriorität ](https://wiki.en.it-processmaps.com/index.php/Checklist_Incident_Priority)

# OPS10-BP04 Definieren von Eskalationspfaden
OPS10-BP04 Definieren von Eskalationspfaden

Legen Sie in Ihren Protokollen zur Vorfallreaktion klare Eskalationspfade fest, um rechtzeitige und effektive Maßnahmen zu ermöglichen. Dazu gehören die Festlegung von Aufforderungen zur Eskalation, die detaillierte Beschreibung des Eskalationsprozesses und die vorherige Genehmigung von Maßnahmen, um die Entscheidungsfindung zu beschleunigen und die durchschnittliche Zeit für die Behebung zu verkürzen.

 **Gewünschtes Ergebnis:** Ein strukturierter und effizienter Prozess, der Vorfälle an das entsprechende Personal weiterleitet und so die Reaktionszeiten und Auswirkungen minimiert. 

 **Typische Anti-Muster:** 
+ Mangelnde Klarheit über die Wiederherstellungsverfahren führt zu provisorischen Maßnahmen bei kritischen Vorfällen.
+ Das Fehlen von definierten Berechtigungen und Zuständigkeiten führt zu Verzögerungen, wenn dringende Maßnahmen erforderlich sind.
+  Stakeholder und Kunden werden nicht erwartungsgemäß informiert. 
+  Wichtige Entscheidungen verzögern sich. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Optimierte Reaktion auf Vorfälle durch vordefinierte Eskalationsverfahren. 
+  Reduzierte Ausfallzeiten durch vorab genehmigte Maßnahmen und klare Zuständigkeiten. 
+  Verbesserte Ressourcenzuweisung und Anpassung der Support-Ebene an den Schweregrad des Vorfalls. 
+  Verbesserte Kommunikation mit Stakeholdern und Kunden. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
Implementierungsleitfaden

 Richtig definierte Eskalationspfade sind entscheidend für eine schnelle Reaktion auf Vorfälle. AWS Systems Manager Incident Manager unterstützt die Einrichtung strukturierter Eskalations- und Bereitschaftspläne, die die richtigen Mitarbeiter alarmieren, damit sie bei Vorfällen handlungsbereit sind. 

### Implementierungsschritte
Implementierungsschritte

1.  **Einrichtung von Eskalationsaufforderungen:** Richten Sie [CloudWatch-Alarme](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) ein, um einen Vorfall in [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com//incident-manager/latest/userguide/incident-creation.html) zu erstellen. 

1.  ** Erstellen von Bereitschaftsplänen:** Erstellen Sie [Bereitschaftspläne](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule-create.html) in Incident Manager, die auf Ihre Eskalationspfade abgestimmt sind. Statten Sie das Bereitschaftspersonal mit den erforderlichen Berechtigungen und Tools aus, um schnell handeln zu können. 

1.  ** Detaillierte Eskalationsverfahren: ** 
   +  Legen Sie bestimmte Bedingungen fest, unter denen ein Vorfall eskaliert werden sollte. 
   +  Erstellen Sie [Eskalationspläne](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html) in Incident Manager. 
   +  Eskalationskanäle sollten aus einem Ansprechpartner oder einem Bereitschaftsplan bestehen. 
   +  Definieren Sie die Rollen und Verantwortlichkeiten des Teams auf jeder Eskalationsstufe. 

1.  **Genehmigung von Schadensbegrenzungsmaßnahmen im Voraus:** Arbeiten Sie mit Entscheidungsträgern zusammen, um Maßnahmen für erwartete Szenarien vorab zu genehmigen. Verwenden Sie die in Incident Manager integrierten [Systems-Manager-Automation-Runbooks](https://docs.aws.amazon.com//incident-manager/latest/userguide/tutorials-runbooks.html), um die Behebung von Vorfällen zu beschleunigen. 

1.  **Angabe der Zuständigkeit:** Identifizieren Sie eindeutig die internen Besitzer für jeden Schritt des Eskalationspfads. 

1.  **Details zu Eskalationen mit Drittanbietern:** 
   +  Dokumentieren Sie Service Level Agreements (SLAs) von Drittanbietern und richten Sie sie an internen Zielen aus. 
   +  Legen Sie klare Protokolle für die Lieferantenkommunikation bei Vorfällen fest. 
   +  Integrieren Sie Lieferantenkontakte in die Tools zum Vorfallmanagement, um direkten Zugriff zu erhalten. 
   +  Führen Sie regelmäßige Übungen durch, die Reaktionsszenarien von Drittanbietern beinhalten. 
   +  Sorgen Sie dafür, dass die Informationen zur Lieferanteneskalation gut dokumentiert und leicht zugänglich sind. 

1.  **Trainieren und Testen von Eskalationsplänen:** Schulen Sie Ihr Team im Eskalationsprozess und führen Sie regelmäßig Übungen zur Reaktion auf Vorfälle oder den Ernstfall durch. Kunden mit Enterprise Support können einen [Workshop zum Vorfallmanagement](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/) anfordern. 

1.  **Weitere Verbesserung:** Überprüfen Sie regelmäßig die Wirksamkeit Ihrer Eskalationspfade. Aktualisieren Sie Ihre Prozesse auf Grundlage der Erkenntnisse aus den Nachuntersuchungen von Vorfällen und dem kontinuierlichen Feedback. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
Ressourcen

 **Zugehörige bewährte Methoden:** 
+  [OPS08-BP04 Erstellen umsetzbarer Warnmeldungen](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Implementieren eines Prozesses für jede Warnmeldung](ops_event_response_process_per_alert.md) 
+  [OPS11-BP02 Führen Sie eine Analyse nach dem Vorfall durch](ops_evolve_ops_perform_rca_process.md) 

 **Zugehörige Dokumente:** 
+ [AWS Systems Manager Incident Manager-Eskalationspläne ](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html)
+ [ Working with on-call schedules in Incident Manager ](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule.html)
+ [ Erstellen und Verwalten von Runbooks ](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html)
+ [ Temporäre erweiterte Zugriffsverwaltung mit AWS IAM Identity Center](https://aws.amazon.com/blogs/security/temporary-elevated-access-management-with-iam-identity-center/)
+ [ Atlassian – Eskalationsrichtlinien für effektives Vorfallmanagement ](https://www.atlassian.com/incident-management/on-call/escalation-policies)

# OPS10-BP05 Definieren eines Kundenkommunikationsplans für Ereignisse, die sich auf den Service auswirken
OPS10-BP05 Definieren eines Kundenkommunikationsplans für Ereignisse, die sich auf den Service auswirken

 Eine effektive Kommunikation bei Ereignissen, die sich auf den Service auswirken, ist entscheidend, um das Vertrauen und die Transparenz gegenüber den Kunden aufrechtzuerhalten. Ein klar definierter Kommunikationsplan hilft Ihrem Unternehmen, bei Vorfällen schnell und klar Informationen sowohl intern als auch extern auszutauschen. 

 **Gewünschtes Ergebnis:** 
+  Ein robuster Kommunikationsplan, der Kunden und Stakeholder bei Ereignissen, die sich auf den Service auswirken, effektiv informiert. 
+  Transparenz in der Kommunikation, um Vertrauen aufzubauen und Ängste der Kunden abzubauen. 
+  Minimierung der Auswirkungen von Ereignissen, die sich auf den Service in Bezug auf das Kundenerlebnis und den Geschäftsbetrieb auswirken. 

 **Typische Anti-Muster:** 
+  Eine unzureichende oder verzögerte Kommunikation führt zu Verwirrung und Unzufriedenheit der Kunden. 
+  Allzu technische oder vage Nachrichten vermitteln nicht die tatsächlichen Auswirkungen auf die Benutzer. 
+  Es gibt keine vordefinierte Kommunikationsstrategie, was zu inkonsistenten und reaktiven Nachrichten führt. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Mehr Vertrauen und Zufriedenheit bei den Kunden durch proaktive und klare Kommunikation. 
+  Entlastung der Support-Teams durch präventive Behandlung von Kundenanliegen. 
+  Verbesserte Fähigkeit, Vorfälle effektiv zu verwalten und zu bewältigen. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
Implementierungsleitfaden

 Die Erstellung eines umfassenden Kommunikationsplans für Ereignisse, die sich auf den Service auswirken, umfasst mehrere Facetten, von der Auswahl der richtigen Kanäle bis hin zur Formulierung der Botschaft und des Tonfalls. Der Plan sollte anpassungsfähig und skalierbar sein und verschiedene Ausfallszenarien berücksichtigen. 

### Implementierungsschritte
Implementierungsschritte

1.  **Definieren von Rollen und Zuständigkeiten:** 
   +  Beauftragen Sie einen Hauptzuständigen für die Vorfallreaktion mit der Überwachung der Maßnahmen. 
   +  Benennen Sie einen Kommunikationsmanager, der für die Koordination der gesamten externen und internen Kommunikation verantwortlich ist. 
   +  Beziehen Sie den Support-Manager ein, um eine konsistente Kommunikation über Support-Tickets zu gewährleisten. 

1.  **Identifizieren von Kommunikationskanälen:** Wählen Sie Kanäle wie Arbeitsplatz-Chat, E-Mail, SMS, soziale Medien, In-App-Benachrichtigungen und Statusseiten aus. Diese Kanäle sollten robust und in der Lage sein, bei Ereignissen, die den Service beeinträchtigen, unabhängig zu arbeiten. 

1.  ** Schnelle, klare und regelmäßige Kommunikation mit Kunden: ** 
   +  Entwickeln Sie Vorlagen für verschiedene Szenarien, bei denen Beeinträchtigungen des Serviceangebots vorliegen, und achten Sie dabei auf Einfachheit und wichtige Details. Fügen Sie Informationen über die Beeinträchtigung des Services, die erwartete Lösungszeit und die Auswirkungen hinzu. 
   +  Verwenden Sie Amazon Pinpoint, um Kunden mithilfe von Push-Benachrichtigungen, In-App-Benachrichtigungen, E-Mails, Textnachrichten, Sprachnachrichten und Nachrichten über benutzerdefinierte Kanäle zu informieren. 
   +  Verwenden Sie Amazon Simple Notiﬁcation Service (Amazon SNS), um Subscriber programmgesteuert oder per E-Mail, mobilen Push-Benachrichtigungen und Textnachrichten zu benachrichtigen. 
   +  Kommunizieren Sie den Status über Dashboards, indem Sie ein Amazon-CloudWatch-Dashboard öffentlich teilen. 
   +  Förderung des Engagements in den sozialen Medien: 
     +  Verfolgen Sie aktiv die sozialen Medien, um die Stimmung der Kunden zu verstehen. 
     +  Posten Sie auf Social-Media-Plattformen, um die Öffentlichkeit auf dem Laufenden zu halten und die Community einzubeziehen. 
     +  Bereiten Sie Vorlagen für eine konsistente und klare Kommunikation in sozialen Medien vor. 

1.  **Koordination der internen Kommunikation:** Implementieren Sie interne Protokolle mithilfe von Tools wie Amazon Q Developer in Chat-Anwendungen für die Teamkoordination und Kommunikation. Verwenden Sie CloudWatch-Dashboards, um den Status zu kommunizieren. 

1.  ** Orchestrierung der Kommunikation mit speziellen Tools und Services: ** 
   +  Verwenden Sie AWS Systems Manager Incident Manager mit Amazon Q Developer in Chat-Anwendungen, um spezielle Chat-Kanäle für die interne Kommunikation und Koordination in Echtzeit bei Vorfällen einzurichten. 
   +  Verwenden Sie AWS Systems Manager Incident Manager-Runbooks, um Kundenbenachrichtigungen über Amazon Pinpoint, Amazon SNS oder Tools von Drittanbietern wie Social-Media-Plattformen bei Vorfällen zu automatisieren. 
   +  Integrieren Sie Genehmigungs-Workflows in Runbooks, um optional die gesamte externe Kommunikation vor dem Versand zu überprüfen und zu autorisieren. 

1.  ** Praktizieren und verbessern: ** 
   +  Führen Sie Trainingkurse zum Einsatz von Kommunikationsmitteln und -strategien durch. Ermöglichen Sie es Teams, bei Vorfällen rechtzeitig Entscheidungen zu treffen. 
   +  Testen Sie den Kommunikationsplan durch regelmäßige Übungen oder Ernstfallübungen. Mithilfe dieser Tests können Sie Ihre Botschaften präzisieren und die Effektivität der Kanäle bewerten. 
   +  Implementieren Sie Feedback-Mechanismen, um die Effektivität der Kommunikation bei Vorfällen zu bewerten. Entwickeln Sie den Kommunikationsplan auf Grundlage des Feedbacks und der sich ändernden Bedürfnisse kontinuierlich weiter. 

 **Aufwand für den Implementierungsplan:** Hoch 

## Ressourcen
Ressourcen

 **Zugehörige bewährte Methoden:** 
+  [OPS07-BP03 Verwenden von Runbooks zur Durchführung von Verfahren](ops_ready_to_support_use_runbooks.md) 
+  [OPS10-BP06 Bekanntgeben des Status über Dashboards](ops_event_response_dashboards.md) 
+  [OPS11-BP02 Führen Sie eine Analyse nach dem Vorfall durch](ops_evolve_ops_perform_rca_process.md) 

 **Zugehörige Dokumente:** 
+ [ Atlassian – Bewährte Methoden der Kommunikation bei Vorfällen ](https://www.atlassian.com/incident-management/incident-communication)
+ [ Atlassian – Verfassen eines guten Status-Updates ](https://www.atlassian.com/blog/statuspage/how-to-write-a-good-status-update)
+ [ PagerDuty – Leitfaden für die Kommunikation bei Vorfällen ](https://www.pagerduty.com/resources/learn/a-guide-to-incident-communications/)

 **Zugehörige Videos:** 
+ [ Atlassian – Erstellung eines eigenen Kommunikationsplans für Vorfälle: Vorlagen für Zwischenfälle ](https://www.youtube.com/watch?v=ZROVn6-K2qU)

 **Zugehörige Beispiele:** 
+  [AWS Health-Dashboard ](https://aws.amazon.com/premiumsupport/technology/aws-health-dashboard/) 

# OPS10-BP06 Bekanntgeben des Status über Dashboards
OPS10-BP06 Bekanntgeben des Status über Dashboards

 Verwenden Sie Dashboards als strategisches Werkzeug, um den Betriebsstatus und wichtige Metriken in Echtzeit an verschiedene Zielgruppen zu vermitteln, darunter interne technische Teams, Führungskräfte und Kunden. Diese Dashboards bieten eine zentrale, visuelle Darstellung des Systemzustands und der Geschäftsleistung und erhöhen so die Transparenz und die Effizienz der Entscheidungsfindung. 

 **Gewünschtes Ergebnis:** 
+  Ihre Dashboards bieten einen umfassenden Überblick über das System und die Geschäftskennzahlen, die für verschiedene Stakeholder relevant sind. 
+  Stakeholder können proaktiv auf Betriebsinformationen zugreifen, sodass keine häufigen Statusanfragen mehr erforderlich sind. 
+  Die Entscheidungsfindung in Echtzeit wird während des normalen Betriebs und bei Vorfällen verbessert. 

 **Typische Anti-Muster:** 
+ Techniker, die an einem Vorfallmanagementgespräch teilnehmen, benötigen Statusaktualisierungen, um sich auf dem Laufenden zu halten.
+ Sie verlassen sich auf die manuelle Berichterstattung für das Management, was zu Verzögerungen und möglichen Ungenauigkeiten führt.
+  Die Arbeit der Operations-Teams wird bei Vorfällen häufig für Statusaktualisierungen unterbrochen. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Ermöglicht Stakeholdern den sofortigen Zugriff auf wichtige Informationen und fördert so fundierte Entscheidungen. 
+  Reduziert betriebliche Ineffizienzen, indem manuelle Berichte und häufige Statusabfragen minimiert werden. 
+  Erhöht die Transparenz und das Vertrauen durch Echtzeiteinblicke in die Systemleistung und Geschäftskennzahlen. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
Implementierungsleitfaden

 Dashboards vermitteln effektiv den Status Ihres Systems und Ihrer Geschäftskennzahlen und können an die Anforderungen verschiedener Zielgruppen angepasst werden. Mit Tools wie Amazon-CloudWatch-Dashboards und Amazon Quick können Sie interaktive Echtzeit-Dashboards für die Systemüberwachung und Business Intelligence erstellen. 

### Implementierungsschritte
Implementierungsschritte

1.  **Ermittlung der Bedürfnisse der Stakeholder:** Ermitteln Sie den spezifischen Informationsbedarf verschiedener Zielgruppen, z. B. technische Teams, Führungskräfte und Kunden. 

1.  **Auswahl der richtigen Tools:** Wählen Sie geeignete Tools wie [Amazon CloudWatch-Dashboards](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) für die Systemüberwachung und [Amazon Quick](https://aws.amazon.com/quicksight/) für interaktive Business Intelligence aus. [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) stellt eine sofort einsatzbereite Erfahrung in der [AWS Health Dashboard](https://health.aws.amazon.com/health/home) bereit. Sie können auch Integritätsereignisse in Amazon EventBridge oder über die AWS Health-API verwenden, um Ihre eigenen Dashboards zu erweitern. 

1.  **Entwicklung effektiver Dashboards:** 
   +  Entwickeln Sie Dashboards, um relevante Metriken und KPIs übersichtlich darzustellen und sicherzustellen, dass sie verständlich und umsetzbar sind. 
   +  Integrieren Sie bei Bedarf Ansichten auf System- und Unternehmensebene. 
   +  Inkludieren Sie sowohl Dashboards auf hoher Ebene (für umfassende Übersichten) als auch auf niedriger Ebene (für detaillierte Analysen). 
   +  Integrieren Sie automatische Alarme in Dashboards, um kritische Probleme hervorzuheben. 
   +  Kommentieren Sie Dashboards mit wichtigen Schwellenwerten und Zielen für Metriken für sofortige Sichtbarkeit. 

1.  **Integration von Datenquellen:** 
   +  Verwenden Sie [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/), um Metriken aus verschiedenen AWS-Services zu aggregieren und anzuzeigen und [Metriken aus anderen Datenquellen abzufragen](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html). So erhalten Sie eine einheitliche Ansicht der Integritäts- und Geschäftskennzahlen Ihres Systems. 
   +  Verwenden Sie Features wie [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html), um Protokolldaten aus verschiedenen Anwendungen und Services abzufragen und zu visualisieren. 
   +  Verwenden Sie AWS Health-Ereignisse, um über den operativen Status und bestätigte operative Probleme in AWS-Services über die [AWS Health-API](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html) oder über [AWS Health-Ereignisse in Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) informiert zu bleiben. 

1.  **Bereitstellung von Selfservice-Zugriff:** 
   +  Teilen Sie CloudWatch-Dashboards mit relevanten Stakeholdern für den Selfservicezugriff auf Informationen mithilfe von [Dashboard-Freigabe-Features](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html). 
   +  Stellen Sie sicher, dass Dashboards leicht zugänglich sind und aktuelle Informationen in Echtzeit bereitstellen. 

1.  **Regelmäßige Aktualisierungen und Verbesserungen:** 
   +  Aktualisieren und verbessern Sie die Dashboards kontinuierlich, um sie an die sich entwickelnden Geschäftsanforderungen und das Feedback der Stakeholder anzupassen. 
   +  Überprüfen Sie die Dashboards regelmäßig, um sicherzustellen, dass sie relevant und effektiv sind, um die erforderlichen Informationen zu vermitteln. 

## Ressourcen
Ressourcen

 **Zugehörige bewährte Methoden:** 
+  [OPS08-BP05 Erstellen von Dashboards](ops_workload_observability_create_dashboards.md) 

 **Zugehörige Dokumente:** 
+ [ Erstellung von Dashboards für operative Sichtbarkeit ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Amazon-CloudWatch-Dashboards verwenden ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html)
+ [ Flexible Dashboards mit Dashboard-Variablen erstellen ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html)
+ [ CloudWatch-Dashboards freigeben ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html)
+ [ Metriken aus anderen Datenquellen abfragen ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html)
+ [ Hinzufügen eines benutzerdefinierten Widgets zu einem CloudWatch-Dashboard ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html)

 **Zugehörige Beispiele:** 
+ [ Workshop zur Beobachtbarkeit – Dashboards ](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US/aws-native/dashboards)

# OPS10-BP07 Automatisieren Sie Reaktionen auf Ereignisse
OPS10-BP07 Automatisieren Sie Reaktionen auf Ereignisse

 Die Automatisierung von Reaktionen auf Ereignisse ist der Schlüssel für eine schnelle, konsistente und fehlerfreie operative Abwicklung. Erstellen Sie optimierte Prozesse und verwenden Sie Tools, um Ereignisse automatisch zu verwalten und darauf zu reagieren, um manuelle Eingriffe zu minimieren und die betriebliche Effizienz zu steigern. 

 **Gewünschtes Ergebnis:** 
+  weniger menschliche Fehler und schnellere Lösungszeiten durch Automatisierung 
+  konsistente und zuverlässige Handhabung betrieblicher Ereignisse 
+  verbesserte betriebliche Effizienz und Systemzuverlässigkeit 

 **Typische Anti-Muster:** 
+ Die manuelle Behandlung von Ereignissen führt zu Verzögerungen und Fehlern.
+ Bei sich wiederholenden, kritischen Aufgaben wird die Automatisierung übersehen.
+  Sich wiederholende, manuelle Aufgaben führen zu Ermüdungserscheinungen und zum Übersehen kritischer Probleme. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  beschleunigte Reaktionen auf Ereignisse, wodurch sich die Ausfallzeiten des Systems reduzieren 
+  zuverlässiger Betrieb mit automatisierter und konsistenter Ereignisbehandlung 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
Implementierungsleitfaden

 Integrieren Sie Automatisierung, um effiziente Arbeitsabläufe zu schaffen und manuelle Eingriffe zu minimieren. 

### Implementierungsschritte
Implementierungsschritte

1.  **Identifizieren von Möglichkeiten zur Automatisierung:** Bestimmen Sie sich wiederholende Aufgaben für die Automatisierung, wie beispielsweise Problembehebung, Ticketverbesserung, Kapazitätsmanagement, Skalierung, Bereitstellung und Tests. 

1.  **Identifizieren von Automatisierungsaufforderungen:** 
   +  Beurteilen und definieren Sie spezifische Bedingungen oder Kennzahlen, die automatische Reaktionen mithilfe von [ CloudWatch Amazon-Alarmaktionen auslösen](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions). 
   +  Verwenden Sie [Amazon EventBridge](https://aws.amazon.com/eventbridge/), um auf Ereignisse in AWS Services, benutzerdefinierten Workloads und SaaS-Anwendungen zu reagieren. 
   +  Berücksichtigen Sie Initiierungsereignisse wie [bestimmte Protokolleinträge](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html), [Schwellenwerte für Leistungskennzahlen](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) oder [Statusänderungen](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) AWS von Ressourcen. 

1.  **Implementieren der ereignisgesteuerten Automatisierung:** 
   +  Verwenden Sie AWS Systems Manager Automation-Runbooks, um Wartungs-, Bereitstellungs- und Problembehebungsaufgaben zu vereinfachen. 
   +  [Beim Erstellen von Vorfällen in Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) werden automatisch Details zu den beteiligten AWS Ressourcen gesammelt und dem Vorfall hinzugefügt. 
   +  Überwachen Sie Kontingente proaktiv mit [Quota Monitor for AWS](https://aws.amazon.com/solutions/implementations/quota-monitor/). 
   +  Passen Sie die Kapazität mit [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) automatisch an, um Verfügbarkeit und Leistung aufrechtzuerhalten. 
   +  Automatisieren Sie Entwicklungspipelines mit [Amazon CodeCatalyst](https://codecatalyst.aws/explore). 
   +  Testen Sie die Endgeräte oder überwachen Sie sie kontinuierlich und APIs [verwenden Sie synthetische](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) Überwachung. 

1.  **Schadensbegrenzung durch Automatisierung:** 
   +  Implementieren Sie [automatisierte Sicherheitsmaßnahmen](https://aws.amazon.com/solutions/implementations/automated-security-response-on-aws/), um schnell auf Risiken zu reagieren. 
   +  Verwenden Sie [State Manager von AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html), um Konfigurationsabweichungen zu reduzieren. 
   +  [Korrigieren Sie Ressourcen, die nicht den Vorschriften entsprechen](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html), mit. AWS-Config-Regeln

 **Aufwand für den Implementierungsplan:** Hoch 

## Ressourcen
Ressourcen

 **Zugehörige bewährte Methoden:** 
+  [OPS08-BP04 Erstellen umsetzbarer Warnmeldungen](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Implementieren eines Prozesses für jede Warnmeldung](ops_event_response_process_per_alert.md) 

 **Zugehörige Dokumente:** 
+  [Verwendung von Systems-Manager-Automation-Runbooks mit Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/tutorials-runbooks.html) 
+  [Erstellen von Vorfällen in Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) 
+  [AWS Servicekontingenten](https://docs.aws.amazon.com/general/latest/gr/aws_service_limits.html) 
+  [Überwachen der Ressourcennutzung und Senden von Benachrichtigungen, wenn das Kontingent fast erreicht ist](https://docs.aws.amazon.com/solutions/latest/quota-monitor-for-aws/solution-overview.html) 
+  [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) 
+  [Was ist Amazon CodeCatalyst?](https://docs.aws.amazon.com/codecatalyst/latest/userguide/welcome.html) 
+  [ CloudWatch Amazon-Alarme verwenden](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [ CloudWatch Amazon-Alarmaktionen verwenden](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) 
+  [Behebung nicht konformer Ressourcen mit AWS-Config-Regeln](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) 
+  [Erstellen von Metriken aus Protokollereignissen mithilfe von Filtern](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
+  [AWS Systems Manager State Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) 

 **Zugehörige Videos:** 
+ [Erstellen Sie Automatisierungs-Runbooks mit AWS Systems Manager](https://www.youtube.com/watch?v=fQ_KahCPBeU)
+ [So automatisieren Sie den IT-Betrieb auf AWS](https://www.youtube.com/watch?v=GuWj_mlyTug)
+ [AWS Security Hub CSPM Automatisierungsregeln](https://www.youtube.com/watch?v=XaMfO_MERH8)
+ [Starten Sie Ihr Softwareprojekt schnell mit Amazon CodeCatalyst Blueprints](https://www.youtube.com/watch?v=rp7roaoPzFE)

 **Zugehörige Beispiele:** 
+ [ CodeCatalyst Amazon-Tutorial: Erstellen eines Projekts mit dem Blueprint für moderne dreistufige Webanwendungen](https://docs.aws.amazon.com/codecatalyst/latest/userguide/getting-started-template-project.html)
+ [ Workshop zur Beobachtbarkeit ](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US)
+ [ Reaktion auf Vorfälle mit Incident Manager ](https://catalog.workshops.aws/getting-started-with-com/en-US/operations-management/incident-manager)