# OPS 9 Wie können Sie den Zustand Ihrer Operationen beurteilen?
<a name="w2aac19b5b9b7"></a>

 Definieren, erfassen und analysieren Sie Metriken für Operationen, um einen Einblick in Ereignisse rund um Ihre operativen Abläufe zu erhalten. Dies ist wichtig, damit Sie bei Bedarf entsprechende Maßnahmen ergreifen können. 

**Topics**
+ [OPS09-BP01 Ermitteln wichtiger Leistungskennzahlen](ops_operations_health_define_ops_kpis.md)
+ [OPS09-BP02 Definieren von Betriebsmetriken](ops_operations_health_design_ops_metrics.md)
+ [OPS09-BP03 Erfassen und Analysieren von Betriebsmetriken](ops_operations_health_collect_analyze_ops_metrics.md)
+ [OPS09-BP04 Festlegen von Ausgangswerten für Betriebsmetriken](ops_operations_health_ops_metric_baselines.md)
+ [OPS09-BP05 Aufzeichnen der erwarteten Aktivitätsmuster für den Betrieb](ops_operations_health_learn_ops_usage_patterns.md)
+ [OPS09-BP06 Alarm bei gefährdeten Ergebnissen von Operationen](ops_operations_health_ops_outcome_alerts.md)
+ [OPS09-BP07 Alarm bei festgestellten Betriebsanomalien](ops_operations_health_ops_anomaly_alerts.md)
+ [OPS09-BP08 Prüfen der Erreichung von angestrebten Ergebnissen und der Wirksamkeit von KPIs und Metriken](ops_operations_health_biz_level_view_ops.md)

# OPS09-BP01 Ermitteln wichtiger Leistungskennzahlen
<a name="ops_operations_health_define_ops_kpis"></a>

 Ermitteln Sie wichtige Leistungskennzahlen (KPIs) anhand der gewünschten Geschäftsergebnisse (z. B. bereitgestellte neue Funktionen) und Kundenergebnisse (z. B. Kundenservice-Anfragen). Bewerten Sie zur Messung des Erfolgs von Operationen KPIs. 

 **Gängige Antimuster:** 
+  Sie werden von der Geschäftsleitung gefragt, wie erfolgreich der Betrieb die Geschäftsziele erreicht, aber haben keinen Referenzrahmen, um den Erfolg zu bestimmen. 
+  Sie können nicht feststellen, ob sich Ihre geplanten Wartungsarbeiten auf die Geschäftsergebnisse auswirken. 

 **Vorteile der Einführung dieser bewährten Methode:** Durch die Ermittlung wichtiger Leistungskennzahlen ermöglichen Sie das Erreichen von Geschäftsergebnissen als Test des Zustands und Erfolgs Ihrer Betriebsabläufe. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>
+  Ermitteln wichtiger Leistungskennzahlen: Ermitteln Sie auf Basis der gewünschten geschäftlichen und kundenspezifischen Ergebnisse wichtige Leistungskennzahlen (Key Performance Indicators, KPIs). Bewerten Sie zur Messung des Erfolgs von Operationen KPIs. 

# OPS09-BP02 Definieren von Betriebsmetriken
<a name="ops_operations_health_design_ops_metrics"></a>

 Definieren Sie Betriebsmetriken, um den Erfolg von KPIs zu messen (z. B. erfolgreiche und fehlgeschlagene Bereitstellungen). Definieren Sie Betriebsmetriken, um den Zustand von Betriebsaktivitäten zu messen (z. B. mittlere Zeit zur Erkennung eines Vorfalls (MTTD) und mittlere Reparaturzeit (MTTR) nach einem Vorfall). Bewerten Sie Metriken, um festzustellen, ob die Betriebsabläufe die gewünschten Ergebnisse erzielen, und um den Zustand der Betriebsaktivitäten zu beurteilen. 

 **Gängige Antimuster:** 
+  Ihre Betriebsmetriken basieren auf den Werten, die das Team für angemessen hält. 
+  In Ihren Metrikberechnungen liegen Fehler vor, die zu falschen Ergebnissen führen. 
+  Sie haben keine Metriken für Ihre Betriebsaktivitäten definiert. 

 **Vorteile der Einführung dieser bewährten Methode:** Durch das Definieren und Auswerten von Betriebsmetriken können Sie den Zustand Ihrer Betriebsaktivitäten bestimmen und den Fortschritt beim Erreichen der Geschäftsergebnisse messen. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>
+  Definieren von Betriebsmetriken: Definieren Sie operationsspezifische Metriken für die Analyse der Erfüllung von KPIs. Definieren Sie operationsspezifische Metriken, um den Zustand der Operationen und ihrer Aktivitäten beurteilen zu können. Bewerten Sie Metriken, um festzustellen, ob Operationen die gewünschten Ergebnisse erzielen, und um den Zustand der Operationen zu beurteilen. 
  +  [Veröffentlichen von benutzerdefinierten Metriken](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
  +  [Suchen und Filtern von Protokolldaten](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
  +  [Referenzinformationen zu Metriken und Dimensionen von Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 

## Ressourcen
<a name="resources"></a>

 **Zugehörige Dokumente:** 
+  [AWS-Antworten: zentralisierte Protokollierung](https://aws.amazon.com/answers/logging/centralized-logging/) 
+  [Referenzinformationen zu Metriken und Dimensionen von Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Erkennen von und Reagieren auf Änderungen im Pipeline-Zustand mit Amazon CloudWatch Events](https://docs.aws.amazon.com/codepipeline/latest/userguide/detect-state-changes-cloudwatch-events.html) 
+  [Veröffentlichen von benutzerdefinierten Metriken](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
+  [Suchen und Filtern von Protokolldaten](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

 **Relevante Videos:** 
+  Erstellen eines Überwachungsplans 

# OPS09-BP03 Erfassen und Analysieren von Betriebsmetriken
<a name="ops_operations_health_collect_analyze_ops_metrics"></a>

 Unterziehen Sie die Metriken regelmäßigen proaktiven Überprüfungen, um Trends zu ermitteln und festzustellen, wo gegebenenfalls Maßnahmen ergriffen werden müssen. 

 Sie sollten Protokolldaten aus der Ausführung Ihrer Betriebsaktivitäten und Betriebs-API-Aufrufe in einem Service wie CloudWatch Logs zusammenfassen. Generieren Sie Metriken aus Beobachtungen der erforderlichen Protokollinhalte, um Einblicke in die Leistung von Betriebsaktivitäten zu erhalten. 

 In AWS können Sie [Ihre Protokolldaten zu Amazon S3 exportieren](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/S3Export.html) oder [Protokolle zur langfristigen Speicherung direkt](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/Sending-Logs-Directly-To-S3.html) um [Amazon S3](https://aws.amazon.com/s3/) senden. Mit [AWS Glue](https://aws.amazon.com/glue/)können Sie Ihre Protokolldaten in Amazon S3 zur Analyse erkunden und vorbereiten und die zugehörigen Metadaten im [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html). [Amazon Athena](https://aws.amazon.com/athena/)kann dann durch eine native Integration mit AWS Glue zum Analysieren Ihrer Protokolldaten und für Abfragen mit Standard-SQL verwendet werden. Mit einem Business Intelligence-Tool wie [Quick](https://aws.amazon.com/quicksight/) können Sie Ihre Daten visualisieren, untersuchen und analysieren. 

 **Gängige Antimuster:** 
+  Die regelmäßige Bereitstellung neuer Funktionen gilt als wichtige Leistungskennzahl. Sie haben keine Möglichkeit, um die Häufigkeit von Bereitstellungen zu messen. 
+  Sie protokollieren Bereitstellungen, rückgängig gemachte Bereitstellungen, Patches und rückgängig gemachte Patches, um Ihre Betriebsaktivitäten zu verfolgen, aber die Metriken werden von niemandem überprüft. 
+  Sie haben ein Recovery Time Objective von 15 Minuten für die Wiederherstellung ausgefallener Datenbanken, das bei der Bereitstellung des Systems festgelegt wurde, als es noch nicht im Einsatz war. Heute haben Sie 10 000 Benutzer und Ihr System ist seit 2 Jahren in Betrieb. Eine kürzliche Wiederherstellung dauerte mehr als 2 Stunden. Dies wurde aber nicht aufgezeichnet, sodass niemand davon weiß. 

 **Vorteile der Einführung dieser bewährten Praxis:** Durch das Erfassen und Analysieren Ihrer Betriebsmetriken gewinnen Sie einen Überblick über den Zustand Ihrer Betriebsabläufe und erhalten Einblicke in Trends, die sich auf Ihren Betrieb oder Ihre Geschäftsergebnisse auswirken können. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>
+  Betriebsmetriken erfassen und analysieren: Unterziehen Sie die Metriken regelmäßigen proaktiven Überprüfungen, um Trends ermitteln und feststellen zu können, wo gegebenenfalls geeignete Maßnahmen ergriffen werden müssen. 
  +  [Verwenden von Amazon CloudWatch-Metriken](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 
  +  [Referenzinformationen zu Metriken und Dimensionen von Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
  +  [Erfassen von Metriken und Protokollen aus Amazon EC2-Instances und lokalen Servern mit dem CloudWatch Agent](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 

## Ressourcen
<a name="resources"></a>

 **Verbundene Dokumente:** 
+  [Amazon Athena](https://aws.amazon.com/athena/) 
+  [Referenzinformationen zu Metriken und Dimensionen von Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [AWS Glue](https://aws.amazon.com/glue/) 
+  [AWSAWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html) 
+  [Erfassen von Metriken und Protokollen aus Amazon EC2-Instances und lokalen Servern mit dem CloudWatch Agent](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) 
+  [Verwenden von Amazon CloudWatch-Metriken](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 

# OPS09-BP04 Festlegen von Ausgangswerten für Betriebsmetriken
<a name="ops_operations_health_ops_metric_baselines"></a>

 Legen Sie Ausgangswerte für Metriken fest, um erwartete Werte als Grundlage für den Vergleich und die Ermittlung von Betriebsaktivitäten mit unter- oder überdurchschnittlicher Leistung bereitzustellen. 

 **Gängige Antimuster:** 
+  Sie werden gefragt, wie viel Zeit die Bereitstellung voraussichtlich in Anspruch nimmt. Da Sie die Bereitstellungsdauer nicht gemessen haben, können Sie die voraussichtlich erforderliche Zeit nicht bestimmen. 
+  Sie werden gefragt, wie lange die Wiederherstellung nach einem Problem mit den Anwendungsservern dauert. Sie haben keine Informationen über die Wiederherstellungsdauer nach dem ersten Kundenkontakt. Sie haben keine Informationen über die Wiederherstellungsdauer ab der erstmaligen Ermittlung eines Problems im Rahmen der Überwachung. 
+  Sie werden gefragt, wie viele Supportmitarbeiter am Wochenende benötigt werden. Sie haben keine Ahnung, wie viele Supportanfragen üblicherweise an einem Wochenende eingehen und können keine geschätzte Anzahl nennen. 
+  Sie haben ein Recovery Time Objective von 15 Minuten für die Wiederherstellung ausgefallener Datenbanken, das bei der Bereitstellung des Systems festgelegt wurde, als es noch nicht im Einsatz war. Heute haben Sie 10 000 Benutzer und Ihr System ist seit 2 Jahren in Betrieb. Sie haben keine Informationen darüber, wie sich die Wiederherstellungsdauer für Ihre Datenbank geändert hat. 

 **Vorteile der Einführung dieser bewährten Methode:** Durch die Definition von Metrikausgangswerten können Sie aktuelle Metrikwerte und Metriktrends auswerten, um festzustellen, ob Maßnahmen erforderlich sind. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>
+  Mehr über erwartete Aktivitätsmuster für den Betrieb erfahren: Legen Sie Muster für die betriebliche Aktivität fest, um festzustellen, wann das Verhalten von den erwarteten Werten abweicht, so dass Sie bei Bedarf angemessen reagieren können. 

# OPS09-BP05 Aufzeichnen der erwarteten Aktivitätsmuster für den Betrieb
<a name="ops_operations_health_learn_ops_usage_patterns"></a>

 Legen Sie Betriebsaktivitätsmuster fest, um außergewöhnliche Aktivitäten zu identifizieren, damit Sie bei Bedarf entsprechend reagieren können. 

 **Gängige Antimuster:** 
+  Ihre Bereitstellungsfehlerrate hat sich in letzter Zeit erheblich erhöht. Sie beheben die Fehler unabhängig voneinander. Ihnen fällt nicht auf, dass alle Fehler bei den Bereitstellungen eines neuen Mitarbeiters auftreten, der nicht mit dem System zur Bereitstellungsverwaltung vertraut ist. 

 **Vorteile der Einführung dieser bewährten Methode:** Durch das Aufzeichnen von Verhaltensmustern können Sie unerwartetes Verhalten erkennen und bei Bedarf Maßnahmen ergreifen. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>
+  Mehr über erwartete Aktivitätsmuster für den Betrieb erfahren: Legen Sie Muster für die betriebliche Aktivität fest, um festzustellen, wann das Verhalten von den erwarteten Werten abweicht, so dass Sie bei Bedarf angemessen reagieren können. 

# OPS09-BP06 Alarm bei gefährdeten Ergebnissen von Operationen
<a name="ops_operations_health_ops_outcome_alerts"></a>

 Wenn die Ergebnisse von Operationen in Gefahr sind, muss ein Alarm ausgegeben und darauf entsprechend reagiert werden. Dabei handelt es sich um alle Aktivitäten, die einen Workload in Produktion unterstützen. Dies umfasst alles von der Bereitstellung neuer Anwendungsversionen bis zur Wiederherstellung nach einem Ausfall. Die Ergebnisse von Operationen müssen als ähnlich wichtig behandelt werden wie Geschäftsergebnisse. 

Softwareteams sollten die zentralen betrieblichen Metriken und Aktivitäten identifizieren und Alarme dafür einrichten. Alarme müssen zeitnah erfolgen und konkretes Handeln ermöglichen. Wenn ein Alarm ausgegeben wird, sollte dazu ein Verweis zu einem entsprechenden Runbook oder Playbook gehören. Alarme ohne zugehörige Aktionen können zu Alarmermüdung führen.

 **Gewünschtes Ergebnis:** Wenn Betriebsabläufe gefährdet sind, werden Alarme ausgesendet, um Maßnahmen auszulösen. Die Alarme enthalten Kontextinformationen dazu, warum der Alarm ausgegeben wurde, und verweisen auf ein Playbook für die Untersuchung oder ein Runbook für Abhilfemaßnahmen. Wo immer möglich, werden Runbooks automatisiert und Benachrichtigungen gesendet. 

 **Typische Anti-Muster:** 
+ Sie untersuchen einen Vorgang und registrieren Support-Fälle. Die Support-Fälle verstoßen gegen das Service Level Agreement (SLA), es werden aber keine Alarme ausgegeben. 
+ Eine für Mitternacht geplante Produktionsbereitstellung verzögert sich aufgrund von Code-Änderungen in letzter Minute. Es wird kein Alarm ausgegeben und die Bereitstellung steht still.
+ Es tritt ein Produktionsausfall auf, es werden aber keine Alarme gesendet.
+  Ihre Bereitstellungszeit fällt konsistent hinter den Schätzungen zurück. Es wird nichts unternommen, um dies zu untersuchen. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Ein Alarm bei einer Gefährdung der Ergebnisse von Operationen verbessert Ihre Fähigkeit, Ihren Workload zu unterstützen, da Sie Problemen immer einen Schritt voraus sind. 
+  Die geschäftlichen Ergebnisse werden dank korrekter Ergebnisse von Operationen verbessert. 
+  Erkennung und Korrektur von Betriebsproblemen werden verbessert. 
+  Insgesamt wird der Betriebszustand verbessert. 

 **Risikostufe, wenn diese bewährte Methode nicht genutzt wird:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Ergebnisse von Operationen müssen definiert werden, bevor Sie damit beginnen können, Alarme dafür einzurichten. Legen Sie zunächst fest, welche betrieblichen Aktivitäten für Ihre Organisation die wichtigsten sind. Ist es die Bereitstellung zur Produktion in weniger als zwei Stunden oder die Reaktion auf einen Support-Fall innerhalb eines festgelegten Zeitraums? Ihre Organisation muss ihre zentralen betrieblichen Aktivitäten und deren Messung definieren, damit diese überwacht, verbessert und Gegenstand von Alarmen sein können. Sie benötigen einen zentralen Ort für die Speicherung und Analyse von Workload- und Betriebstelemetriedaten. Dieser Mechanismus sollte auch einen Alarm ausgeben können, wenn das Ergebnis einer Operation in Gefahr ist. 

 **Kundenbeispiel** 

 Während einer Routine-Bereitstellung bei AnyCompany Retail wurde ein CloudWatch-Alarm ausgelöst. Die Durchlaufzeit für die Bereitstellung wurde nicht eingehalten. Amazon EventBridge erstellte ein OpsItem in AWS Systems Manager OpsCenter. Das Cloud-Operations-Team untersuchte das Problem anhand eines Playbooks und fand heraus, dass ein Schemawechsel länger dauerte als erwartet. Das Team benachrichtigte den zuständigen Entwickler und beobachtete die Bereitstellung weiter. Nach Abschluss der Bereitstellung löste das Cloud-Operations-Team das OpsItem. Das Team analysiert den Vorfall im Rahmen eines Postmortem-Gesprächs. 

## Implementierungsschritte
<a name="implementation-steps"></a>

1. Wenn Sie keine Betriebs-KPIs, Metriken und Aktivitäten identifiziert haben, arbeiten Sie an der Implementierung der obigen bewährten Methoden für diese Frage (OPS09-BP01 bis OPS09-BP05). 
   +  Support-Kunden mit [Enterprise Support](https://aws.amazon.com/premiumsupport/plans/enterprise/) können den [Operations KPI Workshop](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) bei ihrem Technical Account Manager anfordern. Dieser auf Zusammenarbeit ausgerichtete Workshop hilft Ihnen bei der Definition von betrieblichen KPIs und Metriken unter Berücksichtigung Ihrer geschäftlichen Ziele und ist ohne zusätzliche Kosten verfügbar. Wenden Sie sich an Ihren Technical Account Manager, um weitere Informationen zu erhalten. 

1.  Sobald Sie betriebliche Aktivitäten, KPIs und Metriken eingerichtet haben, konfigurieren Sie Alarme in Ihrer Beobachtungsplattform. Alarmen sollte eine konkrete Maßnahme zugeordnet sein, etwa ein Playbook oder ein Runbook. Alarme ohne Maßnahmen sollten vermieden werden. 

1.  Mit der Zeit sollten Sie Ihre betrieblichen Metriken, KPIs und Aktivitäten evaluieren, um Bereiche für mögliche Verbesserungen zu identifizieren. Erfassen Sie Feedback von Bedienern in Runbooks und Playbooks, um in Reaktion auf Alarme Bereiche für mögliche Verbesserungen zu identifizieren. 

1.  Alarme sollten einen Mechanismus enthalten, der es erlaubt, sie als falsche positiv zu markieren. Dies sollte zu einer Überprüfung der Metrik-Schwellenwerte führen. 

 **Aufwand für den Implementierungsplan:** Mittel. Es gibt verschiedene bewährte Methoden, die vor der Implementierung dieser Methode eingerichtet werden müssen. Sobald betriebliche Aktivitäten identifiziert und betriebliche KPIs eingerichtet wurden, sollten die Alarme eingerichtet werden. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS02-BP03 Betriebsaktivitäten haben feste Besitzer, die für ihre Leistung verantwortlich sind](ops_ops_model_def_activity_owners.md): Jede betriebliche Aktivität und jedes betriebliche Ergebnis sollte einen identifizierten Eigentümer haben, der dafür verantwortlich ist. Diese Person ist zu benachrichtigen, wenn Ergebnisse in Gefahr sind. 
+  [OPS03-BP02 Teammitglieder sind befugt, Maßnahmen zu ergreifen, wenn Ergebnisse gefährdet sind:](ops_org_culture_team_emp_take_action.md): Wenn Alarme ausgegeben werden, sollte Ihr Team in der Lage sein, Maßnahmen zu ergreifen, um das Problem zu beheben. 
+  [OPS09-BP01 Ermitteln wichtiger Leistungskennzahlen](ops_operations_health_define_ops_kpis.md): Die Alarmierung zu Ergebnissen von Operationen beginnt mit der Identifizierung der betrieblichen KPIs. 
+  [OPS09-BP02 Definieren von Betriebsmetriken](ops_operations_health_design_ops_metrics.md): Richten Sie diese bewährte Methode ein, bevor Sie mit der Generierung von Alarmen beginnen. 
+  [OPS09-BP03 Erfassen und Analysieren von Betriebsmetriken](ops_operations_health_collect_analyze_ops_metrics.md): Zum Aufbau von Alarmen ist die zentrale Erfassung betrieblicher Metriken erforderlich. 
+  [OPS09-BP04 Festlegen von Ausgangswerten für Betriebsmetriken](ops_operations_health_ops_metric_baselines.md): Baselines für betriebliche Metriken ermöglichen die Feineinstellung von Alarmen, um Alarmermüdung zu vermeiden. 
+  [OPS09-BP05 Aufzeichnen der erwarteten Aktivitätsmuster für den Betrieb](ops_operations_health_learn_ops_usage_patterns.md): Sie können die Korrektheit Ihrer Alarme verbessern, wenn Sie die Aktivitätsmuster für betriebliche Ereignisse verstehen. 
+  [OPS09-BP08 Prüfen der Erreichung von angestrebten Ergebnissen und der Wirksamkeit von KPIs und Metriken](ops_operations_health_biz_level_view_ops.md): Evaluieren Sie das Erreichen der Ergebnisse von Operationen, um sicherzustellen, dass Ihre KPIs und Metriken korrekt sind. 
+  [OPS10-BP02 Implementieren eines Prozesses für jeden Alarm](ops_event_response_process_per_alert.md): Jedem Alarm sollte ein Playbook oder Runbook zugeordnet sein und er muss Kontext für die alarmierte Person enthalten. 
+  [OPS11-BP02 Durchführen von Analysen nach Vorfällen](ops_evolve_ops_perform_rca_process.md): Führen Sie nach dem Alarm eine Analyse durch, um Bereiche für Verbesserungen zu identifizieren. 

 **Zugehörige Dokumente:** 
+  [AWS-Bereitstellungspipeline-Referenzarchitektur: Anwendungspipelinearchitektur](https://pipelines.devops.aws.dev/application-pipeline/) 
+  [GitLab: Erste Schritte mit Agile/DevOps Metrics](https://about.gitlab.com/handbook/marketing/strategic-marketing/devops-metrics/) 

 **Zugehörige Videos:** 
+  [Aggregate and Resolve Operational Issues Using AWS Systems Manager OpsCenter (Aggregieren und Beheben betrieblicher Probleme mit AWS Systems Manager OpsCenter)](https://www.youtube.com/watch?v=r6ilQdxLcqY) 
+  [Integrate AWS Systems Manager OpsCenter with Amazon CloudWatch Alarms (Integrieren von AWS Systems Manager OpsCenter in Amazon CloudWatch-Alarme)](https://www.youtube.com/watch?v=Gpc7a5kVakI) 
+  [Integrate Your Data Sources into AWS Systems Manager OpsCenter Using Amazon EventBridge (Integrieren Ihrer Datenquellen in AWS Systems Manager OpsCenter mit Amazon EventBridge)](https://www.youtube.com/watch?v=Xmmu5mMsq3c) 

 **Zugehörige Beispiele:** 
+  [Automatisieren von Behebungsaktionen für Amazon EC2-Benachrichtigungen und mehr mithilfe von Amazon EC2 Systems Manager Automation und AWS Health](https://aws.amazon.com/blogs/mt/automate-remediation-actions-for-amazon-ec2-notifications-and-beyond-using-ec2-systems-manager-automation-and-aws-health/) 
+  [AWS Management and Governance Tools Workshop - Operations 2022](https://mng.workshop.aws/operations-2022.html) 
+  [Aufnahme, Analyse und Visualisierung von Metriken mit dem DevOps Monitoring Dashboard auf AWS](https://docs.aws.amazon.com/solutions/latest/devops-monitoring-dashboard-on-aws/welcome.html) 

 **Zugehörige Services:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 
+  [Support Proactive Services - Operations KPI Workshop](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 
+  [CloudWatch-Ereignisse](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS09-BP07 Alarm bei festgestellten Betriebsanomalien
<a name="ops_operations_health_ops_anomaly_alerts"></a>

 Lösen Sie einen Alarm aus, wenn Betriebsanomalien festgestellt werden, damit Sie bei Bedarf angemessen reagieren können. 

 Die Analyse Ihrer Betriebsmetriken im Laufe der Zeit kann Verhaltensmuster feststellen, die Sie ausreichend quantifizieren können, um ein Ereignis zu definieren oder als Reaktion einen Alarm auszulösen. 

 Nach der Schulung kann die Funktion [Funktion CloudWatch Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) verwendet werden, um [bei](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) erkannten Anomalien einen Alarm auszulösen oder überlagerte erwartete Werte in einem [Diagramm](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/graph_a_metric.html#create-metric-graph) mit Metrikdaten für einen laufenden Vergleich bereitzustellen. 

 [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) kann verwendet werden, um außergewöhnliches Verhalten über die Korrelation von Ereignissen, Protokollanalysen und die Anwendung von Machine Learning zu identifizieren und Ihre Workload-Telemetrie zu analysieren. Die erhaltenen [Einblicke](https://docs.aws.amazon.com/devops-guru/latest/userguide/understanding-insights-console.html) werden mit den relevanten Daten und Empfehlungen dargestellt. 

 **Gängige Antimuster:** 
+  Sie wenden einen Patch auf Ihre Instance-Flotte an. In der Testumgebung haben Sie den Patch erfolgreich getestet. Für einen hohen Anteil der Instances in Ihrer Flotte schlägt der Patch fehl. Sie unternehmen nichts. 
+  Sie stellen fest, dass Freitag am Ende des Tages Bereitstellungen anstehen. Die Wartungsfenster Ihres Unternehmens sind auf dienstags und donnerstags festgelegt. Sie unternehmen nichts. 

 **Vorteile der Einführung dieser bewährten Praxis:** Wenn Sie mit Betriebsverhaltensmustern vertraut sind, können Sie unerwartetes Verhalten identifizieren und bei Bedarf Maßnahmen ergreifen. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Niedrig 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>
+  Alarm bei festgestellten Betriebsanomalien auslösen: Lösen Sie einen Alarm aus, wenn Betriebsanomalien erkannt werden, damit Sie bei Bedarf entsprechend reagieren können. 
  +  [Was ist Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Erstellen von Amazon CloudWatch-Alarmen](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Auslösen von Lambda-Funktionen mit Amazon SNS-Benachrichtigungen](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Ressourcen
<a name="resources"></a>

 **Verbundene Dokumente:** 
+  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 
+  [Funktion CloudWatch Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 
+  [Erstellen von Amazon CloudWatch-Alarmen](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Erkennen von und Reagieren auf Änderungen im Pipeline-Zustand mit Amazon CloudWatch Events](https://docs.aws.amazon.com/codepipeline/latest/userguide/detect-state-changes-cloudwatch-events.html) 
+  [Auslösen von Lambda-Funktionen mit Amazon SNS-Benachrichtigungen](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [Was ist Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS09-BP08 Prüfen der Erreichung von angestrebten Ergebnissen und der Wirksamkeit von KPIs und Metriken
<a name="ops_operations_health_biz_level_view_ops"></a>

 Erstellen Sie eine Ansicht Ihrer operationsspezifischen Aktivitäten auf Geschäftsebene, mit der Sie schnell feststellen können, ob Sie die Anforderungen erfüllen, und welche Bereiche verbessert werden müssen, um die Geschäftsziele zu erreichen. Prüfen Sie die Wirksamkeit von KPIs und Metriken und überarbeiten Sie diese gegebenenfalls. 

 AWS bietet über die AWS-Service-APIs und -SDKs auch Support für Protokollanalysesysteme und Business-Intelligence-Tools von Drittanbietern (z. B. Grafana, Kibana und Logstash). 

 **Gängige Antimuster:** 
+  Die Häufigkeit Ihrer Bereitstellungen ist mit der wachsenden Anzahl von Entwicklerteams gestiegen. Ursprünglich hatten sie festgelegt, dass einmal pro Woche bereitgestellt wird. Mittlerweile führen Sie jeden Tag Bereitstellungen durch. Wenn ein Problem mit Ihrem Bereitstellungssystem auftritt und keine Bereitstellungen möglich sind, kann es mehrere Tage dauern, bis das Problem erkannt wird. 
+  Bis vor Kurzem war der Support Ihres Unternehmens nur in den Kerngeschäftszeiten von Montag bis Freitag erreichbar. Als Reaktionszeit für Vorfälle galt dabei „am nächsten Werktag“. Jetzt bieten Sie Support rund um die Uhr mit einer Reaktionszeit von 2 Stunden. Die Mitarbeiter der Nachtschicht sind überfordert und die Kunden sind unzufrieden. Es liegen keine Hinweise darauf vor, dass die Reaktionszeiten bei Vorfällen nicht eingehalten werden, da weiterhin das Ziel „am nächsten Werktag“ gilt. 

 **Vorteile der Einführung dieser bewährten Methode:** Wenn Sie KPIs und Metriken überprüfen und überarbeiten, können Sie nachvollziehen, wie sich Ihr Workload auf die Geschäftsergebnisse auswirkt, und ermitteln, wo Verbesserungen erforderlich sind, um die Geschäftsziele zu erreichen. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Niedrig 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>
+  Erfolg von Ergebnissen und die Effektivität von KPIs und Metriken prüfen: Erstellen Sie eine Geschäftsansicht Ihrer Betriebsaktivitäten, um festzustellen, ob Sie die Anforderungen erfüllen, und um Bereiche zu identifizieren, die verbessert werden müssen, um Geschäftsziele zu erreichen. Prüfen Sie die Wirksamkeit von KPIs und Metriken und überarbeiten Sie diese gegebenenfalls. 
  +  [Verwendung von Amazon CloudWatch-Dashboards](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
  +  [Was ist Protokollanalytik?](https://aws.amazon.com/log-analytics/) 

## Ressourcen
<a name="resources"></a>

 **Zugehörige Dokumente:** 
+  [Verwendung von Amazon CloudWatch-Dashboards](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
+  [Was ist Protokollanalytik?](https://aws.amazon.com/log-analytics/)