

# Operative Exzellenz
<a name="a-operational-excellence"></a>

Operative Exzellenz (OE) beinhaltet die Verpflichtung, Software korrekt zu entwickeln und dabei durchgehend ein hervorragendes Kundenerlebnis zu bieten. Dies umfasst bewährte Methoden für die Organisation Ihres Teams, die Gestaltung Ihres Workloads, den Betrieb in großem Maßstab und die Weiterentwicklung im Laufe der Zeit. Verbindliche Anleitungen zur Implementierung finden Sie im [Whitepaper „Säule der betrieblichen Exzellenz“](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/welcome.html). 

**Topics**
+ [

# Organisation
](a-organization.md)
+ [

# Vorbereitung
](a-prepare.md)
+ [

# Betrieb
](a-operate.md)
+ [

# Weiterentwicklung
](a-evolve.md)

# Organisation
<a name="a-organization"></a>

**Topics**
+ [

# OPS 1. Wie können Sie Ihre Prioritäten bestimmen?
](ops-01.md)
+ [

# OPS 2. Wie strukturieren Sie Ihr Unternehmen, um die gewünschten Geschäftsergebnisse zu erzielen?
](ops-02.md)
+ [

# OPS 3. Wie unterstützt Ihre Unternehmenskultur Ihre Geschäftsergebnisse?
](ops-03.md)

# OPS 1. Wie können Sie Ihre Prioritäten bestimmen?
<a name="ops-01"></a>

 Jeder muss verstehen, welchen Beitrag er zum Geschäftserfolg leistet. Setzen Sie sich gemeinsame Ziele, damit Sie die Prioritäten für Ressourcen festlegen können. Dadurch erzielen Ihre Bemühungen den größtmöglichen Nutzen. 

**Topics**
+ [

# OPS01-BP01 Bewerten der Bedürfnisse externer Kunden
](ops_priorities_ext_cust_needs.md)
+ [

# OPS01-BP02 Evaluieren Sie die internen Kundenbedürfnisse
](ops_priorities_int_cust_needs.md)
+ [

# OPS01-BP03 Bewertung der Governance-Anforderungen
](ops_priorities_governance_reqs.md)
+ [

# OPS01-BP04 Bewerten der Compliance-Anforderungen
](ops_priorities_compliance_reqs.md)
+ [

# OPS01-BP05 Bewerten Sie die Bedrohungslandschaft
](ops_priorities_eval_threat_landscape.md)
+ [

# OPS01-BP06 Bewerten von Kompromissen und Abwägen der Vorteile und Risiken
](ops_priorities_eval_tradeoffs.md)

# OPS01-BP01 Bewerten der Bedürfnisse externer Kunden
<a name="ops_priorities_ext_cust_needs"></a>

 Binden Sie alle wichtigen Stakeholder ein, einschließlich Geschäfts-, Entwicklungs- und Betriebsteams, um zu bestimmen, welche Bereiche verstärkt auf die Bedürfnisse der externen Kunden ausgerichtet werden müssen. Dadurch wird sichergestellt, dass Sie mit der betrieblichen Unterstützung vertraut sind, die erforderlich ist, um die gewünschten geschäftlichen Ergebnisse zu erzielen. 

 **Gewünschtes Ergebnis:** 
+  Sie arbeiten rückwärts von den Kundenergebnissen aus. 
+  Sie wissen, wie Ihre betrieblichen Praktiken Geschäftsergebnisse und -ziele unterstützen. 
+  Sie binden alle relevanten Parteien ein. 
+  Sie verfügen über Mechanismen, um die Bedürfnisse externer Kunden zu erfassen. 

 **Typische Anti-Muster:** 
+  Sie haben sich entschieden, außerhalb der Kerngeschäftszeiten keinen Kundenservice zu bieten, aber Sie haben dazu keine historischen Supportanfragedaten analysiert. Daher wissen Sie nicht, ob diese Entscheidung Auswirkungen auf Ihre Kunden hat. 
+  Sie entwickeln ein neues Feature, haben aber Ihre Kunden nicht miteinbezogen, um herauszufinden, ob die Funktion erwünscht ist und wie sie genau aussehen sollte. Außerdem haben Sie keine Tests durchgeführt, um die Nachfrage und die Methode der Bereitstellung zu validieren. 

 **Vorteile der Nutzung dieser bewährten Methode:** Kunden, deren Anforderungen erfüllt sind, bleiben mit höherer Wahrscheinlichkeit als Kunden erhalten. Die Bewertung und das Verständnis externer Kundenbedürfnisse liefert die Grundlage dafür, wie Sie Ihre Anstrengungen zur Bereitstellung eines geschäftlichen Mehrwerts priorisieren. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 **Geschäftliche Anforderungen verstehen:** Der geschäftliche Erfolg basiert auf gemeinsamen Zielen und der Kommunikation zwischen allen Stakeholdern, zu denen auch die Teams aus den Bereichen Geschäft, Entwicklung und Betrieb gehören. 

 **Besprechen der geschäftlichen Ziele, Anforderungen und Prioritäten externer Kunden:** Führen Sie wichtige Beteiligte zusammen, einschließlich Geschäfts-, Entwicklungs- und Betriebsteams, um die Ziele, Anforderungen und Prioritäten externer Kunden zu besprechen.. Dadurch wird sichergestellt, dass Sie mit der betrieblichen Unterstützung vertraut sind, die erforderlich ist, um die gewünschten Geschäfts- und Kundenergebnisse zu erzielen. 

 **Schaffen Sie ein gemeinsames Verständnis:** Sorgen Sie dafür, dass alle Beteiligten die Geschäftsfunktionen des Workloads und die Rollen der einzelnen Teams bei den Workload-spezifischen betrieblichen Abläufen kennen. Außerdem sollte bekannt sein, wie diese Faktoren die gemeinsamen Geschäftsziele mit internen und externen Kunden beeinflussen. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS11-BP03 Implementieren von Feedbackschleifen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_feedback_loops.html) 

# OPS01-BP02 Evaluieren Sie die internen Kundenbedürfnisse
<a name="ops_priorities_int_cust_needs"></a>

 Binden Sie alle wichtigen Stakeholder ein, einschließlich Geschäfts-, Entwicklungs- und Betriebsteams, um zu bestimmen, welche Bereiche verstärkt auf die Bedürfnisse der internen Kunden ausgerichtet werden müssen. Dadurch wird sichergestellt, dass Sie mit der betrieblichen Unterstützung vertraut sind, die erforderlich ist, um geschäftliche Ergebnisse zu erzielen. 

 **Gewünschtes Ergebnis:** 
+  Anhand Ihrer etablierten Prioritäten können Sie erkennen, an welchen Stellen die Verbesserungsbemühungen konzentriert werden sollten (z. B. Teamfähigkeiten entwickeln, die Workload-Leistung verbessern, Kosten senken, Runbooks automatisieren oder die Überwachung ausbauen). 
+  Wenn sich Anforderungen ändern, aktualisieren Sie Ihre Prioritäten entsprechend. 

 **Typische Anti-Muster:** 
+  Sie haben sich entschieden, die Zuweisung von IP-Adressen für Ihre Produktteams zu ändern, um die Netzwerkverwaltung zu vereinfachen. Dabei haben Sie jedoch nicht mit den Mitarbeitern gesprochen. Sie wissen also nicht, welche Auswirkungen diese Änderung auf Ihre Produktteams haben wird. 
+  Sie implementieren ein neues Entwicklungstool, haben aber Ihre internen Kunden nicht einbezogen, um herauszufinden, ob das Tool benötigt wird oder mit den Abläufen der Kunden kompatibel ist. 
+  Sie implementieren ein neues Überwachungssystem, haben aber Ihre internen Kunden nicht kontaktiert, um herauszufinden, ob spezifische Überwachungs- oder Berichtsanforderungen vorliegen, die berücksichtigt werden sollten. 

 **Vorteile der Nutzung dieser bewährten Methode:** Die Bewertung und das Verständnis interner Kundenbedürfnisse liefert die Grundlage dafür, wie Sie Ihre Anstrengungen zur Bereitstellung eines geschäftlichen Mehrwerts priorisieren. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>
+  Verstehen Sie die geschäftlichen Anforderungen: Der geschäftliche Erfolg basiert auf gemeinsamen Zielen und der Kommunikation zwischen allen Stakeholdern, zu denen auch die Teams aus den Bereichen Geschäft, Entwicklung und Betrieb gehören. 
+  Überprüfen Sie die geschäftlichen Ziele, Anforderungen und Prioritäten interner Kunden: Führen Sie wichtige Stakeholder zusammen, einschließlich Geschäfts-, Entwicklungs- und Betriebsteams, um die Ziele, Anforderungen und Prioritäten interner Kunden zu besprechen. Dadurch wird sichergestellt, dass Sie mit der betrieblichen Unterstützung vertraut sind, die erforderlich ist, um die gewünschten Geschäfts- und Kundenergebnisse zu erzielen. 
+  Schaffen Sie ein gemeinsames Verständnis: Sorgen Sie dafür, dass alle Beteiligten die Geschäftsfunktionen des Workloads und die Rollen der einzelnen Teams bei den Workload-spezifischen betrieblichen Abläufen kennen. Außerdem sollte bekannt sein, wie diese Faktoren die gemeinsamen Geschäftsziele mit internen und externen Kunden beeinflussen. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:**
+  [OPS11-BP03 Implementieren Sie Feedback-Schleifen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_feedback_loops.html) 

# OPS01-BP03 Bewertung der Governance-Anforderungen
<a name="ops_priorities_governance_reqs"></a>

 Governance bezeichnet die Richtlinien, Regeln oder Rahmen, die ein Unternehmen nutzt, um die geschäftlichen Ziele zu erreichen. Die Governance-Anforderungen werden innerhalb Ihrer Organisation erstellt. Sie können sich darauf auswirken, welche Arten von Technologien Sie nutzen oder wie Sie Ihre Workload ausführen. Integrieren Sie die Governance-Anforderungen Ihrer Organisation in Ihren Workload. Konformität ist die Fähigkeit, nachzuweisen, dass Sie die Governance-Anforderungen implementiert haben. 

 **Gewünschtes Ergebnis:** 
+  Die Governance-Anforderungen werden in das Architekturdesign und den Betrieb Ihres Workloads integriert. 
+  Sie können nachweisen, dass Sie den Governance-Anforderungen nachkommen. 
+  Die Governance-Anforderungen werden regelmäßig überprüft und aktualisiert. 

 **Typische Anti-Muster:** 
+ Ihre Organisation verlangt Multi-Faktor-Authentifizierung für das Stammkonto. Sie haben diese Anforderung nicht implementiert und das Stammkonto wurde kompromittiert.
+ Während des Entwurfs Ihres Workloads wählen Sie einen Instance-Typ, der nicht von der IT-Abteilung genehmigt wurde. Sie können Ihren Workload nicht starten und müssen ihn überarbeiten.
+ Sie sind verpflichtet, über einen Plan für die Notfallwiederherstellung zu verfügen. Sie haben keinen solchen Plan erstellt und Ihr Workload ist von einem längeren Ausfall betroffen.
+  Ihr Team möchte neue Instances verwenden, Ihre Governance-Anforderungen wurden jedoch nicht aktualisiert, sodass die Instances nicht zulässig sind. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Durch das Erfüllen der Governance-Anforderungen wird Ihr Workload auf die größeren Organisationsrichtlinien abgestimmt. 
+  Die Governance-Anforderungen spiegeln Branchenstandards und bewährte Methoden für Ihre Organisation wider. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

Ermitteln Sie Governance-Anforderungen, indem Sie mit Stakeholdern und Governance-Organisationen zusammenarbeiten. Integrieren Sie die Governance-Anforderungen in Ihren Workload. Seien Sie in der Lage, nachzuweisen, dass Sie den Governance-Anforderungen nachkommen.

 **Kundenbeispiel** 

 Bei AnyCompany Retail arbeitet das Cloud-Operations-Team mit Stakeholdern im gesamten Unternehmen zusammen, um die Governance-Anforderungen zu entwickeln. Sie verbieten beispielsweise den SSH Zugriff auf EC2 Amazon-Instances. Wenn Teams Systemzugriff benötigen, müssen sie AWS Systems Manager Session Manager verwenden. Das Cloud-Operations-Team aktualisiert die Governance-Anforderungen regelmäßig, sobald neue Services verfügbar sind. 

 **Implementierungsschritte** 

1.  Identifizieren Sie die Stakeholder für Ihren Workload, einschließlich zentralisierter Teams. 

1.  Arbeiten Sie mit den Stakeholdern zusammen, um Governance-Anforderungen zu ermitteln. 

1.  Nachdem Sie eine Liste erstellt haben, ordnen Sie die Verbesserungspunkte entsprechend der Priorität und beginnen Sie damit, sie in Ihren Workload zu implementieren. 

   1.  Verwenden Sie Dienste wie [AWS Config](https://aws.amazon.com/blogs/industries/best-practices-for-aws-organizations-service-control-policies-in-a-multi-account-environment/)die Erstellung governance-as-code und Überprüfung der Einhaltung von Governance-Anforderungen. 

   1.  Wenn Sie [AWS Organizations](https://docs.aws.amazon.com/organizations/latest/userguide/orgs_manage_policies_scps.html) verwenden, können Sie Governance-Anforderungen mithilfe von Service-Kontrollrichtlinien (Service Control Policies, SCP) implementieren. 

1.  Stellen Sie Unterlagen bereit, die die Implementierung bestätigen. 

 **Aufwand für den Implementierungsplan:** Mittel. Die Implementierung fehlender Governance-Anforderungen kann dazu führen, dass Sie Ihren Workload überarbeiten müssen. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS01-BP04 Bewerten der Compliance-Anforderungen](ops_priorities_compliance_reqs.md) – Compliance ist ähnlich wie Unternehmensführung, kommt jedoch von außerhalb des Unternehmens. 

 **Zugehörige Dokumente:** 
+ [AWS Leitfaden für Verwaltung und Governance zur Cloud-Umgebung](https://docs.aws.amazon.com/wellarchitected/latest/management-and-governance-guide/management-and-governance-cloud-environment-guide.html)
+ [Bewährte Methoden für Richtlinien zur AWS Organizations Servicesteuerung in einer Umgebung mit mehreren Konten](https://aws.amazon.com/blogs/industries/best-practices-for-aws-organizations-service-control-policies-in-a-multi-account-environment/)
+ [Unternehmensführung in der AWS Cloud: Das richtige Gleichgewicht zwischen Agilität und Sicherheit](https://aws.amazon.com/blogs/apn/governance-in-the-aws-cloud-the-right-balance-between-agility-and-safety/)
+ [Was sind Unternehmensführung, Risiko und Compliance (GRC)?](https://aws.amazon.com/what-is/grc/)

 **Zugehörige Videos:** 
+ [AWS Management und Unternehmensführung: Konfiguration, Compliance und Prüfung — AWS Online Tech Talks](https://www.youtube.com/watch?v=79ud1ZAaoj0)
+ [AWS re:INFORCE 2019: Governance für das Cloud-Zeitalter (-R1) DEM12](https://www.youtube.com/watch?v=y3WmHnavuN8)
+ [AWS re:Invent 2020: Konformität als Code erreichen mit AWS Config](https://www.youtube.com/watch?v=m8vTwvbzOfw)
+ [AWS re:Invent 2020: Agile Unternehmensführung auf AWS GovCloud (US)](https://www.youtube.com/watch?v=hv6B17eriHQ)

 **Zugehörige Beispiele:** 
+ [AWS Config Beispiele für das Konformitätspaket](https://docs.aws.amazon.com/config/latest/developerguide/conformancepack-sample-templates.html)

 **Zugehörige Services:** 
+ [AWS Config](https://aws.amazon.com/config/)
+ [AWS Organizations - Richtlinien zur Servicekontrolle](https://docs.aws.amazon.com/organizations/latest/userguide/orgs_manage_policies_scps.html)

# OPS01-BP04 Bewerten der Compliance-Anforderungen
<a name="ops_priorities_compliance_reqs"></a>

Regulatorische, branchenspezifische und interne Compliance-Anforderungen sind ein wichtiger Faktor, wenn Sie die Prioritäten Ihrer Organisation definieren. Ihr Compliance-Regelwerk hindert Sie möglicherweise daran, spezifische Technologien oder geografische Standorte zu nutzen. Wenden Sie die erforderliche Sorgfalt an, wenn keine externen Compliance-Regelwerke identifiziert sind. Erstellen Sie Audits oder Berichte, die die Compliance bestätigen.

 Wenn Sie damit werben, dass Ihr Produkt bestimmte Compliance-Standards erfüllt, benötigen Sie einen internen Prozess zur kontinuierlichen Gewährleistung der Compliance. Beispiele für Compliance-Standards umfassen PCI DSS, FedRAMP und HIPAA. Die geltenden Compliance-Standards werden durch verschiedene Faktoren bestimmt, beispielsweise dadurch, welche Datentypen von der Lösung gespeichert oder gesendet werden und welche geografischen Regionen die Lösung unterstützt. 

 **Gewünschtes Ergebnis:** 
+  Die regulatorischen, branchenspezifischen und internen Compliance-Anforderungen werden bei der Auswahl der Architektur berücksichtigt. 
+  Sie können die Compliance bestätigen und Audit-Berichte erstellen. 

 **Typische Anti-Muster:** 
+ Teile Ihres Workloads fallen unter das Regelwerk des Payment Card Industry Data Security Standard (PCI-DSS), Ihr Workload speichert Kreditkartendaten jedoch unverschlüsselt.
+ Ihren Software-Entwicklern und -Architekten ist das Compliance-Regelwerk, das Ihre Organisation einhalten muss, nicht bekannt.
+  Das jährliche Audit Systems and Organizations Control (SOC2) Type II steht bevor und Sie können nicht nachweisen, dass Kontrollelemente implementiert sind. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Die Bewertung und das Verständnis der Compliance-Anforderungen für Ihren Workload liefern die Grundlage dafür, wie Sie Ihre Anstrengungen zur Bereitstellung eines geschäftlichen Mehrwerts priorisieren. 
+  Sie wählen die Ihrem Compliance-Regelwerk entsprechenden Standorte und Technologien. 
+  Indem Sie Ihren Workload so entwerfen, dass Überprüfungen möglich sind, können Sie leichter nachweisen, dass Sie das Compliance-Regelwerk einhalten. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Wenn Sie diese bewährte Methode implementieren, bedeutet dies, dass Sie Compliance-Anforderungen in den Entwurfsprozess für Ihre Architektur integrieren. Ihren Teammitgliedern ist das erforderliche Compliance-Regelwerk bekannt. Sie bestätigen Ihre Compliance mit diesem Regelwerk. 

 **Kundenbeispiel** 

 AnyCompany Retail speichert Kreditkarteninformationen für Kunden. Die Entwickler im Team für die Kartenspeicherung wissen, dass sie das PCI-DSS-Regelwerk einhalten müssen. Sie haben Schritte unternommen, um nachzuweisen, dass die Kreditkarteninformationen in Übereinstimmung mit dem PCI-DSS-Regelwerk sicher gespeichert und aufgerufen werden. Jedes Jahr arbeiten sie mit dem Sicherheitsteam zusammen, um die Compliance zu bestätigen. 

 **Implementierungsschritte** 

1.  Arbeiten Sie mit Ihrem Sicherheits- und Governance-Team zusammen, um zu ermitteln, welche branchenspezifischen, regulatorischen oder internen Compliance-Regelwerke Ihr Workload einhalten muss. Integrieren Sie die Compliance-Regelwerke in Ihren Workload. 

   1.  Validieren Sie die kontinuierliche Compliance von AWS-Ressourcen mit Services wie [AWS Compute Optimizer](https://docs.aws.amazon.com/compute-optimizer/latest/ug/what-is-compute-optimizer.html) und [AWS Security Hub CSPM](https://docs.aws.amazon.com/securityhub/latest/userguide/what-is-securityhub.html). 

1.  Informieren Sie Ihre Teammitglieder über die Compliance-Anforderungen, damit diese den Workload in Übereinstimmung mit den Anforderungen betreiben und weiterentwickeln können. Die Compliance-Anforderungen sollten bei architektur- und technologiebezogenen Entscheidungen berücksichtigt werden. 

1.  Je nach Compliance-Regelwerk müssen Sie möglicherweise einen Audit- oder Compliance-Bericht erstellen. Arbeiten Sie mit Ihrer Organisation zusammen, um diesen Prozess so weit wie möglich zu automatisieren. 

   1.  Nutzen Sie Services wie [AWS Audit Manager](https://docs.aws.amazon.com/audit-manager/latest/userguide/what-is.html), um die Compliance zu validieren und Auditberichte zu erstellen. 

   1.  Sie können AWS-Sicherheits- und Compliance-Dokumente mit [AWS Artifact](https://docs.aws.amazon.com/artifact/latest/ug/what-is-aws-artifact.html) herunterladen. 

 **Aufwand für den Implementierungsplan:** Mittel. Die Implementierung von Compliance-Regelwerken kann eine Herausforderung darstellen. Das Erstellen von Audit-Berichten oder Compliance-Dokumenten sorgt für zusätzlichen Aufwand. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [SEC01-BP03 Identifizieren und Validieren von Kontrollzielen](https://docs.aws.amazon.com/wellarchitected/latest/framework/sec_securely_operate_control_objectives.html) – Sicherheits-Kontrollziele sind ein wichtiger Teil der Gesamt-Compliance. 
+  [SEC01-BP06 Automatisieren von Tests und Validierung von Sicherheitskontrollen in Pipelines](https://docs.aws.amazon.com/wellarchitected/latest/framework/sec_securely_operate_test_validate_pipeline.html) – Validieren Sie die Sicherheitskontrollen als Teil Ihrer Pipeline. Sie können auch eine Compliance-Dokumentation für neue Änderungen erstellen. 
+  [SEC07-BP02 Definieren von Datenschutzkontrollen](https://docs.aws.amazon.com/wellarchitected/latest/framework/sec_data_classification_define_protection.html) – Bei vielen Compliance-Frameworks sind Datenverarbeitung und -speicherung richtlinienbasiert. 
+  [SEC10-BP03 Vorbereiten forensischer Funktionen](https://docs.aws.amazon.com/wellarchitected/latest/framework/sec_incident_response_prepare_forensic.html) – Forensische Funktionen können manchmal bei der Prüfungs-Compliance verwendet werden. 

 **Zugehörige Dokumente:** 
+ [AWS Compliance Center ](https://aws.amazon.com/financial-services/security-compliance/compliance-center/)
+ [AWS-Compliance-Ressourcen ](https://aws.amazon.com/compliance/resources/)
+ [AWS-Risiko und -Compliance (Whitepaper)](https://docs.aws.amazon.com/whitepapers/latest/aws-risk-and-compliance/welcome.html)
+ [AWSModell der übergreifenden Verantwortlichkeit](https://aws.amazon.com/compliance/shared-responsibility-model/)
+ [AWS-Services im Rahmen des Compliance-Programms](https://aws.amazon.com/compliance/services-in-scope/)

 **Zugehörige Videos:** 
+ [AWS re:Invent 2020: Achieve compliance as code using AWS Compute Optimizer](https://www.youtube.com/watch?v=m8vTwvbzOfw)
+ [AWS re:Invent 2.021 - Cloud compliance, assurance, and auditing ](https://www.youtube.com/watch?v=pdrYGVgb08Y)
+ [AWS Summit ATL 2.022 - Implementing compliance, assurance, and auditing on AWS (COP202) ](https://www.youtube.com/watch?v=i7XrWimhqew)

 **Zugehörige Beispiele:** 
+ [ PCI DSS und AWS Foundational Security Best Practices auf AWS](https://aws.amazon.com/solutions/partners/compliance-pci-fsbp-remediation/)

 **Zugehörige Services:** 
+ [AWS Artifact](https://docs.aws.amazon.com/artifact/latest/ug/what-is-aws-artifact.html)
+ [AWS Audit Manager](https://docs.aws.amazon.com/audit-manager/latest/userguide/what-is.html)
+ [AWS Compute Optimizer](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html)
+ [AWS Security Hub CSPM](https://docs.aws.amazon.com/securityhub/latest/userguide/what-is-securityhub.html)

# OPS01-BP05 Bewerten Sie die Bedrohungslandschaft
<a name="ops_priorities_eval_threat_landscape"></a>

 Bewerten Sie Bedrohungen für das Unternehmen (z. B. Wettbewerb, Geschäftsrisiken und -verpflichtungen, operative Risiken und Bedrohungen der Informationssicherheit) und pflegen Sie aktuelle Informationen in einem Risikoregister. Berücksichtigen Sie die Auswirkungen von Risiken, wenn Sie bestimmen, auf welche Bereiche die Anstrengungen fokussiert werden sollen. 

 Das [Well-Architected Framework](https://aws.amazon.com/architecture/well-architected/) legt den Schwerpunkt auf Lernen, Messen und Verbessern. Es bietet Ihnen einen konsistenten Ansatz zur Bewertung von Architekturen und zur Implementierung von Designs, die sich im Laufe der Zeit skalieren lassen. AWS bietet die [AWS Well-Architected Tool](https://aws.amazon.com/well-architected-tool/)Möglichkeit, Ihren Ansatz vor der Entwicklung, den Status Ihrer Workloads vor der Produktion und den Status Ihrer Workloads in der Produktion zu überprüfen. Sie können sie mit den neuesten bewährten AWS Architekturpraktiken vergleichen, den Gesamtstatus Ihrer Workloads überwachen und Einblicke in potenzielle Risiken gewinnen. 

 AWS Kunden haben Anspruch auf eine geführte Well-Architected-Überprüfung ihrer unternehmenskritischen Workloads, um ihre Architekturen anhand von Best Practices [zu](https://aws.amazon.com/premiumsupport/programs/) bewerten. AWS Für Kunden mit Enterprise Support wird eine [Betriebsüberprüfung (Operations Review)](https://aws.amazon.com/premiumsupport/programs/) angeboten. Damit haben sie die Möglichkeit, Lücken in ihrem Cloud-Ansatz aufzuzeigen. 

 Aufgrund der teamübergreifenden Natur dieser Überprüfungen erhalten Sie ein allgemeines Verständnis Ihrer Workloads und können erkennen, wie Team-Rollen zum Erfolg beitragen. Die bei den Überprüfungen gefundenen Punkte können Ihnen beim Festlegen Ihrer Prioritäten helfen. 

 [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/) bietet als Tool Zugriff auf verschiedene wichtige Prüfungen, die Optimierungsempfehlungen ausgeben. Diese Informationen können Ihnen beim Festlegen Ihrer Prioritäten helfen. [Kunden mit Business und Enterprise Support](https://aws.amazon.com/premiumsupport/plans/) erhalten Zugriff auf weitere Prüfungen in den Bereichen Sicherheit, Zuverlässigkeit, Leistung und Kostenoptimierung, die beim Festlegen von Prioritäten noch hilfreicher sind. 

 **Gewünschtes Ergebnis:** 
+  Du überprüfst Well-Architected und die Ergebnisse regelmäßig und reagierst entsprechend Trusted Advisor 
+  Sie sind über den neuesten Patch-Status Ihrer Services informiert. 
+  Sie kennen das Risiko und die Auswirkungen bekannter Bedrohungen und handeln entsprechend. 
+  Sie implementieren bei Bedarf Abhilfemaßnahmen. 
+  Sie kommunizieren Aktionen und Kontext. 

 **Typische Anti-Muster:** 
+  Sie verwenden in Ihrem Produkt eine alte Version einer Softwarebibliothek. Ihnen ist nicht bewusst, dass für die Bibliothek Sicherheitsaktualisierungen vorliegen, mit denen Probleme behoben werden, die unbeabsichtigte Auswirkungen auf Ihren Workload haben können. 
+  Ein Mitbewerber hat soeben eine Version seines Produkts veröffentlicht, in der viele Probleme behoben werden, die Kunden an Ihrem Produkt bemängeln. Die Behebung dieser bekannten Probleme hatte für Sie bisher keine Priorität. 
+  Regulierungsbehörden nehmen Unternehmen wie Ihres, die nicht den gesetzlichen Compliance-Anforderungen entsprechen, verstärkt ins Visier. Sie haben Ihre ausstehenden Compliance-Anforderungen nicht priorisiert. 

 **Vorteile der Nutzung dieser bewährten Methode:** Sie identifizieren und verstehen die Bedrohungen für Ihr Unternehmen und Ihren Workload und können daher besser bestimmen, welche Bedrohungen angegangen werden müssen, wo die Prioritäten liegen und welche Ressourcen dafür erforderlich sind. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>
+  **Bewerten der Bedrohungsszenarien:** Bewerten Sie Bedrohungen für das Unternehmen (z. B. Konkurrenz, Geschäftsrisiken und -verpflichtungen, operative Risiken und Bedrohungen der Informationssicherheit), damit Sie die jeweiligen Auswirkungen berücksichtigen können, wenn Sie bestimmen, auf welche Bereiche die operativen Anstrengungen konzentriert werden sollten. 
  +  [Aktuelle AWS -Sicherheitsmitteilungen](https://aws.amazon.com/security/security-bulletins/) 
  +  [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/trustedadvisor/) 
+  **Verwalten eines Bedrohungsmodells:** Erstellen und verwalten Sie ein Bedrohungsmodell, in dem potenzielle Bedrohungen, geplante und vorhandene Maßnahmen und deren Priorität festgehalten werden. Untersuchen Sie, wie wahrscheinlich es ist, dass sich Bedrohungen als Vorfälle äußern, wie hoch die Kosten für die Wiederherstellung nach diesen Vorfällen sind, welche Schäden zu erwarten sind und wie viel es kostet, diese Vorfälle zu verhindern. Überarbeiten Sie die Prioritäten, wenn sich der Inhalt des Bedrohungsmodells ändert. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methode:** 
+  [SEC01-BP07 Identifizieren Sie Bedrohungen und priorisieren Sie Abhilfemaßnahmen mithilfe eines Bedrohungsmodells](https://docs.aws.amazon.com/wellarchitected/latest/security-pillar/sec_securely_operate_threat_model.html) 

 **Zugehörige Dokumente:** 
+  [AWS Cloud -Compliance](https://aws.amazon.com/compliance/) 
+  [Aktuelle AWS -Sicherheitsmitteilungen](https://aws.amazon.com/security/security-bulletins/) 
+  [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/trustedadvisor/) 

 **Zugehörige Videos:** 
+  [AWS re:Inforce 2023 – Tool für eine bessere Bedrohungsmodellierung](https://youtu.be/CaYCsmjuiHg?si=e_CXPGqRF4WeBr1u) 

# OPS01-BP06 Bewerten von Kompromissen und Abwägen der Vorteile und Risiken
<a name="ops_priorities_eval_tradeoffs"></a>

 Konkurrierende Interessen mehrerer Parteien können eine Herausforderung darstellen, wenn es darum geht, Anstrengungen zu priorisieren, Fähigkeiten aufzubauen und Ergebnisse zu erzielen, die auf die Geschäftsstrategien abgestimmt sind. So können Sie möglicherweise aufgefordert werden, die Markteinführung neuer Features zu beschleunigen, anstatt die Kosten für die IT-Infrastruktur zu optimieren. Dies kann dazu führen, dass die Interessen zweier Parteien miteinander in Widerspruch stehen. In solchen Situationen muss eine höhere Stelle hinzugezogen werden, um eine Entscheidung zur Lösung des Konflikts zu treffen. Daten sind erforderlich, um den Entscheidungsprozess von emotionalen Komponenten zu befreien. 

 Ähnliche Herausforderungen können auf taktischer Ebene auftreten. Beispielsweise kann die Wahl zwischen relationalen oder nicht relationalen Datenbanktechnologien erhebliche Auswirkungen auf den Betrieb einer Anwendung haben. Daher ist es wichtig, die voraussichtlichen Ergebnisse verschiedener Entscheidungen zu verstehen. 

 AWS kann Ihnen helfen, Ihre Teams über AWS und die verfügbaren Services zu schulen, sodass alle Mitarbeiter wissen, welche Auswirkungen ihre Entscheidungen auf Ihre Workload haben können. Nutzen Sie bei der Schulung Ihrer Teams die vom [Support](https://aws.amazon.com/premiumsupport/programs/) ([AWS Knowledge Center](https://aws.amazon.com/premiumsupport/knowledge-center/), [AWS-Diskussionsforen](https://forums.aws.amazon.com/index.jspa) und [Support Center](https://console.aws.amazon.com/support/home/)) bereitgestellten Ressourcen und [AWS-Dokumente](https://docs.aws.amazon.com/). Bei weiteren Fragen wenden Sie sich bitte an Support. 

 AWS stellt in der [Amazon Builders' Library](https://aws.amazon.com/builders-library/) auch bewährte betriebliche Methoden und Muster vor. Eine Vielzahl weiterer nützlicher Informationen finden Sie im [AWS-Blog](https://aws.amazon.com/blogs/) und im [offiziellen AWS-Podcast](https://aws.amazon.com/podcasts/aws-podcast/). 

 **Gewünschtes Ergebnis:** Sie verfügen über ein klar definiertes Governance-Framework zur Entscheidungsfindung, um wichtige Entscheidungen auf jeder Ebene in Ihrem Cloud-Bereistellungsunternehmen zu erleichtern. Dieses Framework umfasst Features wie ein Risikoregister, definierte Rollen mit Entscheidungsbefugnissen und definierte Modelle für die einzelnen Entscheidungsebenen. Dieses Framework legt im Voraus fest, wie Konflikte gelöst werden, welche Daten präsentiert werden müssen und wie Optionen priorisiert werden, sodass Sie einmal gefasste Beschlüsse sofort umsetzen können. Das Framework zur Entscheidungsfindung beinhaltet einen standardisierten Ansatz zur Überprüfung und Abwägung der Vorteile und Risiken einzelner Entscheidungen, um die Tragweite etwaiger Kompromisse abzuschätzen. Dazu können externe Faktoren gehören wie die Einhaltung gesetzlicher Vorschriften. 

 **Typische Anti-Muster:** 
+  Ihre Investoren fordern, dass Sie die Compliance mit Payment Card Industry Data Security Standards (PCI DSS) nachweisen. Sie denken nicht über einen möglichen Kompromiss zwischen der Erfüllung dieser Anfrage und der Fortsetzung Ihrer derzeitigen Entwicklungsaktivitäten nach. Stattdessen fahren Sie mit der Entwicklung fort, ohne einen Compliance-Nachweis zu erbringen. Ihre Investoren beenden die Unterstützung Ihres Unternehmens, da sie Bedenken bezüglich der Sicherheit Ihrer Plattform und ihrer Investitionen haben. 
+  Sie haben sich entschieden, eine Bibliothek einzubinden, die einer Ihrer Entwickler „im Internet entdeckt“ hat. Sie haben keine Bewertung der Risiken durchgeführt, die die Einführung dieser Bibliothek aus einer unbekannten Quelle bergen kann, und wissen nicht, ob sie Schwachstellen oder schädlichen Code enthält. 
+  Die ursprüngliche geschäftliche Begründung für Ihre Migration basierte auf der Modernisierung von 60 % Ihrer Anwendungsworkloads. Aufgrund technischer Schwierigkeiten wurde jedoch beschlossen, nur 20 % zu modernisieren. Dies führte langfristig zu einer Reduzierung der geplanten Leistungen, zu einem erhöhten Aufwand für die Infrastrukturteams bei der manuellen Wartung von Legacy-Systemen und zu einer stärkeren Abhängigkeit von der Entwicklung neuer Fähigkeiten in Ihren Infrastrukturteams, die diese Änderung nicht geplant hatten. 

 **Vorteile der Nutzung dieser bewährten Methode:** Vollständige Abstimmung und Unterstützung der Geschäftsprioritäten auf Vorstandsebene, Verständnis der Erfolgsrisiken, Treffen fundierter Entscheidungen und angemessenes Handeln, wenn Risiken die Erfolgschancen beeinträchtigen. Indem Sie die Auswirkungen und Konsequenzen Ihrer Entscheidungen verstehen, können Sie Ihre Optionen priorisieren und Führungskräfte schneller zu einer Einigung bringen, was zu besseren Geschäftsergebnissen führt. Wenn Sie die Vorteile Ihrer Entscheidungen erkennen und sich der Risiken für Ihre Organisation bewusst sind, können Sie datengestützte Entscheidungen treffen, anstatt sich auf Anekdoten verlassen zu müssen. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Die Abwägung von Nutzen und Risiken sollte von einem Leitungsorgan übernommen werden, das die Anforderungen für wichtige Entscheidungen festlegt. Sie möchten, dass Entscheidungen basierend auf ihrem Nutzen für die Organisation getroffen und priorisiert werden und die damit verbundenen Risiken bekannt sind. Präzise Informationen bilden die Grundlage für die Entscheidungen Ihrer Organisation. Diese sollten auf soliden Messungen beruhen und durch branchenübliche Verfahren der Kosten-Nutzen-Analyse definiert werden. Damit Entscheidungen auf diese Art getroffen werden können, müssen Sie ein Gleichgewicht zwischen zentralisierter und dezentralisierter Autorität herstellen. Es gibt immer einen Kompromiss. Daher ist es wichtig zu verstehen, wie sich jede Entscheidung auf definierte Strategien und angestrebte Geschäftsergebnisse auswirkt. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  Formalisieren Sie die Verfahren zur Leistungsmessung innerhalb eines ganzheitlichen Cloud-Governance-Frameworks. 

   1.  Bringen Sie die zentrale Kontrolle der Entscheidungsfindung in Einklang mit konkreten dezentralen Entscheidungsbefugnissen. 

   1.  Machen Sie sich bewusst, dass nicht für jeden Beschluss aufwendige Entscheidungsprozesse vonnöten sind, da sie Sie verlangsamen können. 

   1.  Integrieren Sie externe Faktoren in Ihren Entscheidungsprozess (wie Compliance-Anforderungen). 

1.  Richten Sie ein gemeinsames Framework zur Entscheidungsfindung für verschiedene Entscheidungsebenen ein, in dem festgelegt ist, wer Entscheidungen bei widersprüchlichen Interessen trifft. 

   1.  Zentralisieren Sie einseitige Entscheidungen, die irreversibel sein könnten. 

   1.  Lassen Sie leicht revidierbare Entscheidungen von Führungskräften auf niedrigerer Ebene treffen. 

1.  Machen Sie sich mit den Nutzen und Risiken vertraut und wägen Sie sie ab. Wägen Sie den Nutzen von Entscheidungen gegen die damit einhergehenden Risiken ab. 

   1.  **Ermitteln von Vorteilen:** Ermitteln Sie die Vorteile auf Basis der geschäftlichen Ziele, Anforderungen und Prioritäten. Beispiele hierfür sind die Auswirkungen auf den Business Case, die Markteinführungszeit, Sicherheit, Zuverlässigkeit, Leistung und Kosten. 

   1.  **Ermitteln von Risiken:** Ermitteln Sie die Risiken auf Basis der geschäftlichen Ziele, Anforderungen und Prioritäten. Zu diesen Prioritäten zählen beispielsweise eine kurze Markteinführungszeit, Sicherheit, Zuverlässigkeit, Leistung und Kosten. 

   1.  **Abwägen von Vorteilen und Risiken und Treffen fundierter Entscheidungen:** Bestimmen Sie die Auswirkungen von Vorteilen und Risiken anhand der Ziele, Anforderungen und Prioritäten der wichtigsten Beteiligten, zu denen auch Geschäfts-, Entwicklungs- und Betriebsteams zählen. Bewerten Sie den Wert eines Vorteils anhand der Wahrscheinlichkeit, dass sich das Risiko tatsächlich bewahrheitet, sowie der Kosten der jeweiligen Auswirkungen. Eine schnellere Markteinführung zu Lasten der Zuverlässigkeit könnte beispielsweise einen Wettbewerbsvorteil bedeuten. Wenn jedoch Probleme mit der Zuverlässigkeit auftreten, kann dies zu einer verringerten Betriebszeit führen. 

1.  Setzen Sie wichtige Entscheidungen programmatisch um, um die Einhaltung von Compliance-Anforderungen zu automatisieren. 

1.  Nutzen Sie branchenübliche Frameworks und Funktionen wie Value Stream Analysis und LEAN, um die aktuelle Leistung und Geschäftsmetriken abzubilden und Iterationen der Fortschritte zur Verbesserung dieser Metriken zu definieren. 

 **Aufwand für den Implementierungsplan:** Mittel-Hoch 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS01-BP05 Bewerten der Bedrohungsszenarien](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_priorities_eval_threat_landscape.html) 

 **Zugehörige Dokumente:** 
+  [Elemente der Day-1-Kultur von Amazon \$1 Hochwertige und schnelle Entscheidungen treffen](https://aws.amazon.com/executive-insights/content/how-amazon-defines-and-operationalizes-a-day-1-culture/) 
+  [Cloud-Governance](https://aws.amazon.com/cloudops/cloud-governance/) 
+  [Verwaltungs- und Governance-Cloud-Umgebung](https://docs.aws.amazon.com/wellarchitected/latest/management-and-governance-guide/management-and-governance-cloud-environment-guide.html?did=wp_card&trk=wp_card) 
+  [Governance in der Cloud und im digitalen Zeitalter: Teil eins und Teil zwei](https://aws.amazon.com/blogs/enterprise-strategy/governance-in-the-cloud-and-in-the-digital-age-part-one/) 

 **Zugehörige Videos:** 
+  [Podcast \$1 Jeff Bezos \$1 So trifft man Entscheidungen](https://www.youtube.com/watch?v=VFwCGECvq4I) 

 **Zugehörige Beispiele:** 
+  [Mithilfe von Daten fundierte Entscheidungen treffen (The DevOps Sagas)](https://docs.aws.amazon.com/wellarchitected/latest/devops-guidance/oa.bcl.10-make-informed-decisions-using-data.html) 
+  [Verwendung von Wertstromanalysen für die Entwicklung, um Hindernisse für DevOps-Ergebnisse zu identifizieren](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-devops-value-stream-mapping/introduction.html) 

# OPS 2. Wie strukturieren Sie Ihr Unternehmen, um die gewünschten Geschäftsergebnisse zu erzielen?
<a name="ops-02"></a>

 Ihre Teams müssen ihre Rolle beim Erreichen von Geschäftsergebnissen verstehen. Teams sollten ihre Rolle für den Erfolg anderer Teams und die Rolle anderer Teams für ihren Erfolg verstehen und gemeinsame Ziele haben. Indem sie die Konzepte Verantwortlichkeit und Zuständigkeit verstehen und wissen, wie Entscheidung getroffen werden und wer dazu berechtigt ist, können ihre Anstrengungen fokussiert und der Nutzen Ihrer Teams maximiert werden. 

**Topics**
+ [

# OPS02-BP01 Ressourcen haben Eigentümer identifiziert
](ops_ops_model_def_resource_owners.md)
+ [

# OPS02-BP02 Prozesse und Verfahren haben feste Besitzer
](ops_ops_model_def_proc_owners.md)
+ [

# OPS02-BP03 Betriebsaktivitäten haben feste Besitzer, die für ihre Leistung verantwortlich sind
](ops_ops_model_def_activity_owners.md)
+ [

# OPS02-BP04 Es gibt Mechanismen zur Verwaltung von Verantwortlichkeiten und Zuständigkeiten
](ops_ops_model_def_responsibilities_ownership.md)
+ [

# OPS02-BP05 Mechanismen zum Anfordern von Ergänzungen, Änderungen und Ausnahmen sind vorhanden
](ops_ops_model_req_add_chg_exception.md)
+ [

# OPS02-BP06 Zuständigkeiten zwischen Teams werden vordefiniert oder ausgehandelt
](ops_ops_model_def_neg_team_agreements.md)

# OPS02-BP01 Ressourcen haben Eigentümer identifiziert
<a name="ops_ops_model_def_resource_owners"></a>

 Die Ressourcen für Ihren Workload müssen für die Änderungskontrolle, die Fehlerbehebung und andere Funktionen feste Verantwortliche haben. Verantwortliche werden für Workloads, Konten, Infrastruktur, Plattformen und Anwendungen zugewiesen. Die Verantwortlichkeit wird mit Tools wie einem Zentralverzeichnis oder Metadaten zu Ressourcen erfasst. Der Unternehmenswert der Komponenten bestimmt, welche Prozesse und Verfahren auf diese angewendet werden. 

 **Gewünschtes Ergebnis:** 
+  Mithilfe von Metadaten oder einem Zentralverzeichnis werden feste Verantwortliche für die Ressourcen identifiziert. 
+  Die Teammitglieder können erkennen, wer für eine bestimmte Ressource verantwortlich ist. 
+  Konten haben wenn möglich einen festen Verantwortlichen. 

 **Typische Anti-Muster:** 
+  Die alternativen Kontakte für Sie AWS-Konten sind nicht eingetragen. 
+  Die Ressourcen sind nicht mit Tags markiert, die kennzeichnen, wer dafür verantwortlich ist. 
+  Sie haben eine ITSM Warteschlange ohne E-Mail-Zuordnung. 
+  Zwei Teams haben sich überschneidende Verantwortlichkeit für einen wichtigen Teil der Infrastruktur. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Dank der zugewiesenen Verantwortlichkeit ist die Änderungskontrolle ganz einfach. 
+  Wenn Probleme auftreten, können die richtigen Verantwortlichen einbezogen werden. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Definieren Sie, was Verantwortlichkeit für die Ressourcen-Anwendungsfälle in Ihrer Umgebung bedeutet. Verantwortlichkeit kann bedeuten, Änderungen an der Ressource zu beaufsichtigen, die Ressource während der Fehlerbehebung zu unterstützen oder die finanzielle Verantwortung zu tragen. Legen Sie Verantwortliche für Ressourcen fest und dokumentieren Sie diese. Die Angaben sollten den Namen, die Kontaktinformationen, die Organisation und das Team beinhalten. 

 **Kundenbeispiel** 

 AnyCompany Der Einzelhandel definiert Eigenverantwortung als das Team oder die Einzelperson, die für Änderungen verantwortlich ist und Ressourcen unterstützt. Sie nutzen AWS Organizations , um ihre zu verwalten AWS-Konten. Die alternativen Kontakte für die Konten werden mit Gruppenpostfächern konfiguriert. Jede ITSM Warteschlange ist einem E-Mail-Alias zugeordnet. Mithilfe von Tags wird angegeben, wem AWS Ressourcen gehören. Für andere Plattformen und Infrastruktur gibt es eine Wiki-Seite, auf der die Verantwortlichkeiten und die Kontaktinformationen angegeben sind. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  Beginnen Sie damit, die Verantwortlichkeiten für Ihre Organisation zu definieren. Verantwortlichkeit kann bedeuten, wer für das Risiko für die Ressource oder für Änderungen an der Ressource verantwortlich ist oder wer die Ressource im Fall einer Fehlerbehebung unterstützt. Verantwortlichkeit kann auch die finanzielle oder administrative Verantwortlichkeit für die Ressource umfassen. 

1.  Nutzen Sie [AWS Organizations](https://aws.amazon.com/organizations/) zur Verwaltung von Konten. Sie können die alternativen Kontakte für Ihre Konten zentral verwalten. 

   1.  Durch die Verwendung von E-Mail-Adressen und Telefonnummern des Unternehmens als Kontaktdaten können Sie auch dann auf sie zugreifen, wenn die Personen, zu denen sie gehören, nicht mehr Teil Ihrer Organisation sind. Erstellen Sie beispielsweise separate E-Mail-Verteilerlisten für die Abrechnung, die Produktion und die Sicherheit und konfigurieren Sie sie in jedem aktiven AWS-Konto als Abrechnungs-, Sicherheits- und Produktionskontakte. Mehrere Personen erhalten AWS Benachrichtigungen und können antworten, auch wenn jemand im Urlaub ist, die Rolle wechselt oder das Unternehmen verlässt. 

   1.  Wenn ein Konto nicht von [AWS Organizations](https://aws.amazon.com/organizations/) verwaltet wird, helfen alternative Kontokontakte AWS dabei, bei Bedarf Kontakt mit den entsprechenden Personen aufzunehmen. Konfigurieren Sie die alternativen Kontakte für ein Konto so, dass sie auf eine Gruppe verweisen, und nicht auf eine Einzelperson. 

1.  Verwenden Sie Tags, um Eigentümer von AWS Ressourcen zu identifizieren. Sie können die Verantwortlichen und ihre Kontaktdaten in verschiedenen Tags angeben. 

   1.  Sie können [AWS Config](https://aws.amazon.com/config/)-Regeln verwenden, um durchzusetzen, dass Ressourcen über die erforderlichen Eigentümerkennungen verfügen. 

   1.  Ausführliche Anleitungen zur Entwicklung einer Tagging-Strategie für Ihr Unternehmen finden Sie im [Whitepaper „Bewährte AWS -Tagging-Methoden“](https://docs.aws.amazon.com/whitepapers/latest/tagging-best-practices/tagging-best-practices.html). 

1.  Verwenden Sie [Amazon Q Business](https://aws.amazon.com/q/business/), einen Konversationsassistenten, der auf generativer KI basiert, um die Produktivität Ihrer Mitarbeiter zu steigern, Fragen zu beantworten und Aufgaben auf der Grundlage von Informationen in Ihren Unternehmenssystemen zu erledigen. 

   1.  Verbinden Sie Amazon Q Business mit der Datenquelle Ihres Unternehmens. Amazon Q Business bietet vorgefertigte Konnektoren für über 40 unterstützte Datenquellen, darunter Amazon Simple Storage Service (Amazon S3), Microsoft SharePoint, Salesforce und Atlassian Confluence. Weitere Informationen finden Sie unter [Amazon Q Business-Konnektoren](https://aws.amazon.com/q/business/connectors/). 

1.  Erstellen Sie für andere Ressourcen, Plattformen und Infrastruktur eine Dokumentation mit Informationen zur jeweiligen Verantwortlichkeit. Diese sollte für alle Teammitglieder zugänglich sein. 

 **Aufwand für den Implementierungsplan:** Niedrig. Nutzen Sie Kontokontaktinformationen und Tags, um die Inhaberschaft von Ressourcen zuzuweisen. AWS Für andere Ressourcen können Sie etwas so Einfaches wie eine Tabelle in einem Wiki verwenden, um Eigentums- und Kontaktinformationen aufzuzeichnen, oder ein ITSM Tool verwenden, um die Eigentumsverhältnisse zuzuordnen. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS02-BP02 Für Prozesse und Verfahren wurden die Verantwortlichen identifiziert](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_proc_owners.html) 
+  [OPS02-BP04 Es gibt Mechanismen zur Verwaltung von Verantwortlichkeiten und Eigenverantwortung](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_responsibilities_ownership.html) 

 **Zugehörige Dokumente:** 
+  [AWS -Kontoverwaltung – Aktualisieren der Kontaktinformationen](https://docs.aws.amazon.com/accounts/latest/reference/manage-acct-update-contact.html) 
+  [AWS Organizations - Aktualisierung alternativer Ansprechpartner in Ihrer Organisation](https://docs.aws.amazon.com/organizations/latest/userguide/orgs_manage_accounts_update_contacts.html) 
+  [Bewährte AWS -Tagging-Methoden (Whitepaper)](https://docs.aws.amazon.com/whitepapers/latest/tagging-best-practices/tagging-best-practices.html) 
+  [Entwickeln Sie private und sichere generative KI-Apps für Unternehmen mit Amazon Q Business and AWS IAM Identity Center](https://aws.amazon.com/blogs/machine-learning/build-private-and-secure-enterprise-generative-ai-apps-with-amazon-q-business-and-aws-iam-identity-center/) 
+  [Amazon Q Business (jetzt allgemein verfügbar) ermöglicht die Steigerung der Produktivität der Mitarbeiter mithilfe von generativer KI](https://aws.amazon.com/blogs/aws/amazon-q-business-now-generally-available-helps-boost-workforce-productivity-with-generative-ai/) 
+  [AWS Cloud Operations & Migrations Blog — Implementierung automatisierter und zentralisierter Tagging-Steuerungen mit und AWS ConfigAWS Organizations](https://aws.amazon.com/blogs/mt/implementing-automated-and-centralized-tagging-controls-with-aws-config-and-aws-organizations/) 
+  [AWS Sicherheitsblog — Erweitern Sie Ihre Pre-Commit-Hooks mit AWS CloudFormation Guard](https://aws.amazon.com/blogs/security/extend-your-pre-commit-hooks-with-aws-cloudformation-guard/) 
+  [AWS DevOps Blog — Integration AWS CloudFormation Guard in CI/CD-Pipelines](https://aws.amazon.com/blogs/devops/integrating-aws-cloudformation-guard/) 

 **Zugehörige Workshops:** 
+  [AWS -Workshop – Tagging](https://catalog.workshops.aws/tagging/) 

 **Zugehörige Beispiele:** 
+  [AWS-Config-Regeln - Amazon EC2 mit den erforderlichen Tags und gültigen Werten](https://github.com/awslabs/aws-config-rules/blob/master/python/ec2_require_tags_with_valid_values.py) 

 **Zugehörige Services:** 
+  [AWS-Config-Regeln - erforderliche Tags](https://docs.aws.amazon.com/config/latest/developerguide/required-tags.html) 
+  [AWS Organizations](https://aws.amazon.com/organizations/) 

# OPS02-BP02 Prozesse und Verfahren haben feste Besitzer
<a name="ops_ops_model_def_proc_owners"></a>

 Verschaffen Sie sich einen Überblick darüber, wer für die Definition einzelner Prozesse und Verfahren zuständig ist, warum diese spezifischen Prozesse und Verfahren verwendet werden und warum diese Zuständigkeit besteht. Wenn Sie wissen, warum bestimmte Prozesse und Verfahren verwendet werden, können Sie Verbesserungsmöglichkeiten identifizieren. 

 **Gewünschtes Ergebnis:** Ihre Organisation verfügt über gut definierte und verwaltete Prozesse und Verfahren für betriebliche Aufgaben. Der Prozess und die Verfahren werden an einem zentralen Ort gespeichert und stehen Ihren Teammitgliedern zur Verfügung. Prozesse und Verfahren werden regelmäßig aktualisiert, wobei die Zuständigkeit eindeutig zugewiesen wird. Wo möglich, werden Skripte, Vorlagen und Automatisierungsdokumente als Code implementiert. 

 **Typische Anti-Muster:** 
+  Prozesse sind nicht dokumentiert. Möglicherweise sind fragmentierte Skripte auf isolierten Bedienerarbeitsplätzen vorhanden. 
+  Das Wissen über den Umgang mit Skripten wird von wenigen Personen oder informell als Teamwissen vermittelt. 
+  Ein veralteter Prozess muss aktualisiert werden, aber die Zuständigkeit für die Aktualisierung ist unklar, und der ursprüngliche Autor gehört nicht mehr zur Organisation. 
+  Prozesse und Skripte sind nicht auffindbar und daher nicht sofort verfügbar, wenn sie benötigt werden (z. B. als Reaktion auf einen Vorfall). 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Prozesse und Verfahren unterstützen Sie bei der Bewältigung Ihrer Workloads. 
+  Neue Teammitglieder werden schneller handlungsfähig. 
+  Die Zeit bis zur Behebung von Vorfällen wird reduziert. 
+  Verschiedene Teammitglieder (und Teams) können dieselben Prozesse und Verfahren auf einheitliche Weise verwenden. 
+  Teams können ihre Prozesse durch wiederholbare Prozesse skalieren. 
+  Standardisierte Prozesse und Verfahren tragen dazu bei, die Auswirkungen der Übertragung von Workload-Verantwortlichkeiten zwischen Teams abzumildern. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>
+  Prozesse und Verfahren haben feste Besitzer, die für ihre Definition verantwortlich sind. 
  +  Identifizieren Sie die Betriebsaktivitäten, die zur Unterstützung Ihrer Workloads durchgeführt werden. Dokumentieren Sie diese Aktivitäten an einem auffindbaren Ort. 
  +  Legen Sie die Person oder Personen fest, die für die Spezifikation einer Aktivität verantwortlich sind. Sie sind dafür verantwortlich, sicherzustellen, dass die Aktivität von einem ausreichend qualifizierten Teammitglied durchgeführt wird, das die entsprechenden Berechtigungen, Zugriffsrechte und Tools hat. Wenn bei der Durchführung dieser Aktivität Probleme auftreten, sind die zuständigen Teammitglieder dafür verantwortlich, detailliertes Feedback bereitzustellen, das für die Verbesserung der Aktivität erforderlich ist. 
  +  Erfassen Sie die Zuständigkeit in den Metadaten des Aktivitätsartefakts durch Services wie AWS Systems Manager, durch Dokumente und AWS Lambda. Erfassen Sie die Ressourcenzuständigkeit mithilfe von Tags oder Ressourcengruppen und geben Sie Zuständigkeits- und Kontaktinformationen an. Verwenden Sie AWS Organizations, um Markierungsrichtlinien zu erstellen sowie Zuständigkeits- und Kontaktinformationen zu erfassen. 
+  Mit der Zeit sollten diese Verfahren so weiterentwickelt werden, dass sie als Code ausgeführt werden können, sodass weniger menschliche Eingriffe erforderlich sind. 
  +  Erwägen Sie beispielsweise AWS Lambda-Funktionen, CloudFormation-Vorlagen oder AWS Systems Manager-Automatisierungsdokumente. 
  +  Führen Sie die Versionskontrolle in den entsprechenden Repositorys durch. 
  +  Fügen Sie geeignetes Ressourcen-Tagging hinzu, damit Eigentümer und Dokumentation leicht identifiziert werden können. 

 **Kundenbeispiel** 

 AnyCompany Retail legt fest, dass das Team oder die Person, die für die Prozesse einer Anwendung oder einer Gruppe von Anwendungen (die gemeinsame architektonische Praktiken und Technologien nutzen) zuständig ist, der Besitzer ist. Zunächst werden der Prozess und die Verfahren in Form von schrittweisen Anleitungen im Dokumentenverwaltungssystem dokumentiert, die über Tags für das AWS-Konto, das die Anwendung hostet, und für bestimmte Ressourcengruppen innerhalb des Kontos auffindbar sind. Das Unternehmen verwendet AWS Organizations für die Verwaltung seiner AWS-Konten. Im Laufe der Zeit werden diese Prozesse in Code umgewandelt und Ressourcen werden mithilfe von Infrastructure as Code (z. B. CloudFormation oder AWS Cloud Development Kit (AWS CDK)-Vorlagen) definiert. Die Betriebsprozesse werden zu Automatisierungsdokumenten in AWS Systems Manager- oder AWS Lambda-Funktionen, die als geplante Aufgaben, als Reaktion auf Ereignisse wie AWS Systems Manager-Alarme oder AWS EventBridge-Ereignisse oder durch Anfragen innerhalb einer IT-Servicemanagement-Plattform (ITSM) gestartet werden können. Alle Prozesse sind mit Tags versehen, um die Zuständigkeit zu identifizieren. Die Dokumentation für die Automatisierung und den Prozess wird auf den Wiki-Seiten verwaltet, die vom Code-Repository für den Prozess generiert werden. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  Dokumentieren Sie die bestehenden Prozesse und Verfahren. 

   1.  Überprüfen Sie sie und halten Sie sie auf dem neuesten Stand. 

   1.  Identifizieren Sie einen Besitzer für jeden Prozess und jede Prozedur. 

   1.  Stellen Sie sie unter Versionskontrolle. 

   1.  Wenn möglich, nutzen Sie Prozesse und Verfahren für Workloads und Umgebungen mit gemeinsamen Architekturentwürfen. 

1.  Richten Sie Mechanismen für Feedback und Verbesserung ein. 

   1.  Definieren Sie Richtlinien dafür, wie oft Prozesse überprüft werden sollten. 

   1.  Definieren Sie Prozesse für Prüfende und Genehmigende. 

   1.  Implementieren Sie Probleme oder eine Ticket-Warteschlange, um Feedback zu geben und zu verfolgen. 

   1.  Wo immer es möglich ist, sollten Prozesse und Verfahren vorab von einem Gremium zur Genehmigung von Änderungen genehmigt und in eine Risikoklasse eingestuft werden. 

1.  Stellen Sie sicher, dass Prozesse und Verfahren für diejenigen, die sie ausführen müssen, zugänglich und auffindbar sind. 

   1.  Verwenden Sie Tags, um anzugeben, wo der Prozess und die Verfahren für die Workload aufgerufen werden können. 

   1.  Verwenden Sie aussagekräftige Fehler- und Ereignismeldungen, um die geeigneten Prozesse oder Verfahren zur Behebung eines Problems anzugeben. 

   1.  Verwenden Sie Wikis und Dokumentenmanagement und machen Sie Prozesse und Verfahren organisationsweit durchsuchbar. 

1.  Verwenden Sie [Amazon Q Business](https://aws.amazon.com/q/business/), einen Konversationsassistenten, der auf generativer KI basiert, um die Produktivität Ihrer Mitarbeiter zu steigern, Fragen zu beantworten und Aufgaben auf der Grundlage von Informationen in Ihren Unternehmenssystemen zu erledigen. 

   1.  Verbinden Sie Amazon Q Business mit der Datenquelle Ihres Unternehmens. Amazon Q Business bietet vorgefertigte Konnektoren für über 40 unterstützte Datenquellen, darunter Amazon S3, Microsoft SharePoint, Salesforce und Atlassian Confluence. Weitere Informationen finden Sie unter [Amazon-Q-Konnektoren](https://aws.amazon.com/q/business/connectors/). 

1.  Automatisieren Sie dies gegebenenfalls. 

   1.  Automatisierungen sollten entwickelt werden, wenn Services und Technologien eine API bereitstellen. 

   1.  Informieren Sie sich angemessen über Prozesse. Entwickeln Sie die nötigen Benutzerszenarien und Anforderungen, um diese Prozesse zu automatisieren. 

   1.  Messen Sie die erfolgreiche Nutzung Ihrer Prozesse und Verfahren und erstellen Sie Probleme oder Tickets, um eine iterative Verbesserung zu unterstützen. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS02-BP01 Ressourcen haben feste Verantwortliche](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_resource_owners.html) 
+  [OPS02-BP04 Es gibt Mechanismen zur Verwaltung von Verantwortlichkeiten und Zuständigkeiten](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_responsibilities_ownership.html) 
+  [OPS11-BP04 Wissensmanagement](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_knowledge_management.html) 

 **Zugehörige Dokumente:** 
+  [AWS Whitepaper – Einführung in DevOps in AWS](https://docs.aws.amazon.com/whitepapers/latest/introduction-devops-aws/automation.html) 
+  [AWS-Whitepaper – Bewährte Methoden für das Taggen von AWS-Ressourcen](https://docs.aws.amazon.com/whitepapers/latest/tagging-best-practices/tagging-best-practices.html) 
+  [AWS-Whitepaper – Organisieren Sie Ihre AWS-Umgebung mit mehreren Konten](https://docs.aws.amazon.com/whitepapers/latest/organizing-your-aws-environment/organizing-your-aws-environment.html) 
+ [AWS Cloud Operations and Migrations Blog – Amazon Q Business zur Optimierung Ihrer Betriebsabläufe verwenden](https://aws.amazon.com/blogs/mt/streamline-operations-using-amazon-q-for-business/)
+  [AWS Cloud Operations & Migrations Blog – Aufbau einer Cloud-Automatisierungspraxis für betriebliche Exzellenz: Bewährte Methoden von AWS Managed Services](https://aws.amazon.com/blogs/mt/build-a-cloud-automation-practice-for-operational-excellence-best-practices-from-aws-managed-services/) 
+  [AWS Cloud Operations & Migrations Blog – Implementierung automatisierter und zentraler Tagging-Kontrollen mit AWS Config und AWS Organizations](https://aws.amazon.com/blogs/mt/implementing-automated-and-centralized-tagging-controls-with-aws-config-and-aws-organizations/) 
+  [AWS Sicherheits-Blog – Pre-Commit-Hooks mit erweitern AWS CloudFormation Guard](https://aws.amazon.com/blogs/security/extend-your-pre-commit-hooks-with-aws-cloudformation-guard/) 
+  [AWS-DevOps-Blog – Integration von AWS CloudFormation Guard in CI/CD-Pipelines](https://aws.amazon.com/blogs/devops/integrating-aws-cloudformation-guard/) 

 **Zugehörige Workshops:** 
+  [AWS Well-Architected-Workshop zur betrieblichen Exzellenz](https://catalog.workshops.aws/well-architected-operational-excellence/en-US/) 
+  [AWS Workshop – Tagging](https://catalog.workshops.aws/tagging/) 

 **Zugehörige Videos:** 
+  [Automatisierung von IT-Abläufen in AWS](https://www.youtube.com/watch?v=GuWj_mlyTug) 
+  [AWS re:Invent 2020 – Automatisierung aller Abläufe mit AWS Systems Manager](https://www.youtube.com/watch?v=AaI2xkW85yE) 
+  [AWS re:Inforce 2022 – Automatisierung der Patch-Verwaltung und -Compliance mit AWS (NIS306)](https://www.youtube.com/watch?v=gL3baXQJvc0) 
+  [Supports You – Tiefer Einblick in AWS Systems Manager](https://www.youtube.com/watch?v=xHNLNTa2xGU) 

 **Zugehörige Services:** 
+  [AWS Systems Manager - Automatisierung](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html) 
+  [AWS Service Management Connector](https://aws.amazon.com/service-management-connector/) 

# OPS02-BP03 Betriebsaktivitäten haben feste Besitzer, die für ihre Leistung verantwortlich sind
<a name="ops_ops_model_def_activity_owners"></a>

 Verschaffen Sie sich einen Überblick darüber, wer für spezifische Aktivitäten in festgelegten Workloads verantwortlich ist und warum diese Zuständigkeit besteht. Wenn Sie wissen, wer für die Durchführung von Aktivitäten verantwortlich ist, können Sie nachvollziehen, wer die Aktivität durchführen, das Ergebnis validieren und dem Besitzer der Aktivität Feedback geben wird. 

 **Gewünschtes Ergebnis:** 

 Ihre Organisation definiert klar die Verantwortlichkeiten, um bestimmte Aktivitäten anhand definierter Workloads durchzuführen und auf Ereignisse zu reagieren, die durch die Workloads verursacht werden. Die Organisation dokumentiert die Zuständigkeit für Prozesse und deren Erfüllung und macht diese Informationen auffindbar. Sie überprüfen und aktualisieren die Zuständigkeiten, wenn organisatorische Änderungen stattfinden, und die Teams verfolgen und messen die Leistung der Aktivitäten zur Identifizierung von Fehlern und Ineffizienzen. Sie implementieren Feedback-Mechanismen, um Fehler und Verbesserungen nachzuverfolgen und iterative Verbesserungen zu unterstützen. 

 **Typische Anti-Muster:** 
+  Sie dokumentieren keine Verantwortlichkeiten. 
+  Fragmentierte Skripte sind auf isolierten Bedienerarbeitsplätzen vorhanden. Nur wenige Personen wissen, wie man sie verwendet, oder bezeichnen sie informell als *Teamwissen*. 
+  Ein veralteter Prozess muss aktualisiert werden, aber niemand weiß, wer für den Prozess zuständig ist, und der ursprüngliche Autor gehört nicht mehr zur Organisation. 
+  Prozesse und Skripte sind nicht auffindbar und nicht sofort verfügbar, wenn sie benötigt werden (z. B. als Reaktion auf einen Vorfall). 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Sie wissen, wer die verantwortliche Person für die Durchführung einer Aktivität ist, wer benachrichtigt werden muss, wenn eine Aktion erforderlich ist, und wer die Aktion ausführen, das Ergebnis validieren und dem Besitzer der Aktivität Feedback geben wird. 
+  Prozesse und Verfahren unterstützen Sie bei der Bewältigung Ihrer Workloads. 
+  Neue Teammitglieder werden schneller handlungsfähig. 
+  Sie reduzieren die Zeit, die zur Behebung von Vorfällen benötigt wird. 
+  Verschiedene Teams verwenden dieselben Prozesse und Verfahren, um Aufgaben auf einheitliche Weise auszuführen. 
+  Teams können ihre Prozesse durch wiederholbare Prozesse skalieren. 
+  Standardisierte Prozesse und Verfahren tragen dazu bei, die Auswirkungen der Übertragung von Workload-Verantwortlichkeiten zwischen Teams abzumildern. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Um mit der Definition von Verantwortlichkeiten zu beginnen, beginnen Sie mit der vorhandenen Dokumentation, wie Zuständigkeitsmatrizen, Prozessen und Verfahren, Rollen und Verantwortlichkeiten sowie Tools und Automatisierung. Überprüfen und besprechen Sie die Verantwortlichkeiten für dokumentierte Prozesse. Ermitteln Sie gemeinsam mit den Teams, ob Abweichungen zwischen den Verantwortlichkeiten und Prozessen für Dokumente vorliegen. Besprechen Sie die angebotenen Dienstleistungen mit internen Kunden dieses Teams, um unterschiedliche Erwartungen zwischen den Teams zu identifizieren. 

 Analysieren und beheben Sie die Diskrepanzen. Identifizieren Sie Verbesserungsmöglichkeiten und suchen Sie nach häufig nachgefragten, ressourcenintensiven Aktivitäten, bei denen es sich in der Regel um gute Kandidaten für Verbesserungen handelt. Informieren Sie sich über bewährte Methoden, Muster und verbindliche Anleitungen, um Verbesserungen zu vereinfachen und zu standardisieren. Erfassen Sie Verbesserungsmöglichkeiten und verfolgen Sie die Verbesserungen bis zur Fertigstellung. 

 Mit der Zeit sollten diese Verfahren so weiterentwickelt werden, dass sie als Code ausgeführt werden, sodass weniger menschliche Eingriffe erforderlich sind. Beispielsweise können Verfahren als AWS Lambda-Funktionen, CloudFormation-Vorlagen oder AWS Systems Manager-Automatisierungsdokumente initiiert werden. Stellen Sie sicher, dass diese Verfahren in den entsprechenden Repositorys versionskontrolliert sind und ein geeignetes Ressourcen-Tagging enthalten, sodass die Teams die Eigentümer und die Dokumentation leicht identifizieren können. Dokumentieren Sie die Verantwortung für die Durchführung der Aktivitäten und überwachen Sie dann die Automatisierungen, um sicherzustellen, dass sie erfolgreich initiiert und ausgeführt werden und dass die gewünschten Ergebnisse erzielt werden. 

 **Kundenbeispiel** 

 AnyCompany Retail legt fest, dass das Team oder die Person, die für die Prozesse einer Anwendung oder einer Gruppe von Anwendungen (die gemeinsame architektonische Praktiken und Technologien nutzen) zuständig ist, der Besitzer ist. Zunächst dokumentiert das Unternehmen die Prozesse und Verfahren als schrittweise Anleitungen im Dokumentenmanagementsystem. Es macht die Verfahren mithilfe von Tags auf dem AWS-Konto, das die Anwendung hostet, und anhand bestimmter Gruppen von Ressourcen innerhalb des Kontos auffindbar und verwendet AWS Organizations zur Verwaltung der AWS-Konten. Im Laufe der Zeit konvertiert AnyCompany Retail diese Prozesse in Code und definiert Ressourcen mithilfe von Infrastructure as Code (über Services wie CloudFormation oder AWS Cloud Development Kit (AWS CDK)-Vorlagen). Die Betriebsprozesse werden zu Automatisierungsdokumenten in AWS Systems Manager- oder AWS Lambda-Funktionen, die als geplante Aufgaben, als Reaktion auf Ereignisse wie Amazon CloudWatch-Alarme oder Amazon EventBridge-Ereignisse oder durch Anfragen innerhalb einer IT-Servicemanagement-Plattform (ITSM) gestartet werden können. Alle Prozesse sind mit Tags versehen, um die Zuständigkeit zu identifizieren. Teams verwalten die Dokumentation für die Automatisierung und den Prozess auf den Wiki-Seiten, die vom Code-Repository für den Prozess generiert werden. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  Dokumentieren Sie die bestehenden Prozesse und Verfahren. 

   1.  Überprüfen und vergewissern Sie sich, dass sie auf dem neuesten Stand sind. 

   1.  Stellen Sie sicher, dass jeder Prozess oder jedes Verfahren einen Besitzer hat. 

   1.  Stellen Sie die Verfahren unter Versionskontrolle. 

   1.  Wenn möglich, nutzen Sie Prozesse und Verfahren für Workloads und Umgebungen mit gemeinsamen Architekturentwürfen. 

1.  Richten Sie Mechanismen für Feedback und Verbesserung ein. 

   1.  Definieren Sie Richtlinien dafür, wie oft Prozesse überprüft werden sollten. 

   1.  Definieren Sie Prozesse für Prüfende und Genehmigende. 

   1.  Implementieren Sie Probleme oder eine Ticket-Warteschlange, um Feedback zu geben und zu verfolgen. 

   1.  Wo immer es möglich ist, sollten Prozesse und Verfahren vorab von einem Gremium zur Genehmigung von Änderungen genehmigt und in eine Risikoklasse eingestuft werden. 

1.  Machen Sie Prozesse und Verfahren für Benutzer zugänglich und auffindbar, die sie ausführen müssen. 

   1.  Verwenden Sie Tags, um anzugeben, wo der Prozess und die Verfahren für die Workload aufgerufen werden können. 

   1.  Verwenden Sie aussagekräftige Fehler- und Ereignismeldungen, um die geeigneten Prozesse oder Verfahren zur Behebung des Problems anzugeben. 

   1.  Verwenden Sie Wikis oder Dokumentenmanagement, um Prozesse und Verfahren unternehmensweit durchsuchbar zu machen. 

1.  Automatisieren Sie, wenn es angemessen ist. 

   1.  Entwickeln Sie Automatisierungen, wenn Services und Technologien eine API bereitstellen. 

   1.  Stellen Sie sicher, dass die Prozesse gut verstanden werden, und entwickeln Sie Benutzerberichte und Anforderungen, um diese Prozesse zu automatisieren. 

   1.  Messen Sie die erfolgreiche Nutzung der Prozesse und Verfahren und unterstützen Sie eine iterative Verbesserung anhand der Problemverfolgung. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS02-BP01 Ressourcen haben feste Verantwortliche](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_resource_owners.html) 
+  [OPS02-BP02 Prozesse und Verfahren haben feste Besitzer](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_resource_owners.html) 
+  [OPS02-BP04 Es gibt Mechanismen zur Verwaltung von Verantwortlichkeiten und Zuständigkeiten](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_responsibilities_ownership.html) 
+  [OPS02-BP05 Mechanismen zur Identifizierung von Verantwortlichkeit und Eigentümerschaft sind vorhanden](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_find_owner.html) 
+  [OPS11-BP04 Wissensmanagement](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_knowledge_management.html) 

 **Zugehörige Dokumente:** 
+  [AWS-Whitepaper \$1 Einführung in DevOps in AWS](https://docs.aws.amazon.com/whitepapers/latest/introduction-devops-aws/automation.html) 
+  [AWS-Whitepaper \$1 Bewährte Methoden für das Taggen von AWS-Ressourcen](https://docs.aws.amazon.com/whitepapers/latest/tagging-best-practices/tagging-best-practices.html) 
+  [AWS-Whitepaper \$1 Organisieren Sie Ihre AWS-Umgebung mit mehreren Konten](https://docs.aws.amazon.com/whitepapers/latest/organizing-your-aws-environment/organizing-your-aws-environment.html) 
+  [AWS Cloud Operations & Migrations Blog \$1 Aufbau einer Cloud-Automatisierungspraxis für betriebliche Exzellenz: Bewährte Methoden von AWS Managed Services](https://aws.amazon.com/blogs/mt/build-a-cloud-automation-practice-for-operational-excellence-best-practices-from-aws-managed-services/) 
+  [AWS-Workshop – Tagging](https://catalog.workshops.aws/tagging/) 
+  [AWS Service Management-Konnektor](https://aws.amazon.com/service-management-connector/) 

 **Zugehörige Videos:** 
+  [AWS Knowledge Center Live \$1 Tagging von AWS-Ressourcen](https://www.youtube.com/watch?v=MX9DaAQS15I) 
+  [AWS re:Invent 2020 \$1 Automatisierung aller Abläufe mit AWS Systems Manager](https://www.youtube.com/watch?v=AaI2xkW85yE) 
+  [AWS re:Inforce 2022 \$1 Automatisierung der Patch-Verwaltung und -Compliance mit AWS (NIS306)](https://www.youtube.com/watch?v=gL3baXQJvc0) 
+  [Supports You \$1 Detaillierte Einblicke in AWS Systems Manager](https://www.youtube.com/watch?v=xHNLNTa2xGU) 

# OPS02-BP04 Es gibt Mechanismen zur Verwaltung von Verantwortlichkeiten und Zuständigkeiten
<a name="ops_ops_model_def_responsibilities_ownership"></a>

 Verstehen Sie die die Verantwortlichkeiten Ihrer Rolle und, wie Sie zu Geschäftsergebnissen beitragen, da Ihnen dieses Wissen ermöglicht, Ihre Aufgaben entsprechend zu priorisieren und die Bedeutung Ihrer Rolle nachzuvollziehen. Auf diese Weise können Teammitglieder Anforderungen erkennen und entsprechend reagieren. Wenn die Teammitglieder ihre Rolle kennen, können sie Verantwortung übernehmen, Verbesserungsmöglichkeiten erkennen und verstehen, wie sie Einfluss nehmen oder entsprechende Änderungen vornehmen können. 

 Gelegentlich kann es vorkommen, dass eine Verantwortlichkeit keinen eindeutigen Besitzer hat. Entwerfen Sie in diesen Situationen einen Mechanismus, um diese Lücke zu schließen. Erstellen Sie einen klar definierten Eskalationsweg zu jemandem, der die Befugnis hat, die Verantwortung zu übertragen, oder entwickeln Sie einen Plan zur Deckung des Bedarfs. 

 **Gewünschtes Ergebnis:** Teams in Ihrer Organisation haben klar definierte Verantwortlichkeiten, zu denen auch gehört, in welcher Beziehung sie zu Ressourcen, durchzuführenden Aktionen, Prozessen und Verfahren stehen. Diese Verantwortlichkeiten entsprechen den Verantwortlichkeiten und Zielen des Teams sowie den Verantwortlichkeiten anderer Teams. Sie dokumentieren die Eskalationswege auf konsistente und nachvollziehbare Weise und nehmen diese Entscheidungen in Dokumentationsartefakte wie Zuständigkeitsmatrizen, Teamdefinitionen oder Wiki-Seiten auf. 

 **Typische Anti-Muster:** 
+  Die Verantwortlichkeiten des Teams sind mehrdeutig oder schlecht definiert. 
+  Das Team stimmt Rollen nicht mit Verantwortlichkeiten ab. 
+  Das Team stimmt seine Ziele und Verantwortlichkeiten nicht aufeinander ab, was es schwierig macht, den Erfolg zu messen. 
+  Die Verantwortlichkeiten der Teammitglieder sind nicht am Team und der gesamten Organisation ausgerichtet. 
+  Ihr Team hält die Verantwortlichkeiten nicht auf dem neuesten Stand, was dazu führt, dass sie nicht mit den vom Team ausgeführten Aufgaben übereinstimmen. 
+  Eskalationswege zur Festlegung von Zuständigkeiten sind nicht definiert oder unklar. 
+  Eskalationswege haben keinen eindeutigen Besitzer, um eine zeitnahe Reaktion zu gewährleisten. 
+  Rollen, Zuständigkeiten und Eskalationswege sind nicht auffindbar und bei Bedarf nicht sofort verfügbar (z. B. als Reaktion auf einen Vorfall). 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Wenn Sie wissen, wer verantwortlich oder zuständig ist, können Sie sich an das entsprechende Team oder Teammitglied wenden, um eine Anfrage zu stellen oder eine Aufgabe zu übergeben. 
+  Um das Risiko von Untätigkeit und ungedecktem Bedarf zu verringern, haben Sie eine Person festgelegt, die befugt ist, Verantwortung und Zuständigkeit zu übertragen. 
+  Wenn Sie den Umfang einer Verantwortlichkeit klar definieren, gewinnen Ihre Teammitglieder an Autonomie und Eigenverantwortung. 
+  Ihre Verantwortlichkeiten wirken sich auf Ihre Entscheidungen, Ihre Aktionen und die Übergabe von Aktivitäten an die ordnungsgemäßen Besitzer aus. 
+  Es ist einfach, aufgegebene Verantwortlichkeiten zu identifizieren, da Sie genau wissen, was außerhalb der Verantwortung Ihres Teams liegt, was die Eskalation zur Aufklärung erleichtert. 
+  Es kommt innerhalb der Teams zu weniger Verwirrung und Spannungen und sie können ihre Workloads und Ressourcen besser verwalten. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Legen Sie die Rollen und Verantwortlichkeiten von Teammitgliedern fest und vergewissern Sie sich, dass sie die Anforderungen ihrer Rolle kennen. Diese Informationen sollten leicht auffindbar sein, damit Mitglieder Ihrer Organisation herausfinden können, an wen sie sich für bestimmte Anforderungen wenden müssen (an ein Team oder eine Person). In dem Bestreben, die Chancen der Migration und Modernisierung in AWS zu nutzen, können sich auch die Rollen und Verantwortlichkeiten ändern. Sorgen Sie dafür, dass sich Ihre Teams und ihre Mitglieder ihrer Verantwortlichkeiten bewusst sind, und schulen Sie sie angemessen, damit sie ihre Aufgaben während dieser Veränderung erfüllen. 

 Legen Sie fest, an welche Rolle oder welches Team eskaliert werden soll, um die Verantwortlichkeit und Zuständigkeit zu bestimmen. Dieses Team kann mit verschiedenen Stakeholdern zusammenarbeiten, um eine Entscheidung zu treffen. Es sollte jedoch die Verantwortung für die Verwaltung des Entscheidungsprozesses tragen. 

 Stellen Sie Mitgliedern Ihrer Organisation zugängliche Mechanismen bereit, um Zuständigkeiten und Verantwortlichkeiten zu ermitteln und zuzuordnen. Diese Mechanismen vermitteln ihnen, an wen sie sich bei spezifischen Bedürfnissen wenden können. 

 **Kundenbeispiel** 

 AnyCompany Retail hat kürzlich eine Migration von Workloads von einer On-Premises-Umgebung zu ihrer Landing Zone in AWS mit einem Lift-and-Shift-Ansatz durchgeführt. Das Unternehmen führte eine Betriebsüberprüfung durch, um festzustellen, wie allgemeine betriebliche Aufgaben erfüllt werden, und verifizierte, dass seine bestehende Verantwortungsmatrix die Abläufe in der neuen Umgebung widerspiegelt. Bei der Migration von On-Premises zu AWS reduzierte es die Verantwortlichkeiten der Infrastrukturteams in Bezug auf die Hardware und die physische Infrastruktur. Dieser Schritt eröffnete auch neue Möglichkeiten, das Betriebsmodell für seine Workloads weiterzuentwickeln. 

 Es identifizierte, adressierte und dokumentierte die meisten Verantwortlichkeiten, definierte aber auch Eskalationswege für alle Verantwortlichkeiten, die übersehen wurden oder die sich im Zuge der Weiterentwicklung der betrieblichen Abläufe möglicherweise ändern müssen. Um neue Möglichkeiten zur Standardisierung und Effizienzsteigerung Ihrer Workloads zu erkunden, bieten Sie Zugriff auf Betriebstools wie AWS Systems Manager und Sicherheitstools wie AWS Security Hub CSPM und Amazon GuardDuty. AnyCompany Retail überprüft die Verantwortlichkeiten und die Strategie auf der Grundlage der Verbesserungen, die zuerst angegangen werden sollen. Wenn das Unternehmen neue Arbeitsweisen und Technologiemuster einführt, passt es seine Verantwortungsmatrix entsprechend an. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  Beginnen Sie mit der vorhandenen Dokumentation. Zu den typischen Quelldokumenten gehören möglicherweise: 

   1.  Verantwortungs- oder RACI-Matrizen (Responsible, Accountable, Consulted, Informed) 

   1.  Teamdefinitionen oder Wiki-Seiten 

   1.  Servicedefinitionen und Angebote 

   1.  Rollen- oder Stellenbeschreibungen 

1.  Überprüfen und besprechen Sie die dokumentierten Verantwortlichkeiten: 

   1.  Führen Sie Besprechungen mit den Teams durch, um Abweichungen zwischen den dokumentierten Verantwortlichkeiten und den vom Team üblicherweise wahrgenommenen Verantwortlichkeiten zu identifizieren. 

   1.  Erörtern Sie mögliche Services, die von internen Kunden angeboten werden, um unterschiedliche Erwartungen zwischen den Teams zu identifizieren. 

1.  Analysieren und beheben Sie die Diskrepanzen. 

1.  Identifizieren Sie Verbesserungsmöglichkeiten. 

   1.  Identifizieren Sie häufig nachgefragte, ressourcenintensive Anfragen, bei denen es sich in der Regel um gute Verbesserungsmöglichkeiten handelt. 

   1.  Informieren Sie sich über bewährte Methoden, verstehen Sie Muster, folgen Sie verbindlichen Anleitungen und vereinfachen und standardisieren Sie Verbesserungen. 

   1.  Erfassen Sie Verbesserungsmöglichkeiten und verfolgen Sie sie bis zur Fertigstellung. 

1.  Wenn ein Team noch nicht die Verantwortung für die Verwaltung und die Verfolgung der Zuweisung von Verantwortlichkeiten trägt, benennen Sie jemanden im Team, der diese Verantwortung übernimmt. 

1.  Definieren Sie einen Prozess, nach dem Teams eine Klärung der Verantwortlichkeiten anfordern können. 

   1.  Überprüfen Sie den Prozess und stellen Sie sicher, dass er klar und einfach umzusetzen ist. 

   1.  Stellen Sie sicher, dass jemand die Verantwortung für die Eskalationen trägt und sie bis zu ihrem Ende verfolgt. 

   1.  Legen Sie betriebliche Metriken fest, um die Effektivität zu messen. 

   1.  Schaffen Sie Feedback-Mechanismen, um sicherzustellen, dass Teams Verbesserungsmöglichkeiten hervorheben können. 

   1.  Implementieren Sie einen Mechanismus für die regelmäßige Überprüfung. 

1.  Führen Sie Dokumente an einem auffindbaren und zugänglichen Ort. 

   1.  Wikis oder das Dokumentationsportal sind gängige Optionen. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS01-BP06 Bewerten von Kompromissen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_priorities_eval_tradeoffs.html) 
+  [OPS03-BP02 Teammitglieder sind befugt, Maßnahmen zu ergreifen, wenn Ergebnisse gefährdet sind](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_team_emp_take_action.html) 
+  [OPS03-BP03 Eskalation wird empfohlen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_team_enc_escalation.html) 
+  [OPS03-BP07 Teams mit entsprechenden Ressourcen ausstatten](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_team_res_appro.html) 
+  [OPS09-BP01 Messen operativer Ziele und KPIs mit Metriken](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_measure_ops_goals_kpis.html) 
+  [OPS09-BP03 Überprüfen der Betriebsmetriken und Priorisieren von Verbesserungen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_review_ops_metrics_prioritize_improvement.html) 
+  [OPS11-BP01 Implementieren eines Prozesses für die kontinuierliche Verbesserung](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_process_cont_imp.html) 

 **Zugehörige Dokumente:** 
+  [AWS-Whitepaper – Einführung in DevOps in AWS](https://docs.aws.amazon.com/whitepapers/latest/introduction-devops-aws/automation.html) 
+  [AWS-Whitepaper – AWS Cloud Adoption Framework: Betriebsperspektive](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/aws-caf-operations-perspective.html) 
+  [AWS Well-Architected-Framework – Betriebliche Exzellenz — Betriebsmodelltopologien auf Workload-Ebene](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/operating-model-2-by-2-representations.html) 
+  [AWS Prescriptive Guidance – Aufbau Ihres Cloud-Betriebsmodells](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-cloud-operating-model/welcome.html) 
+  [AWS Prescriptive Guidance – Erstellen einer RACI- oder RASCI-Matrix für ein Cloud-Betriebsmodell](https://docs.aws.amazon.com/prescriptive-guidance/latest/patterns/create-a-raci-or-rasci-matrix-for-a-cloud-operating-model.html) 
+  [AWS Cloud Operations & Migrations Blog – Schaffen von Mehrwert für Ihr Unternehmen mit Cloud-Plattform-Teams](https://aws.amazon.com/blogs/mt/delivering-business-value-with-cloud-platform-teams/) 
+  [AWS Cloud Operations & Migrations Blog – Vorteile eines Cloud-Betriebsmodells](https://aws.amazon.com/blogs/mt/why-a-cloud-operating-model/) 
+  [AWS DevOps Blog – So modernisieren Unternehmen für den Cloud-Betrieb](https://aws.amazon.com/blogs/devops/how-organizations-are-modernizing-for-cloud-operations/) 

 **Zugehörige Videos:** 
+  [AWS Summit Online – Cloud-Betriebsmodelle für eine schnellere Transformation](https://www.youtube.com/watch?v=ksJ5_UdYIag) 
+  [AWS re:Invent 2023 – Cloud-Sicherheit zukunftssicher machen: Ein neues Betriebsmodell](https://www.youtube.com/watch?v=GFcKCz1VO2I) 

# OPS02-BP05 Mechanismen zum Anfordern von Ergänzungen, Änderungen und Ausnahmen sind vorhanden
<a name="ops_ops_model_req_add_chg_exception"></a>

Sie können Anfragen an Verantwortliche für Prozesse, Verfahren und Ressourcen stellen. Die Anfragen umfassen Ergänzungen, Änderungen und Ausnahmen. Diese Anfragen durchlaufen einen Änderungsverwaltungsprozess. Treffen Sie fundierte Entscheidungen, um angemessene Anfragen nach einer Bewertung der Vorteile und Risiken zu genehmigen. 

 **Gewünschtes Ergebnis:** 
+  Sie können Anfragen zum Ändern von Prozessen, Verfahren und Ressourcen basierend auf der zugewiesenen Verantwortlichkeit stellen. 
+  Änderungen werden nach einem sorgfältigen Abwägen der Vorteile und Risiken vorgenommen. 

 **Typische Anti-Muster:** 
+  Sie müssen die Art und Weise der Bereitstellung Ihrer Anwendung aktualisieren, es gibt jedoch keine Möglichkeit, eine Änderung am Bereitstellungsprozess beim Produktionsteam zu beantragen. 
+  Der Notfallwiederherstellungsplan muss aktualisiert werden, es ist jedoch kein Verantwortlicher kenntlich gemacht, an den Anträge auf Änderungen übermittelt werden können. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Prozesse, Verfahren und Ressourcen können sich weiterentwickeln, wenn sich die Anforderungen ändern. 
+  Die Verantwortlichen können fundierte Entscheidungen treffen, wann Änderungen vorgenommen werden sollten. 
+  Änderungen werden nach sorgfältigen Überlegungen vorgenommen. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Um diese bewährte Methode zu implementieren, müssen Sie Änderungen an Prozessen, Verfahren und Ressourcen beantragen können. Der Änderungsverwaltungsprozess kann einfach sein. Dokumentieren Sie den Änderungsverwaltungsprozess. 

 **Kundenbeispiel** 

 AnyCompany Retail verwendet für die Angabe, wer für Änderungen an Prozessen, Verfahren und Ressourcen verantwortlich ist, eine Verantwortlichkeitsmatrix (RACI). Es gibt einen dokumentierten Änderungsverwaltungsprozess, der einfach und leicht zu befolgen ist. Mithilfe der RACI-Matrix und des Prozesses können alle Personen Änderungsanträge übermitteln. 

 **Implementierungsschritte** 

1.  Ermitteln Sie die Prozesse, Verfahren und Ressourcen für Ihren Workload sowie die jeweiligen Verantwortlichen. Dokumentieren Sie sie in Ihrem Wissensmanagementsystem. 

   1.  Wenn Sie [OPS02-BP01 Ressourcen haben Eigentümer identifiziert](ops_ops_model_def_resource_owners.md), [OPS02-BP02 Prozesse und Verfahren haben feste Besitzer](ops_ops_model_def_proc_owners.md) oder [OPS02-BP03 Betriebsaktivitäten haben feste Besitzer, die für ihre Leistung verantwortlich sind](ops_ops_model_def_activity_owners.md) nicht implementiert haben, beginnen Sie damit. 

1.  Arbeiten Sie mit den Stakeholdern in Ihrer Organisation zusammen, um einen Änderungsverwaltungsprozess zu entwickeln. Der Prozess sollte Ergänzungen, Änderungen und Ausnahmen für Ressourcen, Prozesse und Verfahren umfassen. 

   1.  Sie können [AWS Systems Manager Change Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/change-manager.html) als Änderungsverwaltungsplattform für Workload-Ressourcen verwenden. 

1.  Dokumentieren Sie den Änderungsverwaltungsprozess in Ihrem Wissensmanagementsystem. 

 **Aufwand für den Implementierungsplan:** Mittel. Die Entwicklung eines Änderungsverwaltungsprozesses erfordert die Abstimmung mit mehreren Stakeholdern in Ihrer Organisation. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS02-BP01 Ressourcen haben Eigentümer identifiziert](ops_ops_model_def_resource_owners.md) – Bevor Sie einen Änderungsverwaltungsprozess entwickeln, müssen für Ressourcen die Besitzer identifiziert werden. 
+  [OPS02-BP02 Prozesse und Verfahren haben feste Besitzer](ops_ops_model_def_proc_owners.md) – Bevor Sie einen Änderungsverwaltungsprozess entwickeln, müssen für Prozesse die Besitzer identifiziert werden. 
+  [OPS02-BP03 Betriebsaktivitäten haben feste Besitzer, die für ihre Leistung verantwortlich sind](ops_ops_model_def_activity_owners.md) – Bevor Sie einen Änderungsverwaltungsprozess entwickeln, müssen für Betriebsaktivitäten die Besitzer identifiziert werden. 

 **Zugehörige Dokumente:** 
+ [AWS Prescriptive Guidance – Grundlagen-Playbook für große AWS\$1Migrationen: Erstellung von RACI-Matrizen ](https://docs.aws.amazon.com/prescriptive-guidance/latest/large-migration-foundation-playbook/team-org.html#raci)
+ [ Whitepaper „Änderungsmanagement in der Cloud“ ](https://docs.aws.amazon.com/whitepapers/latest/change-management-in-the-cloud/change-management-in-the-cloud.html)

 **Zugehörige Services:** 
+ [AWS Systems Manager Change Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/change-manager.html)

# OPS02-BP06 Zuständigkeiten zwischen Teams werden vordefiniert oder ausgehandelt
<a name="ops_ops_model_def_neg_team_agreements"></a>

Es gibt definierte oder ausgehandelte Vereinbarungen zwischen Teams, in denen die Zusammenarbeit und gegenseitige Unterstützung beschrieben wird (z. B. Reaktionszeiten, Service-Level-Ziele oder Service-Level-Agreements). Die Kanäle für die teamübergreifende Kommunikation werden dokumentiert. Wenn bekannt ist, welche Auswirkungen die Arbeit der Teams auf die Geschäftsergebnisse und die Ergebnisse anderer Teams und Organisationen hat, können die Teams ihre Aufgaben priorisieren und entsprechend handeln. 

 Wenn Verantwortlichkeit und Zuständigkeit nicht definiert oder unbekannt sind, besteht das Risiko, dass sowohl die erforderlichen Aktivitäten nicht rechtzeitig ausgeführt als auch redundante und potenziell widersprüchliche Anstrengungen unternommen werden, um diese Anforderungen zu erfüllen. 

 **Gewünschtes Ergebnis:** 
+  Es werden Vereinbarungen zur teamübergreifenden Zusammenarbeit oder Unterstützung getroffen und dokumentiert. 
+  Teams, die zusammenarbeiten oder sich gegenseitig unterstützen, verfügen über definierte Kommunikationskanäle und Erwartungen in Bezug auf die Reaktion. 

 **Typische Anti-Muster:** 
+  Während der Produktion tritt ein Problem auf und zwei separate Teams beginnen unabhängig voneinander mit der Fehlersuche. Aufgrund der getrennten Bemühungen verlängert sich der Ausfall. 
+  Das Produktionsteam benötigt Unterstützung vom Entwicklungsteam, es gibt jedoch keine Vereinbarung in Bezug auf die Reaktionszeit. Die Anfrage wird zurückgestellt. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Die Teams wissen, wie sie miteinander interagieren und sich gegenseitig unterstützen können. 
+  Die Erwartungen in Bezug auf die Reaktionszeit sind bekannt. 
+  Die Kommunikationskanäle sind klar definiert. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Niedrig 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Wenn Sie diese bewährte Methode implementieren, bedeutet dies, dass es in Bezug auf die Zusammenarbeit zwischen Teams keine Unklarheiten gibt. Mithilfe von formellen Vereinbarungen wird festgelegt, wie Teams zusammenarbeiten oder sich gegenseitig unterstützen. Die Kanäle für die teamübergreifende Kommunikation werden dokumentiert. 

 **Kundenbeispiel** 

 Das SRE-Team bei AnyCompany Retail hat ein Service-Level-Agreement mit dem Entwicklungsteam abgeschlossen. Wenn das Entwicklungsteam eine Anfrage über das Ticketing-System einreicht, kann es innerhalb von 15 Minuten eine Antwort erwarten. Bei Standortausfällen übernimmt das SRE-Team mit Unterstützung durch das Entwicklungsteam die Leitung der Untersuchung. 

 **Implementierungsschritte** 

1.  Arbeiten Sie zusammen mit den Stakeholdern in Ihrer Organisation und auf Grundlage der Prozesse und Verfahren Vereinbarungen zwischen Teams aus. 

   1.  Entwickeln Sie für gemeinsame Prozesse oder Verfahren von zwei Teams ein Runbook für die Zusammenarbeit. 

   1.  Wenn Abhängigkeiten zwischen Teams bestehen, vereinbaren Sie ein SLA für die Reaktionszeit bei Anfragen. 

1.  Dokumentieren Sie die Verantwortlichkeiten in Ihrem Wissensmanagementsystem. 

 **Aufwand für den Implementierungsplan:** Mittel. Wenn keine Vereinbarungen zwischen Teams vorhanden sind, kann es mühsam sein, eine Vereinbarung mit den Stakeholdern in Ihrer Organisation zu treffen. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS02-BP02 Prozesse und Verfahren haben feste Besitzer](ops_ops_model_def_proc_owners.md) – Die Verantwortlichkeiten für Prozesse müssen bestimmt werden, bevor Teams Vereinbarungen miteinander treffen. 
+  [OPS02-BP03 Betriebsaktivitäten haben feste Besitzer, die für ihre Leistung verantwortlich sind](ops_ops_model_def_activity_owners.md) – Die Verantwortlichkeiten für Betriebsaktivitäten müssen bestimmt werden, bevor Teams Vereinbarungen miteinander treffen. 

 **Zugehörige Dokumente:** 
+ [AWS Executive Insights – Innovation fördern mit dem Zwei-Pizzen-Team ](https://aws.amazon.com/executive-insights/content/amazon-two-pizza-team/)
+ [ Einführung in DevOps auf AWS – Zwei-Pizzen-Teams ](https://docs.aws.amazon.com/whitepapers/latest/introduction-devops-aws/two-pizza-teams.html)

# OPS 3. Wie unterstützt Ihre Unternehmenskultur Ihre Geschäftsergebnisse?
<a name="ops-03"></a>

 Lassen Sie Ihren Teammitgliedern Unterstützung zukommen, damit sie effektiver handeln und Ihr Geschäftsergebnis unterstützen können. 

**Topics**
+ [

# OPS03-BP01 Förderung durch die Geschäftsführung gewährleisten
](ops_org_culture_executive_sponsor.md)
+ [

# OPS03-BP02 Teammitglieder sind befugt, Maßnahmen zu ergreifen, wenn Ergebnisse gefährdet sind
](ops_org_culture_team_emp_take_action.md)
+ [

# OPS03-BP03 Eskalation wird gefördert
](ops_org_culture_team_enc_escalation.md)
+ [

# OPS03-BP04 Die Kommunikation ist zeitnah, klar und umsetzbar
](ops_org_culture_effective_comms.md)
+ [

# OPS03-BP05 Experimentieren wird empfohlen
](ops_org_culture_team_enc_experiment.md)
+ [

# OPS03-BP06 Teammitglieder werden ermutigt, ihre Fähigkeiten zu pflegen und zu erweitern
](ops_org_culture_team_enc_learn.md)
+ [

# OPS03-BP07 Ressourcenteams angemessen
](ops_org_culture_team_res_appro.md)

# OPS03-BP01 Förderung durch die Geschäftsführung gewährleisten
<a name="ops_org_culture_executive_sponsor"></a>

 Auf höchster Ebene fungiert die Geschäftsleitung als Executive Sponsor, um Erwartungen klar festzulegen und die Richtung für die Ergebnisse der Organisation vorzugeben sowie den Erfolg zu bewerten. Der Sponsor befürwortet und fördert die Einführung von bewährten Methoden und die Weiterentwicklung der Organisation. 

 **Gewünschtes Ergebnis:** Organisationen, die einen Cloud-Betrieb einführen, transformieren oder optimieren möchten, legen eine klare Führung und Rechenschaftspflicht zum Erreichen der gewünschten Ergebnisse fest. Die Organisation kennt jede Fähigkeit, die sie benötigt, um ein neues Ergebnis zu erzielen, und überträgt den Funktionsteams die Verantwortung für die Entwicklung dieser Fähigkeiten. Die Führung gibt diese Richtung aktiv vor, weist Verantwortung zu, übernimmt Verantwortung und definiert die Arbeit. Dadurch können Mitarbeiter in der gesamten Organisation mobilisieren, sich inspiriert fühlen und aktiv auf die gewünschten Ziele hinarbeiten. 

 **Typische Anti-Muster:** 
+  Workload-Besitzer sind aufgefordert, Workloads zu AWS zu migrieren – ohne klare Unterstützung oder einen Plan für den Cloud-Betrieb. Dies führt dazu, dass Teams nicht gezielt zusammenarbeiten, um ihre operativen Fähigkeiten zu verbessern und weiterzuentwickeln. Der Mangel an Betriebsstandards mit bewährten Methoden führt dazu, dass die Teams überfordert sind (z. B. durch Überarbeitung der Mitarbeiter, Bereitschaftsdienste und technische Schulden) und die Innovation ins Stocken gerät. 
+  Es wurde ein neues organisationsweites Ziel gesetzt, eine neue Technologie einzuführen, ohne die Führung, den Sponsor und die Strategie anzugeben. Die Teams interpretieren Ziele unterschiedlich, was zu Verwirrung darüber führt, worauf sie sich konzentrieren sollten, warum sie wichtig sind und wie Auswirkungen gemessen werden sollen. Folglich verliert die Organisation bei der Einführung der Technologie an Dynamik. 

 **Vorteile der Nutzung dieser bewährten Methode:** Wenn die Geschäftsführung Vision, Ausrichtung und Ziele klar kommuniziert und teilt, wissen die Teammitglieder, was von ihnen erwartet wird. Wenn sich die Führungskräfte aktiv einbringen, beginnen Einzelpersonen und Teams, ihre Bemühungen intensiv in dieselbe Richtung zu lenken, um festgelegte Ziele zu erreichen. So kann die Organisation ihre Erfolgsfähigkeit maximieren. Wenn Sie den Erfolg evaluieren, können Sie Barrieren besser identifizieren, um anschließend von der Führung gezielt ausgeräumt werden können. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>
+  In jeder Phase des Wegs in die Cloud (Migration, Einführung oder Optimierung) erfordert der Erfolg eine aktive Beteiligung auf höchster Führungsebene mit einem leitenden Unterstützer. Der leitende Unterstützer richtet die Denkweise, Fähigkeiten und Arbeitsweisen des Teams an der definierten Strategie aus. 
  +  **Erläutern des *Warums*:** Sorgen Sie für Klarheit und erläutern Sie die Gründe für die Vision und die Strategie. 
  +  **Festlegen der Erwartungen:** Definieren und veröffentlichen Sie Ziele für Ihre Organisationen, einschließlich der Art und Weise, wie Fortschritt und Erfolg gemessen werden. 
  +  **Verfolgen der Zielerreichung:** Messen Sie regelmäßig das schrittweise Erreichen von Zielen (nicht nur die Erledigung von Aufgaben). Teilen Sie die Ergebnisse mit, damit geeignete Maßnahmen ergriffen werden können, wenn die Ergebnisse gefährdet sind. 
  +  **Bereitstellen der erforderlichen Ressourcen zum Erreichen Ihrer Ziele:** Bringen Sie Menschen und Teams zusammen, um zusammenzuarbeiten und die richtigen Lösungen zu entwickeln, die zu den definierten Ergebnissen führen. Dies reduziert oder beseitigt Reibungspunkte in der Organisation. 
  +  **Unterstützen Ihrer Teams:** Bleiben Sie mit Ihren Teams in Kontakt, damit Sie ihre Leistung verstehen und herausfinden können, ob diese durch externe Faktoren beeinflusst wird. Identifizieren Sie Hindernisse für den Fortschritt Ihrer Teams. Treten Sie für Ihre Teams ein und beseitigen Sie Hindernisse und unnötige Belastungen. Wenn sich äußere Faktoren negativ auf Ihre Teams auswirken, bewerten Sie die Ziele neu und passen Sie sie entsprechend an. 
  +  **Fördern der Einführung von bewährten Methoden:** Würdigen Sie bewährte Methoden, die messbare Vorteile bieten, und schenken Sie ihren Entwicklern und Anwendern Ihre Anerkennung. Ermutigen Sie Ihre Teams zur Annahme dieser Methoden, um die Vorteile zu maximieren. 
  +  **Ermuntern Sie Ihre Teams zur Weiterentwicklung:** Schaffen Sie eine Kultur der kontinuierlichen Verbesserung und lernen Sie proaktiv aus Fortschritten und Fehlschlägen. Fördern Sie Wachstum und Entwicklung sowohl im Persönlichen als auch im Betrieblichen. Entwickeln Sie die Vision und Strategie anhand von Daten und Anekdoten weiter. 

 **Kundenbeispiel** 

 AnyCompany Retail befindet sich inmitten einer Geschäftstransformation mit dem Ziel, das Kundenerlebnis schnell neu zu erfinden, die Produktivität zu steigern und das Wachstum durch generative KI zu beschleunigen. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  Ernennen Sie einen einzelnen Verantwortlichen und einen leitenden Unterstützer, der die Transformation leitet und vorantreibt. 

1.  Definieren Sie klare Geschäftsergebnisse für Ihre Transformation, weisen Sie Verantwortlichkeiten zu und fordern Sie Eigenverantwortung ein. Erteilen Sie der leitenden Führungskraft die Befugnis, wichtige Entscheidungen zu leiten und zu treffen. 

1.  Stellen Sie sicher, dass Ihre Transformationsstrategie sehr klar ist und vom leitenden Sponsor auf allen Ebenen der Organisation umfassend kommuniziert wird. 

   1.  Legen Sie klar definierte Geschäftsziele für IT- und Cloud-Initiativen fest. 

   1.  Dokumentieren Sie wichtige Geschäftsmetriken, um die IT- und Cloud-Transformation voranzutreiben. 

   1.  Kommunizieren Sie die Vision konsequent an alle Teams und Personen, die für Teile der Strategie verantwortlich sind. 

1.  Entwickeln Sie Matrizen zur Kommunikationsplanung, die vorgeben, welche Botschaft bestimmten Führungskräften, Managern und einzelnen Mitarbeitern übermittelt werden muss. Legen Sie fest, welche Person oder welches Team diese Nachricht übermitteln soll. 

   1.  Erfüllen Sie Kommunikationspläne konsistent und zuverlässig. 

   1.  Setzen und steuern Sie Ihre Erwartungen regelmäßig in persönlichen Meetings. 

   1.  Nehmen Sie Feedback zur Effektivität der Kommunikation an, passen Sie die Kommunikation an und planen Sie entsprechend. 

   1.  Planen Sie Kommunikationsveranstaltungen, um die Herausforderungen der Teams proaktiv zur Kenntnis zu nehmen, und richten Sie eine konsistente Feedback-Schleife ein, um den Kurs bei Bedarf zu korrigieren. 

1.  Beschäftigen Sie sich aktiv mit jeder Initiative aus der Führungsperspektive, um sicherzustellen, dass alle betroffenen Teams die Ergebnisse verstehen, für deren Erreichung sie verantwortlich sind. 

1.  Bei jedem Status-Meeting sollten die leitenden Unterstützer nach Hindernissen Ausschau halten, etablierte Metriken, Anekdoten oder das Feedback der Teams überprüfen und die Fortschritte bei der Erreichung der Ziele messen. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS03-BP04 Die Kommunikation ist zeitnah, klar und umsetzbar](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_effective_comms.html) 
+  [OP11-BP01 Implementieren eines Prozesses für die kontinuierliche Verbesserung](wellarchitected/latest/operational-excellence-pillar/evolve/learn_share_and_improve/ops_evolve_ops_process_cont_imp.html) 
+  [OPS11-BP07 Prüfung von Betriebsmetriken](wellarchitected/latest/operational-excellence-pillar/evolve/learn_share_and_improve/ops_evolve_ops_metrics_review.html) 

 **Zugehörige Dokumente:** 
+  [Entwirren Ihrer Organisation: Stark ausgerichtet](https://aws.amazon.com/blogs/enterprise-strategy/untangling-your-organisational-hairball-highly-aligned/) 
+  [Die lebendige Transformation: Veränderungen pragmatisch angehen](https://aws.amazon.com/blogs/enterprise-strategy/the-living-transformation-pragmatically-approaching-changes/) 
+  [Transformation zu einem zukunftsfähigen Unternehmen](https://aws.amazon.com/blogs/enterprise-strategy/becoming-a-future-ready-enterprise/) 
+  [7 Fehler, die Sie bei der Einrichtung eines CCOE vermeiden sollten](https://aws.amazon.com/blogs/enterprise-strategy/7-pitfalls-to-avoid-when-building-a-ccoe/) 
+  [Navigation in der Cloud: Wichtige Leistungskennzahlen für den Erfolg](https://aws.amazon.com/blogs/enterprise-strategy/navigating-the-cloud-key-performance-indicators-for-success/) 

 **Zugehörige Videos:** 
+  [AWS re:Invent 2023: Leitfaden für Führungskräfte zur generativen KI: Berücksichtigung der Geschichte bei der Gestaltung der Zukunft (SEG204)](https://youtu.be/e3snrDsct1o) 

 **Zugehörige Beispiele:** 
+  [Prosci: Rolle und Bedeutung des leitenden Unterstützers](https://www.prosci.com/blog/primary-sponsors-role-and-importance) 

# OPS03-BP02 Teammitglieder sind befugt, Maßnahmen zu ergreifen, wenn Ergebnisse gefährdet sind
<a name="ops_org_culture_team_emp_take_action"></a>

 Eine von der Führung vermittelte Kultur der Eigenverantwortung führt dazu, dass sich die Mitarbeiter bestärkt fühlen, im Namen des gesamten Unternehmens über ihren definierten Rollen- und Verantwortungsbereich hinaus zu handeln. Die Mitarbeiter können handeln, um auftretende Risiken proaktiv zu erkennen und geeignete Maßnahmen ergreifen. Eine solche Kultur ermöglicht es den Mitarbeitern, die Situation zu überblicken und wichtige Entscheidungen zu treffen. 

 Amazon verwendet beispielsweise [Führungsprinzipien](https://www.amazon.jobs/content/en/our-workplace/leadership-principles) als Richtlinien, um das gewünschte Verhalten der Mitarbeiter zu fördern, damit sie in Situationen vorankommen, Probleme lösen, mit Konflikten umgehen und Maßnahmen ergreifen können. 

 **Gewünschtes Ergebnis:** Die Führung hat eine neue Kultur beeinflusst, die es Einzelpersonen und Teams ermöglicht, wichtige Entscheidungen zu treffen – selbst auf niedrigeren Ebenen der Organisation (solange Entscheidungen mit überprüfbaren Genehmigungen und Sicherheitsmechanismen definiert sind). Misserfolge werden als Lernerfahrung angesehen, und Teams lernen schrittweise, ihre Entscheidungen und Maßnahmen zu optimieren, um in Zukunft ähnliche Situationen zu bewältigen. Wenn die Maßnahmen einer Person zu einer Verbesserung führen, von der andere Teams profitieren können, werden die aus solchen Maßnahmen gewonnenen Erkenntnisse proaktiv geteilt. Die Geschäftsführung misst betriebliche Verbesserungen und bietet dem Einzelnen sowie der Organisation Anreize für die Übernahme solcher Muster. 

 **Typische Anti-Muster:** 
+  In einer Organisation gibt es keine klaren Leitlinien oder Mechanismen dafür, was zu tun ist, wenn ein Risiko erkannt wird. Wenn ein Mitarbeiter beispielsweise einen Phishing-Angriff bemerkt und dies nicht dem Sicherheitsteam meldet, kann dies zur Folge haben, dass ein großer Teil der Organisation auf den Angriff hereinfällt. Dies führt zu einer Datenschutzverletzung. 
+  Ihre Kunden beschweren sich über die Nichtverfügbarkeit von Services, die hauptsächlich auf fehlgeschlagene Bereitstellungen zurückzuführen ist. Ihr SRE-Team ist für das Bereitstellungstool verantwortlich, und ein automatisiertes Rollback für Bereitstellungen ist Teil der langfristigen Roadmap. Bei einer kürzlichen Anwendungseinführung entwickelte einer der Engineers eine Lösung, um das Rollback seiner Anwendung auf eine frühere Version zu automatisieren. Obwohl die Lösung zum Vorbild für SRE-Teams werden könnte, wird sie von anderen Teams nicht übernommen, da kein Prozess zur Nachverfolgung solcher Verbesserungen vorhanden ist. Die Organisation wird weiterhin durch fehlgeschlagene Bereitstellungen unter Druck gesetzt, die sich auf die Kunden auswirken und die Reputation des Unternehmens gefährden. 
+  Zur Wahrung der Compliance überwacht Ihr Infosec-Team einen seit langem etablierten Prozess, bei dem gemeinsam genutzte SSH-Schlüssel im Namen der Betreiber, die eine Verbindung zu ihren Amazon EC2-Linux-Instances herstellen, regelmäßig rotieren. Die InfoSec-Teams brauchen mehrere Tage für die Schlüsselrotation. In dieser Zeit können Sie keine Verbindung zu diesen Instances herstellen. Bislang gab es keine Vorschläge, weder seitens von Infosec noch von außerhalb, zur Nutzung anderer Optionen in AWS, um dasselbe Ergebnis zu erzielen. 

 **Vorteile der Nutzung dieser bewährten Methode:** Indem Sie die Entscheidungsbefugnisse dezentralisieren und Ihre Teams in die Lage versetzen, wichtige Entscheidungen zu treffen, können Sie Probleme schneller lösen und die Erfolgsquoten steigern. Darüber hinaus beginnen die Teams, ein Gefühl der Eigenverantwortung zu entwickeln, und Misserfolge werden als Lernerfahrungen angesehen. Experimentieren wird zu einem Eckpfeiler der Unternehmenskultur. Manager und Bereichsleiter haben nicht das Gefühl, dass sie in allen Aspekten bis ins kleinste Detail gemanagt werden. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

1.  Entwickeln Sie eine Kultur, in der damit gerechnet wird, dass Fehler auftreten können. 

1.  Definieren Sie klare Verantwortlichkeiten und Zuständigkeiten für verschiedene Funktionsbereiche innerhalb der Organisation. 

1.  Vermitteln Sie Eigenverantwortung und Rechenschaftspflicht, damit alle wissen, wo sie bei dezentralen Entscheidungen Unterstützung erhalten können. 

1.  Definieren Sie unumkehrbare und leicht revidierbare Entscheidungen, damit die Mitarbeiter wissen, wann sie Beschlüsse an höhere Führungsebenen eskalieren müssen. 

1.  Schaffen Sie in der Organisation ein Bewusstsein dafür, dass alle Mitarbeiter in der Lage sind, auf verschiedenen Ebenen Maßnahmen zu ergreifen, wenn Ergebnisse gefährdet sind. Stellen Sie Ihren Teammitgliedern Unterlagen über Governance, Befugnisebenen, Tools sowie Möglichkeiten zur Verfügung, um die erforderlichen Fähigkeiten für eine effektive Reaktion zu üben. 

1.  Geben Sie Ihren Teammitgliedern die Möglichkeit, die notwendigen Fähigkeiten zu üben, um auf verschiedene Entscheidungen zu reagieren. Sobald die Entscheidungsebenen festgelegt sind, führen Sie GameDays durch, um sicherzustellen, dass alle Mitarbeiter den Prozess verstehen und umsetzen können. 

   1.  Stellen Sie alternative sichere Umgebungen bereit, in denen Prozesse und Verfahren getestet und eingeübt werden können. 

   1.  Erkennen Sie an und schaffen Sie ein Bewusstsein dafür, dass Teammitglieder befugt sind, Maßnahmen zu ergreifen, wenn das Ergebnis ein vordefiniertes Risikoniveau aufweist. 

   1.  Verschaffen Sie den Teammitgliedern die erforderliche Autorität, um Maßnahmen zu ergreifen, indem Sie ihnen Berechtigungen und Zugriff auf ihre Workloads und Komponenten geben. 

1.  Bieten Sie Teams die Möglichkeit, ihre Erfahrungen (betriebliche Erfolge und Misserfolge) auszutauschen. 

1.  Ermöglichen Sie Teams, den Status quo in Frage zu stellen, und stellen Sie Mechanismen zur Verfügung, mit denen Verbesserungen sowie deren Auswirkungen auf die Organisation verfolgt und gemessen werden können. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS01-BP06 Bewerten von Kompromissen und Abwägen der Vorteile und Risiken](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_priorities_eval_tradeoffs.html) 
+  [OPS02-BP05 Mechanismen zur Identifizierung von Verantwortlichkeit und Eigentümerschaft sind vorhanden](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_req_add_chg_exception.html) 

 **Zugehörige Dokumente:** 
+  [AWS-Blog-Beitrag \$1 Das agile Unternehmen](https://aws.amazon.com/blogs/enterprise-strategy/the-agile-enterprise/) 
+  [AWS-Blog-Beitrag \$1 Erfolg messen: Ein Paradoxon und ein Plan](https://aws.amazon.com/blogs/enterprise-strategy/measuring-success-a-paradox-and-a-plan/) 
+  [AWS-Blog-Beitrag \$1 Loslassen: Autonomie in Teams ermöglichen](https://aws.amazon.com/blogs/enterprise-strategy/letting-go-enabling-autonomy-in-teams/) 
+  [Zentralisieren oder Dezentralisieren?](https://aws.amazon.com/blogs/enterprise-strategy/centralize-or-decentralize/) 

 **Zugehörige Videos:** 
+  [re:Invent 2023 \$1 So sabotieren Sie Ihre Transformation nicht (SEG201)](https://www.youtube.com/watch?v=heLvxK5N8Aw) 
+  [re:Invent 2021 \$1 Die Amazon Builders' Library: Betriebliche Exzellenz von Amazon](https://www.youtube.com/watch?v=7MrD4VSLC_w) 
+  [Zentralisierung und Dezentralisierung im Vergleich](https://youtu.be/jviFsd4hhfE?si=fjt8avVAYxA9jF01) 

 **Zugehörige Beispiele:** 
+  [Verwendung von Aufzeichnungen über architektonische Entscheidungen zur Optimierung der technischen Entscheidungsfindung für ein Softwareentwicklungsprojekt](https://docs.aws.amazon.com/prescriptive-guidance/latest/architectural-decision-records/welcome.html) 

# OPS03-BP03 Eskalation wird gefördert
<a name="ops_org_culture_team_enc_escalation"></a>

 Die Teammitglieder werden von der Führung ermutigt, Probleme und Bedenken an übergeordnete Entscheidungsträger und Stakeholder zu eskalieren, wenn sie der Meinung sind, dass die gewünschten Ergebnisse gefährdet sind und die erwarteten Standards nicht erfüllt werden. Dies ist ein Feature der Organisationskultur und wird auf allen Ebenen vorangetrieben. Die Eskalation sollte frühzeitig und lieber zu oft vorgenommen werden, damit Risiken identifiziert und Vorfälle verhindert werden können. Die Führung tadelt Mitarbeiter nicht dafür, wenn sie ein Problem eskalieren. 

 **Gewünschtes Ergebnis:** Personen in der gesamten Organisation sind vertraut damit, Probleme an ihre unmittelbaren und höheren Führungsebenen zu eskalieren. Die Führung hat bewusst und gezielt die Erwartung aufgestellt, dass sich ihre Teams sicher fühlen sollen, Probleme zu eskalieren. Es wurde ein Mechanismus eingerichtet, um Probleme auf allen Organisationsebenen zu eskalieren. Wenn Mitarbeiter eine Angelegenheit an ihren Vorgesetzten eskalieren, entscheiden sie gemeinsam über das Ausmaß der Auswirkungen und eine mögliche Eskalation des Problems. Eine Eskalation setzt voraus, dass die Mitarbeiter einen empfohlenen Arbeitsplan zur Behebung des Problems beifügen. Wenn die nächsthöhere Führungsebene nicht rechtzeitig Maßnahmen ergreift, sind die Mitarbeiter angehalten, Probleme an die oberste Führungsebene weiterzuleiten, wenn sie der festen Überzeugung sind, dass die Risiken für die Organisation eine Eskalation rechtfertigen. 

 **Typische Anti-Muster:** 
+  Führungskräfte haken während Ihrer Statusbesprechung zum Cloud-Transformationsprogramm nicht ausreichend nach, um herauszufinden, wo Probleme und Hindernisse auftreten. Stattdessen werden nur gute Nachrichten präsentiert. Sie CIO hat deutlich gemacht, dass sie nur gerne gute Nachrichten hört, da sie aufgrund der aufgeworfenen Probleme CEO glauben, dass das Programm scheitert. 
+  Sie sind als Cloud-Betriebsentwickler tätig und stellen fest, dass das neue Wissensmanagementsystem von den Anwendungsteams kaum verwendet wird. Das Unternehmen investierte ein Jahr und mehrere Millionen Dollar in die Implementierung eines neuen Wissensmanagementsystems, aber die Mitarbeiter verfassen ihre Runbooks noch immer lokal und teilen sie in einer internen Cloud-Umgebung, was die Suche nach Wissen erschwert, das für unterstützte Workloads relevant ist. Sie versuchen, die Führungskräfte darauf aufmerksam zu machen, da die konsequente Verwendung dieses Systems die betriebliche Effizienz verbessern kann. Als Sie das Problem der Bereichsleiterin vorlegen, die für die Implementierung des Wissensmanagementsystems zuständig ist, werden Sie von ihr kritisiert, weil dadurch die Investition in Frage gestellt wird. 
+  Das für die Absicherung der Rechenressourcen zuständige Infosec-Team hat beschlossen, einen Prozess einzuführen, bei dem die erforderlichen Scans durchgeführt werden müssen, um sicherzustellen, dass die EC2 Instanzen vollständig gesichert sind, bevor das Compute-Team die Ressource zur Nutzung freigibt. Dadurch kam es zu einer Zeitverzögerung von einer zusätzlichen Woche für die Bereitstellung von Ressourcen, wodurch deren SLA Verfügbarkeit beeinträchtigt wird. Das Computing-Team hat Angst, dies über die Cloud an den VP zu eskalieren, da der VP für Informationssicherheit dadurch in ein schlechtes Licht gerückt werden könnte. 

 **Vorteile der Nutzung dieser bewährten Methode:** 

 Komplexe oder kritische Probleme werden angegangen, bevor sie sich auf das Geschäft auswirken. Es wird weniger Zeit verschwendet. Risiken werden minimiert. Teams werden bei der Lösung von Problemen proaktiver und ergebnisorientierter. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Die Bereitschaft und Fähigkeit, auf allen Organisationsebenen uneingeschränkt zu eskalieren, ist eine bedeutende Eigenschaft der Organisation und ihrer Kultur, die bewusst weiterentwickelt werden sollte, und zwar durch gezielte Schulungen, Kommunikationen der Führungsebene, Erwartungssetzung und den Einsatz von Mechanismen auf allen Organisationsebenen. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  Definieren Sie Richtlinien, Standards und Erwartungen für Ihre Organisation. 

   1.  Sorgen Sie für eine breite Anwendung und Kenntnis der Richtlinien, Erwartungen und Standards. 

1.  Ermutigen, schulen und befähigen Sie die Mitarbeiter, damit sie frühzeitig und häufig eskalieren, wenn die Standards nicht eingehalten werden. 

1.  Bekräftigen Sie in der Organisation, dass die frühe und häufige Eskalation die bewährte Methode ist. Akzeptieren Sie im Unternehmen, dass sich Eskalationen zwar als unbegründet herausstellen können, es sich aber trotzdem insgesamt lohnt, wenn ein echter Vorfall dadurch verhindert wird. 

   1.  Entwickeln Sie einen Mechanismus für Eskalationen (z. B. ein Andon–Cord-System). 

   1.  Sorgen Sie für dokumentierte Verfahren, die definieren, wann und wie eine Eskalation erfolgen soll. 

   1.  Definieren Sie die Abfolge der Personen mit zunehmenden Befugnissen, um Maßnahmen zu ergreifen oder zu genehmigen, sowie die Kontaktinformationen der einzelnen Stakeholder. 

1.  Im Falle einer Eskalation sollte sie so lange fortgesetzt werden, bis das Teammitglied davon überzeugt ist, dass das Risiko durch entsprechende Maßnahmen der Führung gemindert wurde. 

   1.  Eskalationen sollten Folgendes beinhalten: 

      1.  Beschreibung der Situation und Art des Risikos 

      1.  Kritikalität der Situation 

      1.  Wer oder was betroffen ist 

      1.  Umfang der Auswirkungen 

      1.  Dringlichkeit, falls eine Auswirkung eintritt 

      1.  Vorgeschlagene Abhilfemaßnahmen und Risikominderungsplan 

   1.  Schützen Sie Mitarbeiter, die ein Problem eskalieren. Führen Sie eine Richtlinie ein, die Teammitglieder vor Konsequenzen schützt, wenn sie an einen ablehnend eingestellten Entscheidungsträger oder Stakeholder eskalieren. Schaffen Sie Mechanismen, um solche Szenarien zu erkennen, und leiten Sie entsprechende Maßnahmen ein. 

1.  Fördern Sie eine Kultur der kontinuierlichen Verbesserung durch Feedback-Schleifen in allen Bereichen der Organisation. Feedback-Schleifen fungieren als kleine Eskalationen an die verantwortlichen Personen und identifizieren Verbesserungsmöglichkeiten, auch wenn eine Eskalation nicht erforderlich ist. Eine Kultur der kontinuierlichen Verbesserung zwingt alle dazu, proaktiver zu werden. 

1.  Die Führung sollte regelmäßig an die Richtlinien, Standards und Mechanismen erinnern sowie an den Wunsch nach offener Eskalation und kontinuierlichen Feedback-Schleifen ohne Vergeltungsmaßnahmen jedweder Art. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS02-BP05 Mechanismen zum Anfordern von Ergänzungen, Änderungen und Ausnahmen sind vorhanden](ops_ops_model_req_add_chg_exception.md) 

 **Zugehörige Dokumente:** 
+  [Wie fördert man eine Kultur der kontinuierlichen Verbesserung und des Lernens von Andon- und Eskalationssystemen?](https://www.linkedin.com/advice/0/how-do-you-foster-culture-continuous-improvement-7054190310033145857) 
+  [Das Andon-Cord (IT-Revolution)](https://itrevolution.com/articles/kata/) 
+  [AWS DevOps Leitlinien \$1 Etablieren Sie klare Eskalationspfade und fördern Sie konstruktive Meinungsverschiedenheiten](https://docs.aws.amazon.com/wellarchitected/latest/devops-guidance/oa.bcl.5-establish-clear-escalation-paths-and-encourage-constructive-disagreement.html) 

 **Zugehörige Videos:** 
+  [Jeff Bezos erklärt, wie man Entscheidungen trifft (und die Geschwindigkeit erhöht)](https://www.youtube.com/watch?v=VFwCGECvq4I) 
+  [Toyota Product System: Anhalten der Produktion, ein Knopf und einer Andon-Elektroplatine](https://youtu.be/TUKpxjAftnk?si=qohtCCX0q78GDzJu) 
+  [Andon Cord in der Fertigung LEAN](https://youtu.be/HshopyQk720?si=1XJkpCSqJSpk_zE6) 

 **Zugehörige Beispiele:** 
+  [Arbeiten mit Eskalationsplänen in Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html) 

# OPS03-BP04 Die Kommunikation ist zeitnah, klar und umsetzbar
<a name="ops_org_culture_effective_comms"></a>

 Die Führung ist für eine überzeugende und effektive Kommunikation zuständig, insbesondere wenn die Organisation vor der Einführung neuer Strategien, Technologien oder Arbeitsweisen steht. Führungskräfte sollten Erwartungen an alle Mitarbeiter stellen, damit sie auf die Unternehmensziele hinarbeiten können. Entwickeln Sie Kommunikationsmechanismen für die Bildung und Aufrechterhaltung des geforderten Bewusstseins in Teams, die für die Durchführung von Plänen verantwortlich sind, die von der Führung finanziert und unterstützt werden. Machen Sie sich die organisationsübergreifende Vielfalt zunutze und hören Sie sich verschiedene einzigartige Perspektiven aufmerksam an. Nutzen Sie diese Perspektive, um Innovation zu fördern, Ihre Annahmen in Frage zu stellen und das Risiko einer Verzerrung durch automatische Bestätigung zu reduzieren. Stärken Sie Inklusion, Vielfalt und Zugehörigkeit innerhalb Ihrer Teams, um nützliche Perspektiven zu gewinnen. 

 **Gewünschtes Ergebnis:** Ihre Organisation entwickelt Kommunikationsstrategien, um den Auswirkungen von Veränderungen auf die Organisation Rechnung zu tragen. Die Teams werden informiert und motiviert, weiter miteinander statt gegeneinander zu arbeiten. Einzelpersonen kennen die Bedeutung ihrer Rolle, um die angegebenen Ziele zu erreichen. E-Mail ist nur ein passiver Kommunikationsmechanismus und wird als solcher behandelt. Das Management verbringt Zeit mit seinen einzelnen Mitarbeitern, um ihnen ihre Verantwortung, die zu erledigenden Aufgaben und die Bedeutung ihrer Arbeit für die Gesamtmission zu vermitteln. Bei Bedarf binden Führungskräfte ihre Mitarbeiter an kleineren Veranstaltungsorten direkt ein, um Botschaften zu kommunizieren, und sie stellen sicher, dass diese Botschaften effektiv übermittelt werden. Die Organisation erfüllt oder übertrifft die Erwartungen der Führung mithilfe geeigneter Kommunikationsstrategien. Die Führung begrüßt und fördert unterschiedliche Meinungen innerhalb und zwischen Teams. 

 **Typische Anti-Muster:** 
+  Ihre Organisation hat einen Fünf-Jahres-Plan für die Migration aller Workloads in AWS. Der Business Case für die Cloud beinhaltet die Modernisierung von 25 % aller Workloads, um die Vorteile der Serverless-Technologie zu nutzen. Der CIO kommuniziert diese Strategie direkt unterstellten Mitarbeitern und erwartet, dass die Führungskräfte diese Präsentation ohne persönliche Gespräche an Manager, Bereichsleiter und einzelne Mitarbeiter weiterleiten. Der CIO zieht sich zurück und erwartet, dass seine Organisation die neue Strategie umsetzt. 
+  Die Führung bietet oder nutzt keine Feedback-Mechanismen, und die Erwartungslücke wächst, was dazu führt, dass einzelne Projekte ins Stocken geraten. 
+  Sie werden gebeten, eine Änderung an Ihren Sicherheitsgruppen vorzunehmen, ohne konkrete Informationen über die Änderung zu erhalten oder darüber, welche Auswirkungen sie auf alle Workloads haben könnte und bis wann sie umzusetzen ist. Der Manager leitet eine E-Mail vom VP von InfoSec weiter und fügt folgende Nachricht hinzu: „Setzen Sie das um.“ 
+  An Ihrer Migrationsstrategie wurden Änderungen vorgenommen, die die Anzahl der geplanten Modernisierungen von 25 auf 10 % reduzieren. Dies hat nachgelagerte Auswirkungen auf die Betriebsorganisation. Sie wurden nicht über diese strategische Änderung informiert und verfügen daher nicht über genügend qualifizierte Mitarbeiter, um einen größeren Lift-and-Shift-Aufwand von Workloads in AWS zu bewältigen. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Ihre Organisation ist über neue oder geänderte Strategien hinreichend informiert und die Mitarbeiter sind hochmotiviert, um sich gegenseitig dabei zu unterstützen, die von der Führung festgelegten Gesamtziele und Metriken zu erreichen. 
+  Es gibt Mechanismen und sie werden angewandt, um Teammitglieder rechtzeitig über bekannte Risiken und geplante Ereignisse zu informieren. 
+  Neue Arbeitsweisen (einschließlich Änderungen bzgl. Belegschaft, Organisation, Prozessen oder Technologien) werden zusammen mit den erforderlichen Fähigkeiten von der Organisation effektiver übernommen. Darüber hinaus erreicht Ihre Organisation schneller Geschäftsvorteile. 
+  Die Teammitglieder verfügen über die notwendigen Hintergrundinformationen zu den eingehenden Kommunikationen und können ihre Arbeit effektiver erledigen. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Zur Implementierung dieser bewährten Methode müssen Sie mit Beteiligten aus der gesamten Organisation zusammenarbeiten, um Kommunikationsstandards zu vereinbaren. Machen Sie diese Standards in der Organisation bekannt. Bei allen wichtigen IT-Umstellungen kann ein etabliertes Planungsteam die Auswirkungen der Änderungen auf seine Mitarbeiter erfolgreicher bewältigen als eine Organisation, die diese Methode nicht anwendet. In größeren Organisationen können Veränderungen schwieriger umzusetzen sein, da es auf eine hohe Zustimmung aller einzelnen Mitarbeiter zu einer neuen Strategie ankommt. In Ermangelung eines solchen Umstellungsplanungsteams trägt die Führung zu 100 % die Verantwortung für eine effektive Kommunikation. Wenn Sie ein Umstellungsplanungsteam einrichten, weisen Sie die Teammitglieder an, mit der gesamten Organisationsführung zusammenzuarbeiten, um eine effektive Kommunikation auf allen Ebenen zu definieren und zu gewährleisten. 

 **Kundenbeispiel** 

 AnyCompany Retail hat sich für den AWS Enterprise Support registriert und ist für seine Cloud-Betriebsabläufe auf andere Drittanbieter angewiesen. Das Unternehmen nutzt Chat und Chatops als zentrales Kommunikationsmedium für seine betrieblichen Aktivitäten. Für Warnmeldungen und andere Informationen werden spezielle Kanäle genutzt. Wenn eine Maßnahme erforderlich ist, wird das erwartete Ergebnis klar formuliert, und in vielen Fällen gibt es ein Runbook oder Playbook dafür. Das Unternehmen verwendet einen Änderungskalender für die Planung größerer Änderungen an Produktionssystemen. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  Richten Sie innerhalb der Organisation ein Kernteam ein, das für die Erstellung und Initiierung von Kommunikationsplänen für Änderungen verantwortlich ist, die auf mehreren Ebenen innerhalb der Organisation stattfinden. 

1.  Fordern Sie Eigenverantwortlichkeit, um ein hohes Maß an Übersicht zu fördern. Geben Sie den einzelnen Teams die Möglichkeit, unabhängig voneinander Innovationen zu entwickeln, und sorgen Sie für einen ausgewogenen Einsatz einheitlicher Mechanismen, die das richtige Maß an Einsicht und Zielgerichtetheit ermöglichen. 

1.  Arbeiten Sie mit allen Stakeholdern in Ihrer Organisation zusammen, um Kommunikationsstandards, -methoden und -pläne zu vereinbaren. 

1.  Stellen Sie sicher, dass das zentrale Kommunikationsteam mit der Organisations- und Programmleitung zusammenarbeitet, um im Namen der Führungskräfte Botschaften an die zuständigen Mitarbeiter zu verfassen. 

1.  Entwickeln Sie strategische Kommunikationsmechanismen, um Veränderungen mithilfe von Ankündigungen, gemeinsamen Kalendern, Besprechungen mit allen Mitarbeitern und persönlichen oder Einzelgesprächen zu bewältigen, sodass die Teammitglieder die richtigen Erwartungen bezüglich der zu ergreifenden Maßnahmen haben. 

1.  Stellen Sie den erforderlichen Kontext, Details und die nötige Zeit bereit (wenn möglich), um festzustellen, ob Maßnahmen erforderlich sind. Wenn Maßnahmen erforderlich sind, identifizieren Sie die erforderlichen Maßnahmen und deren Auswirkungen. 

1.  Implementieren Sie Tools, die eine taktische Kommunikation fördern, z. B. interne Chats, E-Mails und Wissensmanagement. 

1.  Implementieren Sie Mechanismen, um zu messen und zu überprüfen, ob mit allen Kommunikationen die gewünschten Ergebnisse erreicht werden. 

1.  Richten Sie eine Feedback-Schleife ein, die die Effektivität aller Kommunikationen misst, insbesondere wenn darin der Widerstand gegen Veränderungen in der Organisation thematisiert wird. 

1.  Richten Sie für ganz AWS-Konten [alternative Kontakte](https://docs.aws.amazon.com/accounts/latest/reference/manage-acct-update-contact-alternate.html) für Abrechnung, Sicherheit und Betrieb ein. Idealerweise sollte es sich bei diesen Kontakten um E-Mail-Verteilerlisten und nicht um Einzelpersonen handeln. 

1.  Erstellen Sie einen Kommunikationsplan für die Eskalation und die umgekehrte Eskalation, um mit Ihren internen und externen Teams, einschließlich AWS Support und anderen Drittanbietern, zusammenzuarbeiten. 

1.  Initiieren Sie Kommunikationsstrategien und setzen Sie sie während der gesamten Laufzeit jedes Transformationsprogramms konsequent um. 

1.  Priorisieren Sie Maßnahmen, die nach Möglichkeit wiederholbar sind, um sie sicher und in großem Maßstab zu automatisieren. 

1.  Wenn Kommunikation in Szenarien mit automatisierten Maßnahmen erforderlich ist, sollte die Kommunikation hauptsächlich der Information der Teams oder Audits dienen oder Teil des Änderungsverwaltungsprozesses sein. 

1.  Analysieren Sie die Kommunikation Ihrer Warnsysteme auf Fehlalarme oder Warnmeldungen, die ständig generiert werden. Entfernen Sie diese Warnmeldungen oder ändern Sie sie so, dass sie nur ausgelöst werden, wenn menschliches Eingreifen erforderlich ist. Stellen Sie ein Runbook oder Playbook bereit, wenn eine Warnmeldung ausgelöst wird. 

   1.  Sie können [AWSSystems Manager-Dokumente](https://docs.aws.amazon.com/systems-manager/latest/userguide/sysman-ssm-docs.html) verwenden, um Playbooks und Runbooks für Warnmeldungen zu erstellen. 

1.  Es gibt Mechanismen zur Benachrichtigung über Risiken oder geplante Ereignisse auf eine klare und unterstützende Weise mit ausreichend Zeit für geeignete Maßnahmen. Verwenden Sie E-Mail-Listen oder Chat-Kanäle zum Senden von Benachrichtigungen vor geplanten Ereignissen. 

   1.  [AWS Chatbot](https://docs.aws.amazon.com/chatbot/latest/adminguide/what-is.html) kann verwendet werden, um Warnmeldungen zu senden und auf Ereignisse innerhalb der Messaging-Plattform Ihrer Organisation zu reagieren. 

1.  Stellen Sie eine zugängliche Informationsquelle bereit, der geplante Ereignisse zu entnehmen sind. Stellen Sie Benachrichtigungen zu geplanten Ereignissen vom gleichen System bereit. 

   1.  [AWS Systems Manager-Änderungskalender](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-change-calendar.html) kann verwendet werden, um Änderungszeitfenster zu erstellen, in denen Änderungen vorgenommen werden können. Dadurch werden Teammitglieder benachrichtigt, wann sie in sicherer Weise Änderungen vornehmen können. 

1.  Überwachen Sie Benachrichtigungen zu Schwachstellen und Patch-Informationen, um bestehende Schwachstellen und potenzielle Risiken im Zusammenhang mit den Komponenten Ihrer Workloads zu verstehen. Stellen Sie Benachrichtigungen für die Teammitglieder bereit, damit sie Maßnahmen ergreifen können. 

   1.  Sie können [AWS-Sicherheitsmitteilungen](https://aws.amazon.com/security/security-bulletins/) abonnieren, um über Schwachstellen in AWS benachrichtigt zu werden. 

1.  **Berücksichtigen unterschiedlicher Meinungen und Perspektiven:** Ermutigen Sie alle dazu, Beiträge zu leisten. Geben Sie unterrepräsentierten Gruppen die Möglichkeit, sich in die Kommunikation einzubringen. Rotieren Sie die Rollen und Zuständigkeiten in Meetings. 

   1.  **Erweitern von Rollen und Zuständigkeiten:** Bieten Sie Teammitgliedern die Möglichkeit, Rollen zu übernehmen, die ihnen fremd sind. Auf diese Weise können sie Erfahrung sammeln und neue Perspektiven durch die Rolle und den resultierenden Austausch mit neuen Teammitgliedern gewinnen, zu denen sie möglicherweise andernfalls keinen Kontakt hätten. Nicht zuletzt können sie die neue Rolle und die Teammitglieder mit ihren Erfahrungen und Perspektiven bereichern. Mit zunehmender Erfahrung werden Sie aufkommende Geschäftsmöglichkeiten oder neue Verbesserungsmöglichkeiten identifizieren. Rotieren Sie allgemeine Aufgaben zwischen den Mitgliedern innerhalb eines Teams, die normalerweise anderen Tätigkeiten nachgehen, damit sie deren Anforderungen und Auswirkungen verstehen. 

   1.  **Bereitstellen einer sicheren und freundlichen Umgebung:** Richten Sie Richtlinien und Kontrollen zum Schutz der geistigen und physischen Sicherheit der Teammitglieder in Ihrer Organisation ein. Die Teammitglieder müssen ohne Angst vor Vergeltungsmaßnahmen zusammenarbeiten können. Wenn sich Teammitglieder sicher und willkommen fühlen, ist die Wahrscheinlichkeit höher, dass sie engagiert und produktiv bleiben. Je vielfältiger Ihre Organisation ist, desto besser verstehen Sie die Personen, die Sie unterstützen, einschließlich Ihrer Kunden. Wenn Ihre Teammitglieder zufrieden sind, ihre Meinung sagen können und sich ernst genommen fühlen, steigt die Wahrscheinlichkeit, dass sie wertvolle Erkenntnisse mitteilen (z. B. Marketingmöglichkeiten, erforderliche Maßnahmen zur Barrierefreiheit, unerschlossene Marktsegmente, unbehandelte Risiken in Ihrer Umgebung). 

   1.  **Ermuntern von Teammitgliedern zu vollständigen Teilnahme:** Stellen Sie die Ressourcen bereit, die Ihre Mitarbeiter benötigen, um alle arbeitsbezogenen Tätigkeiten auszuführen. Teammitglieder haben Fähigkeiten entwickelt, mit denen sie ihre täglichen Herausforderungen meistern. Diese einzigartigen Fähigkeiten können für Ihre Organisation von großem Vorteil sein. Wenn Sie die Teammitglieder mit den notwendigen Ressourcen ausstatten, können Sie den Nutzen ihrer Beiträge maximieren. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS03-BP01 Förderung durch die Geschäftsführung gewährleisten](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_executive_sponsor.html) 
+  [OPS07-BP03 Verwenden von Runbooks zur Durchführung von Verfahren](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ready_to_support_use_runbooks.html) 
+  [OPS07-BP04 Verwenden von Playbooks zum Untersuchen von Problemen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ready_to_support_use_playbooks.html) 

 **Zugehörige Dokumente:** 
+  [AWS-Blog-Post \$1 Rechenschaftspflicht und Befähigung sind der Schlüssel zu leistungsstarken agilen Organisationen](https://aws.amazon.com/blogs/enterprise-strategy/two-pizza-teams-are-just-the-start-accountability-and-empowerment-are-key-to-high-performing-agile-organizations-part-2/) 
+  [AWS Executive Insights \$1 Lernen Sie, Innovation statt Komplexität zu skalieren \$1 Single-Threaded Leaders](https://aws.amazon.com/executive-insights/content/amazon-two-pizza-team/#Single-Threaded_Leaders) 
+  [AWS-Sicherheitsberichte](https://aws.amazon.com/security/security-bulletins) 
+  [Offene CVE](https://www.opencve.io/welcome) 
+  [Support-App in Slack zur Verwaltung von Supportfällen](https://aws.amazon.com/blogs/aws/new-aws-support-app-in-slack-to-manage-support-cases/) 
+  [Verwaltung von AWS-Ressourcen in Ihren Slack-Kanälen mit Amazon Q Developer in Chat-Anwendungen](https://aws.amazon.com/blogs/mt/manage-aws-resources-in-your-slack-channels-with-aws-chatbot/) 

 **Zugehörige Services:** 
+  [Amazon Q Developer in Chat-Anwendungen](https://docs.aws.amazon.com/chatbot/latest/adminguide/what-is.html) 
+  [AWS Systems Manager-Änderungskalender](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-change-calendar.html) 
+  [AWS Systems Manager-Dokumente](https://docs.aws.amazon.com/systems-manager/latest/userguide/sysman-ssm-docs.html) 

# OPS03-BP05 Experimentieren wird empfohlen
<a name="ops_org_culture_team_enc_experiment"></a>

Experimente können Katalysatoren für die Umsetzung von Ideen in Produkte und Funktionen sein. Sie beschleunigen Lernprozesse und halten Teammitglieder interessiert und engagiert. Team-Mitglieder sollten oft experimentieren, um Innovationen voranzubringen. Selbst nicht erwünschte Ergebnissen bieten den Vorteil, dass man dadurch weiß, wie man nicht vorgehen sollte. Teammitglieder werden nicht für erfolgreiche Experimente mit unerwünschten Ergebnissen bestraft. 

 **Gewünschtes Ergebnis:** 
+  Ihre Organisation ermutigt zum Experimentieren, um Innovationen voranzubringen. 
+  Experimente werden genutzt, um daraus zu lernen. 

 **Typische Anti-Muster:** 
+  Sie möchten einen A/B-Test durchführen, es gibt jedoch keinen Mechanismus für das Experiment. Sie stellen eine UI-Änderung bereit, ohne diese testen zu können. Dies beeinträchtigt den Kundenkomfort. 
+  Ihr Unternehmen verfügt nur über eine Staging- und eine Produktionsumgebung. Es gibt keine Sandbox-Umgebung zum Experimentieren mit neuen Funktionen oder Produkten, weshalb Sie in der Produktionsumgebung experimentieren müssen. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Experimente bringen Innovationen voran. 
+  Mithilfe von Experimenten können Sie schneller auf Feedback reagieren. 
+  Ihre Organisation entwickelt eine Lernkultur. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Experimente sollten in sicherer Weise durchgeführt werden. Nutzen Sie mehrere Umgebungen für Experimente, ohne dabei Produktionsressourcen in Gefahr zu bringen. Nutzen Sie A/B-Tests und Feature-Flags für Testexperimente. Geben Sie Teammitgliedern die Möglichkeit, Experimente in einer Sandbox-Umgebung durchzuführen. 

 **Kundenbeispiel** 

 AnyCompany Retail ermuntert seine Mitarbeiter zu Experimenten. Teammitglieder können 20 % ihrer wöchentlichen Arbeitszeit für Experimente oder zum Erlernen neuer Technologien nutzen. Es gibt eine Sandbox-Umgebung zum Ausprobieren von Innovationen. Für neue Funktionen werden A/B-Tests verwendet, um sie mit realem Benutzerfeedback zu prüfen. 

 **Implementierungsschritte** 

1.  Arbeiten Sie mit Führungskräften aus dem gesamten Unternehmen zusammen, um Experimente zu unterstützen. Teammitglieder sollten aufgefordert werden, Experimente in sicherer Weise durchzuführen. 

1.  Stellen Sie Ihren Teammitgliedern eine Umgebung zur Verfügung, in der sie in sicherer Weise experimentieren können. Sie müssen Zugriff auf eine Umgebung haben, die der Produktionsumgebung stark ähnelt. 

   1.  Sie können ein separates AWS-Konto verwenden, um eine Sandbox-Umgebung für Experimente zu erstellen. [AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/what-is-control-tower.html) kann verwendet werden, um diese Konten bereitzustellen. 

1.  Verwenden Sie Feature-Flags und A/B-Tests, um in sicherer Weise zu experimentieren und Benutzer-Feedback einzuholen. 

   1.  [AWS AppConfig Feature Flags](https://docs.aws.amazon.com/appconfig/latest/userguide/what-is-appconfig.html) bietet die Möglichkeit, Feature-Flags zu erstellen. 

   1.  Mithilfe von [AWS Lambda-Versionen](https://docs.aws.amazon.com/lambda/latest/dg/configuration-versions.html) können Sie eine neue Version einer Funktion für Beta-Tests bereitstellen. 

 **Aufwand für den Implementierungsplan:** Hoch. Die Bereitstellung einer Umgebung für Teammitglieder, in der sie in sicherer Weise experimentieren können, kann erhebliche Investitionen erfordern. Möglicherweise muss auch der Anwendungscode modifiziert werden, um Feature-Flags verwenden oder A/B-Tests unterstützen zu können. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS11-BP02 Führen Sie eine Analyse nach dem Vorfall durch](ops_evolve_ops_perform_rca_process.md) – Das Lernen aus Vorfällen ist neben Experimenten ein wichtiger Motor für Innovation. 
+  [OPS11-BP03 Implementieren Sie Feedback-Schleifen](ops_evolve_ops_feedback_loops.md) – Feedbackschleifen sind ein wichtiger Bestandteil von Experimenten. 

 **Zugehörige Dokumente:** 
+ [ Ein Einblick in die Amazon-Kultur: Experimente, Misserfolge und Kundenorientierung ](https://aws.amazon.com/blogs/industries/an-inside-look-at-the-amazon-culture-experimentation-failure-and-customer-obsession/)
+ [ Bewährte Methoden zur Erstellung und Verwaltung von Sandbox-Konten in AWS](https://aws.amazon.com/blogs/mt/best-practices-creating-managing-sandbox-accounts-aws/)
+ [ Schaffen Sie eine Kultur des Experimentierens, die durch die Cloud ermöglicht wird ](https://aws.amazon.com/blogs/enterprise-strategy/create-a-culture-of-experimentation-enabled-by-the-cloud/)
+ [ Ermöglichen von Experimenten und Innovationen in der Cloud bei SulAmérica Seguros ](https://aws.amazon.com/blogs/mt/enabling-experimentation-and-innovation-in-the-cloud-at-sulamerica-seguros/)
+ [ Mehr experimentieren, weniger scheitern ](https://aws.amazon.com/blogs/enterprise-strategy/experiment-more-fail-less/)
+ [ Organisieren Sie Ihre AWS-Umgebung mit mehreren Konten – Sandbox OE ](https://docs.aws.amazon.com/whitepapers/latest/organizing-your-aws-environment/sandbox-ou.html)
+ [ Verwenden von AWS AppConfig Feature Flags ](https://aws.amazon.com/blogs/mt/using-aws-appconfig-feature-flags/)

 **Zugehörige Videos:** 
+ [AWS On Air mit Amazon CloudWatch Evidently \$1 AWS Events ](https://www.youtube.com/watch?v=ydX7lRNKAOo)
+ [AWS On Air San Fran Summit 2022 – Vorstellung der AWS AppConfig Feature Flags-Integration mit Jira ](https://www.youtube.com/watch?v=miAkZPtjqHg)
+ [AWS re:Invent 2022 – Eine Bereitstellung ist kein Release: Steuern Sie Ihre Einführungen mit Feature-Flags (BOA305-R) ](https://www.youtube.com/watch?v=uouw9QxVrE8)
+ [ Programmgesteuerte AWS-Konto-Erstellung mit AWS Control Tower](https://www.youtube.com/watch?v=LxxQTPdSFgw)
+ [ Einrichtung einer AWS-Umgebung mit mehreren Konten, in der bewährte Methoden für AWS Organizations genutzt werden](https://www.youtube.com/watch?v=uOrq8ZUuaAQ)

 **Zugehörige Beispiele:** 
+ [AWS Innovation Sandbox ](https://aws.amazon.com/solutions/implementations/aws-innovation-sandbox/)
+ [ Umfassende Personalisierung für E-Commerce – Einführung ](https://catalog.workshops.aws/personalize-101-ecommerce/en-US/labs/ab-testing)

 **Zugehörige Services:** 
+  [Amazon CloudWatch Evidently](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Evidently.html) 
+  [AWS AppConfig](https://docs.aws.amazon.com/appconfig/latest/userguide/what-is-appconfig.html) 
+  [AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/what-is-control-tower.html) 

# OPS03-BP06 Teammitglieder werden ermutigt, ihre Fähigkeiten zu pflegen und zu erweitern
<a name="ops_org_culture_team_enc_learn"></a>

 Teams müssen ihre Fähigkeiten ausbauen, um neue Technologien nutzen und mit veränderten Anforderungen und Aufgaben Ihrer Workloads umgehen zu können. Neue Fähigkeiten im Umgang mit neuen Technologien erhöhen oftmals die Zufriedenheit der Teammitglieder und ermöglichen Innovationen. Unterstützen Sie Ihre Teammitglieder beim Erlangen und Bewahren von Branchenzertifizierungen, mit denen ihre wachsenden Fähigkeiten bestätigt und anerkannt werden. Führen Sie funktionsübergreifende Trainings durch, um den Wissenstransfer zu fördern und das Risiko signifikanter Auswirkungen zu reduzieren, wenn Sie qualifizierte und erfahrene Teammitglieder mit kritischem Wissen verlieren. Schaffen Sie spezielle strukturierte Lernzeiten. 

 AWS stellt Ressourcen bereit, die Anleitungen, Beispiele und detaillierte Anleitungen zur Schulung Ihrer Teams bieten. Dazu zählen beispielsweise das [Erste Schritte-Ressourcencenter von AWS](https://aws.amazon.com/getting-started/), [AWS-Blogs](https://aws.amazon.com/blogs/), [AWS Online Tech Talks](https://aws.amazon.com/getting-started/), [AWS-Veranstaltungen und -Webinare](https://aws.amazon.com/events/) und die [AWS Well-Architected Labs](https://wellarchitectedlabs.com/). 

 Ressourcen wie [Support](https://aws.amazon.com/premiumsupport/programs/), [AWS re:Post](https://repost.aws/), [Support Center](https://console.aws.amazon.com/support/home/) und die [AWS Dokumentation](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) helfen dabei, technische Hindernisse zu beseitigen und den Betrieb zu verbessern. Bei Fragen können Sie sich über das Support Center an den Support wenden. 

 AWS stellt in der [Amazon Builders' Library](https://aws.amazon.com/builders-library/) auch bewährte Methoden und Muster vor, die wir durch den Betrieb von AWS gelernt haben. Außerdem finden Sie im [AWS-Blog](https://aws.amazon.com/blogs/) und im [offiziellen AWS-Podcast](https://aws.amazon.com/podcasts/aws-podcast/) eine Vielzahl weiterer nützlicher Lernmaterialien. 

 [AWS Training and Certification](https://aws.amazon.com/training/) bietet kostenlose Schulungen in Form von digitalen Kursen im Selbststudium sowie Lernpläne für spezifische Rollen oder Bereiche. Sie können sich auch für eine Schulung mit Kursleiter registrieren, um die AWS-Fähigkeiten Ihres Teams auszubauen. 

 **Gewünschtes Ergebnis:** Ihre Organisation bewertet ständig Qualifikationslücken und schließt sie mit strukturierten Budgets und Investitionen. Die Teams ermutigen und unterstützen ihre Mitglieder durch Weiterbildungsaktivitäten wie den Erwerb führender Branchenzertifizierungen. Die Teams nutzen spezielle Programme zum Wissensaustausch wie informelle Schulungen, Immersion Days, Hackathons und GameDays. Ihre Organisation hält ihre Wissenssysteme auf dem aktuellen Stand und relevant für die Schulung von Teammitgliedern, einschließlich Schulungen zur Einarbeitung neuer Mitarbeiter. 

 **Typische Anti-Muster:** 
+  Aufgrund eines fehlenden strukturierten Trainingsprogramms und Budgets entstehen in den Teams Unsicherheit und Zweifel, wenn sie versuchen, mit der technologischen Entwicklung Schritt zu halten, was letztlich zu einer erhöhten Personalabwanderung führt. 
+  Im Rahmen der Migration zu AWS weist Ihre Organisation Qualifikationslücken auf und die Teams verfügen über unterschiedlich starke Cloud-Kompetenzen. Aufgrund fehlender Fortbildungsprogramme sehen sich die Teams mit der veralteten und ineffizienten Verwaltung der Cloud-Umgebung überfordert, was zu einer Mehrbelastung der Mitarbeiter führt. Diese erschwerten Arbeitsbedingungen erhöhen die Unzufriedenheit der Mitarbeiter. 

 **Vorteile der Nutzung dieser bewährten Methode:** Wenn Ihre Organisation bewusst in die Verbesserung der Fähigkeiten der Teams investiert, trägt dies auch dazu bei, die Einführung und Optimierung der Cloud zu beschleunigen und zu skalieren. Gezielte Lernprogramme fördern Innovationen und stärken die operativen Fähigkeiten der Teams, um auf Ereignisse vorbereitet zu sein. Teams investieren bewusst in die Implementierung und Weiterentwicklung von bewährten Methoden. Die Arbeitsmoral im Team ist hoch und die Teammitglieder sind stolz auf ihren Beitrag zum Unternehmen. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Investieren Sie kontinuierlich in die berufliche Weiterentwicklung Ihrer Teams, um neue Technologien einzuführen, Innovationen voranzutreiben und mit den Veränderungen der Anforderungen und Verantwortlichkeiten Schritt zu halten, um Ihre Workloads zu unterstützen. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  **Nutzen Sie strukturierte Cloud-Advocacy-Programme:** [AWS Skills Guild](https://aws.amazon.com/training/teams/aws-skills-guild/) bietet beratende Schulungen an, um das Vertrauen in die eigenen Cloud-Fähigkeiten zu stärken und eine Kultur des kontinuierlichen Lernens zu fördern. 

1.  **Bereitstellen von Ressourcen für die Weiterbildung:** Sorgen Sie für eine spezielle strukturierte Lernzeit, Schulungsmaterialien und Laborressourcen. Unterstützen Sie die Teilnahme an Konferenzen und den Zugang zu professionellen Organisationen, die Möglichkeiten zum Lernen von Lehrenden und anderen Fachleuten bieten. Stellen Sie für Ihre Junior-Teammitglieder den Kontakt zu erfahreneren Teammitgliedern als Mentoren her oder ermöglichen Sie Junior-Teammitgliedern, ihnen bei der Arbeit zuzusehen, um sich mit ihren Methoden und Fähigkeiten vertraut zu machen. Ermutigen Sie dazu, auch etwas über Inhalte zu lernen, die nicht direkt mit der Arbeit zusammenhängen, um den Horizont zu erweitern. 

1.  **Ermuntern Sie zur Nutzung von technischen Ressourcen für Experten:** Nutzen Sie Ressourcen wie [AWS re:Post](https://repost.aws/), um Zugang zu kuratiertem Wissen und einer lebendigen Community zu erhalten. 

1.  **Aufbau und Pflege eines aktuellen Wissens-Repositorys:** Nutzen Sie Plattformen für den Wissensaustausch wie Wikis und Runbooks. Erstellen Sie mit [AWS re:Post Private](https://aws.amazon.com/repost-private/) Ihre eigene wiederverwendbare Quelle für Expertenwissen, um die Zusammenarbeit zu optimieren, die Produktivität zu steigern und das Onboarding von Mitarbeitern zu beschleunigen. 

1.  **Teamschulung und teamübergreifende Zusammenarbeit:** Planen Sie den Weiterbildungsbedarf Ihrer Teammitglieder ein. Schaffen Sie Gelegenheiten für die Teammitglieder, (vorübergehend oder dauerhaft) in anderen Teams zu arbeiten, damit sie untereinander Fähigkeiten und bewährte Methoden austauschen können, wovon letztendlich die gesamte Organisation profitiert. 

1.  **Unterstützen beim Erlangen und Bewahren von Branchenzertifizierungen:** Unterstützen Sie Ihre Teammitglieder beim Erlangen und Bewahren von Branchenzertifizierungen, durch die das Gelernte bestätigt wird und die Erfolge anerkannt werden. 

 **Aufwand für den Implementierungsplan:** Hoch 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS03-BP01 Förderung durch die Geschäftsführung gewährleisten](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_executive_sponsor.html) 
+  [OPS11-BP04 Wissensmanagement](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_knowledge_management.html) 

 **Zugehörige Dokumente:** 
+  [AWS-Whitepaper \$1 Cloud Adoption Framework: Die Mitarbeiterperspektive](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-people-perspective/aws-caf-people-perspective.html) 
+  [Investitionen in kontinuierliches Lernen, um die Zukunft Ihrer Organisation zu fördern](https://aws.amazon.com/blogs/publicsector/investing-continuous-learning-grow-organizations-future/) 
+  [AWS Skills Guild](https://aws.amazon.com/training/teams/aws-skills-guild/) 
+  [AWS Training and Certification](https://aws.amazon.com/training/) 
+  [Support](https://aws.amazon.com/premiumsupport/programs/) 
+  [AWS re:Post](https://repost.aws/) 
+  [AWS-Ressourcencenter für erste Schritte](https://aws.amazon.com/getting-started/) 
+  [AWS-Blogs](https://aws.amazon.com/blogs/) 
+  [AWS Cloud Compliance](https://aws.amazon.com/compliance/) 
+  [AWS-Dokumentation](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+  [Offizieller AWS-Podcast](https://aws.amazon.com/podcasts/aws-podcast/). 
+  [AWS Online Tech Talks](https://aws.amazon.com/getting-started/) 
+  [AWS-Veranstaltungen und -Webinare](https://aws.amazon.com/events/) 
+  [AWS Well-Architected Labs](https://wellarchitectedlabs.com/) 
+  [Die Amazon Builders' Library](https://aws.amazon.com/builders-library/) 

 **Zugehörige Videos:** 
+  [AWS re:Invent 2023 \$1 Weiterbildung mit der Geschwindigkeit der Cloud: Aus Mitarbeitern Unternehmer machen](https://www.youtube.com/watch?v=Ax7JqIDIXEY) 
+  [WS re:Invent 2023 \$1 Aufbau einer Kultur der Neugier durch Gamification](https://www.youtube.com/watch?v=EqWvSBAmD3w) 

# OPS03-BP07 Ressourcenteams angemessen
<a name="ops_org_culture_team_res_appro"></a>

 Setzen Sie die richtige Anzahl kompetenter Teammitglieder ein und stellen Sie Tools und Ressourcen zur Verfügung, um Ihre Workload-Anforderungen zu erfüllen. Eine Überlastung der Teammitglieder erhöht das Risiko menschlicher Fehler. Investitionen in Tools und Ressourcen wie Automatisierung können die Effektivität Ihres Teams steigern und es dabei unterstützen, eine größere Anzahl von Workloads zu bewältigen, ohne zusätzliche Kapazitäten zu benötigen. 

 **Gewünschtes Ergebnis:** 
+  Sie haben Ihr Team entsprechend personell ausgestattet, um die Fähigkeiten zu erwerben, die es benötigt, um Workloads AWS gemäß Ihrem Migrationsplan zu verwalten. Da sich Ihr Team im Laufe Ihres Migrationsprojekts immer weiter vergrößert hat, hat es Kenntnisse in den AWS Kerntechnologien erworben, die das Unternehmen bei der Migration oder Modernisierung seiner Anwendungen einsetzen will. 
+  Sie haben Ihren Personalplan sorgfältig abgestimmt, um Ressourcen mithilfe von Automatisierung und Workflows effizient zu nutzen. Ein kleineres Team kann jetzt im Auftrag der Anwendungsentwicklungsteams mehr Infrastruktur verwalten. 
+  Angesichts sich ändernder betrieblicher Prioritäten werden Personalengpässe proaktiv erkannt, um den Erfolg von Geschäftsinitiativen zu sichern. 
+  Betriebsmetriken, die auf operative Schwierigkeiten (wie Ermüdung des Bereitschaftsdienstes oder übermäßiges Telefonieren) hinweisen, werden überprüft, um eine Überforderung der Mitarbeiter zu vermeiden. 

 **Typische Anti-Muster:** 
+  Ihre Mitarbeiter haben ihre AWS Fähigkeiten nicht erweitert, als Sie sich Ihrem mehrjährigen Cloud-Migrationsplan nähern, was die Unterstützung der Arbeitslast gefährdet und die Arbeitsmoral der Mitarbeiter beeinträchtigt. 
+  Ihre gesamte IT-Organisation stellt sich auf agile Arbeitsweisen um. Das Unternehmen priorisiert das Produktportfolio und legt Metriken dafür fest, welche Features zuerst entwickelt werden müssen. Ihr agiler Prozess erfordert nicht, dass Teams ihren Arbeitsplänen Story Points zuweisen. Daher ist es unmöglich zu wissen, welche Kapazitäten für den nächsten Arbeitsschritt erforderlich sind oder ob Sie über die dafür notwendigen Fähigkeiten verfügen. 
+  Sie beauftragen einen AWS Partner, Ihre Workloads zu migrieren, und Sie haben keinen Plan zur Umstellung auf den Support für Ihre Teams, sobald der Partner das Migrationsprojekt abgeschlossen hat. Ihre Teams haben Schwierigkeiten, die Workloads effizient und effektiv zu unterstützen. 

 **Vorteile der Nutzung dieser bewährten Methode:** In Ihrer Organisation gibt es Teammitglieder, die für die Unterstützung der Workloads qualifiziert sind. Die Ressourcenzuweisung kann an sich ändernde Prioritäten angepasst werden, ohne die Leistung zu beeinträchtigen. Somit können die Teams die Workloads effizient unterstützen und gleichzeitig mehr Zeit mit Innovationen für Kunden aufwenden, was wiederum die Mitarbeiterzufriedenheit erhöht. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Die Ressourcenplanung für Ihre Cloud-Migration sollte auf einer Organisationsebene erfolgen, die Ihrem Migrationsplan sowie dem gewünschten Betriebsmodell entspricht, das zur Unterstützung Ihrer neuen Cloud-Umgebung implementiert wird. Dies erfordert nicht zuletzt ein umfassendes Verständnis, welche Cloud-Technologien für die Geschäfts- und Anwendungsentwicklungsteams eingesetzt werden. Die Infrastruktur- und Betriebsleitung sorgt für eine Analyse von Qualifikationslücken, Schulungen und die Rollendefinition für Ingenieure, die die Cloud-Einführung leiten. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  Definieren Sie Erfolgskriterien für den Erfolg des Teams anhand relevanter Betriebsmetriken wie der Mitarbeiterproduktivität (z. B. Kosten für die Unterstützung einer Workload oder Arbeitsstunden, die Mitarbeiter bei Vorfällen aufgewendet haben). 

1.  Definieren Sie Mechanismen zur Planung und Überprüfung der Kapazität von Ressourcen, um sicherzustellen, dass bei Bedarf ausreichend qualifizierte Ressourcen verfügbar sind und deren Zahl im Laufe der Zeit angepasst werden kann. 

1.  Schaffen Sie Mechanismen (z. B. das Senden einer monatlichen Umfrage an Teams), um arbeitsbezogene Herausforderungen zu verstehen, die sich auf Teams auswirken (z. B. zunehmende Verantwortlichkeiten, technologische Veränderungen, Personalabwanderung oder wachsende Anzahl unterstützter Kunden). 

1.  Verwenden Sie diese Mechanismen, um mit Teams in Kontakt zu treten und Trends zu erkennen, die zu Problemen bei der Mitarbeiterproduktivität beitragen können. Wenn sich äußere Faktoren negativ auf Ihre Teams auswirken, bewerten Sie die Ziele neu und passen Sie sie entsprechend an. Identifizieren Sie Hindernisse für den Fortschritt Ihres Teams. 

1.  Prüfen Sie regelmäßig, ob Ihre derzeit vorhandenen Ressourcen noch ausreichen oder ob zusätzliche Ressourcen benötigt werden, und nehmen Sie entsprechende Anpassungen an den Support-Teams vor. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS03-BP06 Die Teammitglieder werden ermutigt, ihre Fähigkeiten beizubehalten und auszubauen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_org_culture_team_enc_learn.html) 
+  [OPS09-BP03 Überprüfen Sie die Betriebskennzahlen und priorisieren Sie Verbesserungen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_review_ops_metrics_prioritize_improvement.html) 
+  [OPS10-BP01 Verwenden Sie einen Prozess für das Ereignis-, Vorfall- und Problemmanagement](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_event_incident_problem_process.html) 
+  [OPS10-BP07 Automatisieren Sie Reaktionen auf Ereignisse](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_auto_event_response.html) 

 **Zugehörige Dokumente:** 
+  [AWS Cloud Adoptionsrahmen: Aus der Perspektive der Menschen](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-people-perspective/aws-caf-people-perspective.html) 
+  [Transformation zu einem zukunftsfähigen Unternehmen](https://aws.amazon.com/blogs/enterprise-strategy/becoming-a-future-ready-enterprise/) 
+  [Priorisieren der Fähigkeiten Ihrer Mitarbeiter, um das Unternehmenswachstum voranzutreiben](https://aws.amazon.com/executive-insights/content/prioritize-your-employees-skills-to-drive-business-growth/) 
+  [Leistungsstarke Organisation – das Zwei-Pizzen-Team von Amazon](https://aws.amazon.com/executive-insights/content/amazon-two-pizza-team/) 
+  [Wie Unternehmen mit umfassender Cloud-Erfahrung erfolgreich sind](https://aws.amazon.com/blogs/mt/how-cloud-mature-enterprises-succeed/) 

# Vorbereitung
<a name="a-prepare"></a>

**Topics**
+ [

# OPS 4. Wie implementieren Sie die Beobachtbarkeit in Ihrer Workload?
](ops-04.md)
+ [

# OPS 5. Wie können Sie Fehler reduzieren, die Fehlerbehebung erleichtern und den Ablauf bis zur Produktion verbessern?
](ops-05.md)
+ [

# OPS 6. Wie können Sie Bereitstellungsrisiken eindämmen?
](ops-06.md)
+ [

# OPS 7. Wie bringen Sie in Erfahrung, ob Sie für die Unterstützung eines Workloads bereit sind?
](ops-07.md)

# OPS 4. Wie implementieren Sie die Beobachtbarkeit in Ihrer Workload?
<a name="ops-04"></a>

Implementieren Sie Beobachtbarkeit in Ihre Workload, damit Sie deren Zustand verstehen und datengesteuerte Entscheidungen auf der Grundlage von Geschäftsanforderungen treffen können.

**Topics**
+ [

# OPS04-BP01 Identifizieren Sie die wichtigsten Leistungsindikatoren
](ops_observability_identify_kpis.md)
+ [

# OPS04-BP02 Implementieren Sie Anwendungstelemetrie
](ops_observability_application_telemetry.md)
+ [

# OPS04-BP03 Implementieren Sie Benutzererlebnis-Telemetrie
](ops_observability_customer_telemetry.md)
+ [

# OPS04-BP04 Implementieren einer Abhängigkeitstelemetrie
](ops_observability_dependency_telemetry.md)
+ [

# OPS04-BP05 Implementieren Sie verteiltes Tracing
](ops_observability_dist_trace.md)

# OPS04-BP01 Identifizieren Sie die wichtigsten Leistungsindikatoren
<a name="ops_observability_identify_kpis"></a>

 Die Implementierung von Beobachtbarkeit in Ihrer Workload beginnt damit, ihren Status zu verstehen und datengestützte Entscheidungen auf der Grundlage der geschäftlichen Anforderungen zu treffen. Eine der wirksamsten Methoden, um sicherzustellen, dass die Überwachungstätigkeiten und die Unternehmensziele aufeinander abgestimmt werden, ist die Definition und Überwachung zentraler Leistungsindikatoren (KPIs). 

 **Gewünschtes Ergebnis:** Effiziente Beobachtbarkeitspraktiken, die eng an den Geschäftszielen ausgerichtet sind und sicherstellen, dass die Überwachungsanstrengungen stets greifbaren Geschäftsergebnissen dienen. 

 **Typische Anti-Muster:** 
+  UndefiniertKPIs: Die Arbeit ohne klare Angaben KPIs kann dazu führen, dass zu viel oder zu wenig überwacht wird und wichtige Signale fehlen. 
+  StatischKPIs: Es wird nicht wiederholt oder verfeinertKPIs, wenn sich die Arbeitslast oder die Geschäftsziele ändern. 
+  Fehlausrichtung: Konzentration auf technische Metriken, die nicht direkt mit Geschäftsergebnissen korrelieren oder schwieriger mit realen Problemen zu korrelieren sind. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Einfache Identifizierung von Problemen: In Unternehmen KPIs treten Probleme häufig deutlicher zutage als bei technischen Kennzahlen. Ein Einbruch in einem Unternehmen KPI kann ein Problem effektiver lokalisieren als die Analyse zahlreicher technischer Kennzahlen. 
+  Geschäftsausrichtung: Es wird sichergestellt, dass die Überwachungsaktivitäten die Geschäftsziele direkt unterstützen. 
+  Effizienz: Es erfolgt eine Priorisierung der Ressourcen für die Überwachung und die Konzentration auf wichtige Metriken. 
+  Proaktivität: Probleme werden erkannt und gelöst, bevor sie weitreichende Auswirkungen auf das Geschäft haben. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Um die Arbeitslast effektiv zu definieren: KPIs 

1.  **Beginnen Sie mit den Geschäftsergebnissen:** Bevor Sie sich mit Metriken befassen, sollten Sie sich mit den gewünschten Geschäftsergebnissen vertraut machen. Sind es höhere Umsätze, mehr Benutzerinteraktionen oder schnellere Reaktionszeiten? 

1.  **Stimmen Sie technische Metriken auf Geschäftsziele ab:** Nicht alle technischen Metriken wirken sich direkt auf die Geschäftsergebnisse aus. Identifizieren Sie diejenigen, die dies tun, aber es ist oft einfacher, ein Problem mithilfe eines Unternehmens zu identifizierenKPI. 

1.  **Verwenden Sie [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html): CloudWatch Employ**, um Kennzahlen zu definieren und zu überwachen, die Ihren entsprechenKPIs. 

1.  **Regelmäßige Überprüfung und AktualisierungKPIs: Sorgen** Sie dafür, dass Ihre Daten KPIs relevant sind, wenn sich Ihre Arbeitslast und Ihr Unternehmen weiterentwickeln. 

1.  **Stakeholder einbeziehen:** Beziehen Sie sowohl technische als auch geschäftliche Teams in die Definition und Überprüfung mit einKPIs. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+ [OPS04-BP02 Implementieren Sie Anwendungstelemetrie](ops_observability_application_telemetry.md)
+ [OPS04-BP03 Implementieren Sie Benutzererlebnis-Telemetrie](ops_observability_customer_telemetry.md)
+ [OPS04-BP04 Implementieren einer Abhängigkeitstelemetrie](ops_observability_dependency_telemetry.md)
+ [OPS04-BP05 Implementieren Sie verteiltes Tracing](ops_observability_dist_trace.md)

 **Zugehörige Dokumente:** 
+ [AWS Bewährte Verfahren zur Beobachtbarkeit](https://aws-observability.github.io/observability-best-practices/)
+ [ CloudWatch Benutzerleitfaden](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html)
+ [AWS Kurs Observability Skill Builder](https://explore.skillbuilder.aws/learn/course/external/view/elearning/14688/aws-observability)

 **Zugehörige Videos:** 
+ [ Entwicklung einer Beobachtbarkeitsstrategie ](https://www.youtube.com/watch?v=Ub3ATriFapQ)

 **Zugehörige Beispiele:** 
+  [Workshop zur Beobachtbarkeit](https://catalog.workshops.aws/observability/en-US) 

# OPS04-BP02 Implementieren Sie Anwendungstelemetrie
<a name="ops_observability_application_telemetry"></a>

 Anwendungstelemetrie dient als Grundlage für die Beobachtbarkeit Ihres Workloads. Die ausgegebene Telemetrie muss unbedingt umsetzbare Erkenntnisse zum Status Ihrer Anwendung und zum Erreichen sowohl technischer als auch geschäftlicher Ergebnisse liefern. Von der Problembehebung über die Messung der Auswirkungen einer neuen Funktion bis hin zur Sicherstellung der Abstimmung mit den wichtigsten Unternehmensleistungsindikatoren (KPIs) — die Anwendungstelemetrie gibt Aufschluss darüber, wie Sie Ihre Workloads aufbauen, betreiben und weiterentwickeln. 

 Metriken, Protokolle und Traces bilden die drei wichtigsten Säulen der Beobachtbarkeit. Sie dienen als Diagnosetools, die den Status Ihrer Anwendung beschreiben. Im Laufe der Zeit helfen sie bei der Erstellung von Baselines und der Identifizierung von Anomalien. Um jedoch sicherzustellen, dass die Überwachungsaktivitäten und die Geschäftsziele aufeinander abgestimmt sind, ist es von entscheidender Bedeutung, diese zu definieren und zu überwachen. KPIs Unternehmen machen es KPIs oft einfacher, Probleme zu identifizieren als nur technische Kennzahlen. 

 Andere Telemetriearten, wie die Überwachung realer Benutzer (RUM) und synthetische Transaktionen, ergänzen diese primären Datenquellen. RUMbietet Einblicke in Benutzerinteraktionen in Echtzeit, während synthetische Transaktionen potenzielles Benutzerverhalten simulieren und so helfen, Engpässe zu erkennen, bevor echte Benutzer darauf stoßen. 

 **Gewünschtes Ergebnis:** Sie erzielen umsetzbare Erkenntnisse zur Leistung Ihres Workloads. Diese Erkenntnisse ermöglichen es Ihnen, proaktive Entscheidungen zur Leistungsoptimierung zu treffen, eine höhere Workload-Stabilität zu erreichen, CI/CD-Prozesse zu rationalisieren und Ressourcen effektiv zu nutzen. 

 **Typische Anti-Muster:** 
+  **Unvollständige Beobachtbarkeit:** Wenn die Beobachtbarkeit nicht auf jeder Ebene der Workload berücksichtigt wird, führt dies zu blinden Flecken, die wichtige Erkenntnisse über Systemleistung und Verhalten verschleiern können. 
+  **Fragmentierte Datenansicht:** Wenn Daten über mehrere Tools und Systeme verteilt sind, wird es schwierig, einen ganzheitlichen Überblick über den Zustand und die Leistung Ihrer Workloads zu behalten. 
+  **Von Benutzern gemeldete Probleme:** Ein Zeichen dafür, dass eine proaktive Problemerkennung durch Telemetrie und KPI Unternehmensüberwachung fehlt. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  **Fundierte Entscheidungsfindung:** Mit Erkenntnissen aus Telemetrie und Unternehmen können Sie KPIs datengestützte Entscheidungen treffen. 
+  **Verbesserte betriebliche Effizienz:** Datengesteuerte Ressourcennutzung führt zu Kosteneffektivität. 
+  **Verbesserte Workload-Stabilität:** Schnellere Erkennung und Lösung von Problemen führt zu einer verbesserten Verfügbarkeit. 
+  **Optimierte CI/CD-Prozesse:** Erkenntnisse aus Telemetriedaten erleichtern die Verfeinerung von Prozessen und sichern die Codebereitstellung. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Verwenden Sie AWS Dienste wie [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) und, um Anwendungstelemetrie für Ihren Workload zu implementieren. [AWS X-Ray](https://aws.amazon.com/xray/) Amazon CloudWatch bietet eine umfassende Suite von Überwachungstools, mit denen Sie Ihre Ressourcen und Anwendungen in AWS und vor Ort überwachen können. Der Service erfasst, verfolgt und analysiert Metriken, konsolidiert und überwacht Protokolldaten und reagiert auf Änderungen in Ihren Ressourcen, wodurch Sie besser verstehen, wie Ihre Workload funktioniert. Gleichzeitig AWS X-Ray können Sie Ihre Anwendungen verfolgen, analysieren und debuggen, sodass Sie ein tiefes Verständnis des Verhaltens Ihrer Workloads erhalten. Mit Funktionen wie Service Maps, Latenzverteilungen und Trace-Zeitplänen AWS X-Ray bietet es Einblicke in die Leistung Ihres Workloads und die Engpässe, die sich darauf auswirken. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  **Identifizieren, welche Daten erfasst werden sollen:** Ermitteln Sie die wichtigsten Metriken, Protokolle und Traces, die aussagekräftige Erkenntnisse zu Zustand, Leistung und Verhalten Ihres Workloads bieten. 

1.  **Stellen Sie den [CloudWatchAgenten bereit: Der CloudWatch Agent](https://aws.amazon.com/cloudwatch/)** spielt eine wichtige Rolle bei der Beschaffung von System- und Anwendungsmetriken und Protokollen von Ihrem Workload und der zugrunde liegenden Infrastruktur. Der CloudWatch Agent kann auch verwendet werden, um Spuren zu sammeln OpenTelemetry oder zu röntgen und sie an X-Ray zu senden. 

1.  **Implementieren Sie die Anomalieerkennung für Protokolle und Metriken:** Verwenden Sie die Erkennung von [CloudWatch Protokollanomalien und die Erkennung](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/LogsAnomalyDetection.html) von [CloudWatchMetrikanomalien](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html), um ungewöhnliche Aktivitäten im Betrieb Ihrer Anwendung automatisch zu identifizieren. Diese Tools verwenden Machine-Learning-Algorithmen, um Anomalien zu erkennen und sie zu melden. Dadurch werden Ihre Überwachungsfunktionen verbessert und die Reaktionszeit bei potenziellen Störungen oder Sicherheitsbedrohungen verkürzt. Richten Sie diese Features ein, um den Zustand und die Sicherheit von Anwendungen proaktiv zu verwalten. 

1.  **Schützen Sie sensible Protokolldaten:** Verwenden Sie den [Datenschutz von Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/mask-sensitive-log-data.html), um vertrauliche Informationen in Ihren Protokollen zu maskieren. Dieses Feature trägt zur Wahrung von Datenschutz und Compliance bei, indem sensible Daten automatisch erkannt und maskiert werden, bevor auf sie zugegriffen wird. Implementieren Sie Datenmaskierung, um sensible Daten wie personenbezogene Daten sicher zu handhaben und zu schützen (PII). 

1.  **Definieren und überwachen Sie Ihr GeschäftKPIs:** Legen Sie [benutzerdefinierte Kennzahlen](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) fest, die auf Ihre [Geschäftsergebnisse](https://aws-observability.github.io/observability-best-practices/guides/operational/business/monitoring-for-business-outcomes/) abgestimmt sind. 

1.  **Instrumentieren Sie Ihre Anwendung mit AWS X-Ray:** Neben der Bereitstellung des CloudWatch Agenten ist es wichtig, dass [Ihre Anwendung](https://docs.aws.amazon.com/xray/latest/devguide/xray-instrumenting-your-app.html) so konfiguriert ist, dass sie Trace-Daten aussendet. Dieser Prozess kann weitere Erkenntnisse zum Verhalten und zur Leistung Ihrer Workload liefern. 

1.  **Standardisierung der Datenerfassung in Ihrer gesamten Anwendung:** Standardisieren Sie die Datenerfassungspraktiken für Ihre gesamte Anwendung. Einheitlichkeit hilft bei der Korrelation und Analyse von Daten und liefert einen umfassenden Überblick über das Verhalten Ihrer Anwendung. 

1.  **Implementieren Sie kontenübergreifende Beobachtbarkeit:** Verbessern Sie die Effizienz der Überwachung über mehrere Konten hinweg AWS-Konten mit der [ CloudWatch kontenübergreifenden Observability von Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html). Mit dieser Funktion können Sie Metriken, Protokolle und Alarme von verschiedenen Konten in einer einzigen Ansicht konsolidieren, was die Verwaltung vereinfacht und die Reaktionszeiten bei identifizierten Problemen in der gesamten Unternehmensumgebung verbessert. AWS 

1.  Daten **analysieren und entsprechend handeln: Sobald die Datenerfassung** und Normalisierung abgeschlossen sind, können Sie [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/features/) für die Analyse von Kennzahlen und Protokollen sowie für die Trace-Analyse verwenden. [AWS X-Ray](https://aws.amazon.com/xray/features/) Eine solche Analyse kann wichtige Erkenntnisse über den Zustand, die Leistung und das Verhalten Ihrer Workload liefern und so Ihren Entscheidungsprozess beeinflussen. 

 **Aufwand für den Implementierungsplan:** Hoch 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS04-BP01 Arbeitslast definieren KPIs](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_identify_kpis.html) 
+  [OPS04-BP03 Implementieren Sie Telemetrie für Benutzeraktivitäten](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_customer_telemetry.html) 
+  [OPS04-BP04 Implementieren Sie Abhängigkeitstelemetrie](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_dependency_telemetry.html) 
+  [OPS04-BP05 Implementieren Sie die Rückverfolgbarkeit von Transaktionen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_dist_trace.html) 

 **Zugehörige Dokumente:** 
+  [Bewährte Methoden zur Beobachtbarkeit für AWS](https://aws-observability.github.io/observability-best-practices/) 
+  [CloudWatch-Benutzerhandbuch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 
+  [AWS X-Ray Entwicklerhandbuch](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [Instrumentieren verteilter Systeme für Einblicke in die Betriebsabläufe](https://aws.amazon.com/builders-library/instrumenting-distributed-systems-for-operational-visibility) 
+  [Skill Builder-Kurs zur Beobachtbarkeit in AWS](https://explore.skillbuilder.aws/learn/course/external/view/elearning/14688/aws-observability) 
+  [Was ist neu bei Amazon CloudWatch](https://aws.amazon.com/about-aws/whats-new/management-and-governance/?whats-new-content.sort-by=item.additionalFields.postDateTime&whats-new-content.sort-order=desc&awsf.whats-new-products=general-products%23amazon-cloudwatch) 
+  [Was ist neu bei AWS X-Ray](https://aws.amazon.com/about-aws/whats-new/developer-tools/?whats-new-content.sort-by=item.additionalFields.postDateTime&whats-new-content.sort-order=desc&awsf.whats-new-products=general-products%23aws-x-ray) 

 **Zugehörige Videos:** 
+  [AWS re:Invent 2022 — Bewährte Methoden zur Beobachtbarkeit bei Amazon](https://youtu.be/zZPzXEBW4P8) 
+  [AWS re:Invent 2022 — Entwicklung einer Strategie zur Beobachtung](https://youtu.be/Ub3ATriFapQ) 

 **Zugehörige Beispiele:** 
+  [Workshop zur Beobachtbarkeit](https://catalog.workshops.aws/observability) 
+  [AWS Lösungsbibliothek: Anwendungsüberwachung mit Amazon CloudWatch](https://aws.amazon.com/solutions/implementations/application-monitoring-with-cloudwatch) 

# OPS04-BP03 Implementieren Sie Benutzererlebnis-Telemetrie
<a name="ops_observability_customer_telemetry"></a>

 Ein entscheidender Erfolgsfaktor besteht darin, tiefe Einblicke in die Erfahrung Ihrer Kunden und deren Interaktionen mit Ihrer Anwendung zu gewinnen. Echte Benutzerüberwachung (RUM) und synthetische Transaktionen dienen zu diesem Zweck als leistungsstarke Tools. RUMliefert Daten über echte Benutzerinteraktionen und ermöglicht so eine ungefilterte Perspektive der Nutzerzufriedenheit. Synthetische Transaktionen simulieren Benutzerinteraktionen und helfen so dabei, potenzielle Probleme zu erkennen, noch bevor sie sich auf echte Nutzer auswirken. 

 **Gewünschtes Ergebnis:** Eine ganzheitliche Ansicht des Kundenerlebnisses, die proaktive Erkennung von Problemen und die Optimierung der Benutzerinteraktionen, um nahtlos digitale Erfahrungen zu ermöglichen. 

 **Typische Anti-Muster:** 
+  Anwendungen ohne reale Benutzerüberwachung (RUM): 
  +  Verzögerte Problemerkennung: Ohne diese RUM Option werden Sie möglicherweise erst dann auf Leistungsengpässe oder -probleme aufmerksam, wenn sich Benutzer beschweren. Dieser reaktive Ansatz kann bei Ihren Kunden zu Unzufriedenheit führen. 
  +  Fehlende Einblicke in die Benutzererfahrung: Wenn Sie sie nicht verwendenRUM, verlieren Sie wichtige Daten, die zeigen, wie echte Benutzer mit Ihrer Anwendung interagieren, wodurch Ihre Möglichkeiten zur Optimierung der Benutzererfahrung eingeschränkt werden. 
+  Anwendungen ohne synthetische Transaktionen: 
  +  Fehlende Grenzfälle: Synthetische Transaktionen helfen Ihnen dabei, Pfade und Funktionen zu testen, die von den meisten Benutzern möglicherweise nicht häufig verwendet werden, aber für bestimmte Geschäftsfunktionen von entscheidender Bedeutung sind. Ohne sie könnten mögliche Fehler bei diesen Pfaden und Funktionen unbemerkt bleiben. 
  +  Ausbleibende Überprüfung auf Probleme bei inaktiver Anwendung: Regelmäßige synthetische Tests können Situationen simulieren, in denen echte Benutzer nicht aktiv mit Ihrer Anwendung interagieren, wodurch sichergestellt wird, dass das System immer korrekt funktioniert. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Proaktive Problemerkennung: Identifizieren und beheben Sie potenzielle Probleme, bevor sie sich auf echte Benutzer auswirken. 
+  Optimierte Benutzererfahrung: Kontinuierliches Feedback von RUM hilft dabei, das allgemeine Benutzererlebnis zu verfeinern und zu verbessern. 
+  Erkenntnisse zur Geräte- und Browserleistung: Verstehen Sie, wie gut Ihre Anwendung auf verschiedenen Geräten und Browsern funktioniert, um weitere Optimierungen zu ermöglichen. 
+  Validierte Geschäftsabläufe: Regelmäßige synthetische Transaktionen stellen sicher, dass Kernfunktionen und kritische Pfade stets betriebsbereit und effizient bleiben. 
+  Verbesserte Anwendungsleistung: Nutzen Sie Erkenntnisse aus echten Benutzerdaten, um die Reaktionsfähigkeit und Zuverlässigkeit Ihrer Anwendungen zu verbessern. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 AWS [Bietet Dienste wie [Amazon RUM und Amazon CloudWatch RUM](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html) Synthetics an, um synthetische Transaktionen für die Telemetrie von Benutzeraktivitäten zu nutzen. CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) In Verbindung mit Daten zur Benutzeraktivität bieten Metriken, Protokolle und Traces einen umfassenden Überblick über den Betriebsstatus der Anwendung und die Benutzererfahrung zugleich. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  **Bereitstellen von Amazon CloudWatch RUM:** Integrieren Sie Ihre Anwendung, CloudWatch RUM um echte Benutzerdaten zu sammeln, zu analysieren und zu präsentieren. 

   1.  Verwenden Sie die [CloudWatch RUM JavaScript Bibliothek](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html), um sie in Ihre Anwendung zu integrierenRUM. 

   1.  Richten Sie Dashboards ein, um echte Benutzerdaten zu visualisieren und zu überwachen. 

1.  ** CloudWatch Synthetics konfigurieren:** Erstellen Sie Canaries oder skriptbasierte Routinen, die Benutzerinteraktionen mit Ihrer Anwendung simulieren. 

   1.  Definieren Sie kritische Anwendungsworkflows und -pfade. 

   1.  Entwerfen Sie Kanarienvögel mithilfe von [CloudWatch Synthetics-Skripten](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html), um Benutzerinteraktionen für diese Pfade zu simulieren. 

   1.  Planen und überwachen Sie Canaries so, dass sie in bestimmten Intervallen ausgeführt werden, und sorgen Sie so für einheitliche Leistungsprüfungen. 

1.  **Daten analysieren und darauf reagieren:** Nutzen Sie Daten aus RUM und synthetische Transaktionen, um Erkenntnisse zu gewinnen und Korrekturmaßnahmen zu ergreifen, wenn Anomalien entdeckt werden. Verwenden Sie CloudWatch Dashboards und Alarme, um auf dem Laufenden zu bleiben. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS04-BP01 Identifizieren Sie die wichtigsten Leistungsindikatoren](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementieren Sie Anwendungstelemetrie](ops_observability_application_telemetry.md) 
+  [OPS04-BP04 Implementieren einer Abhängigkeitstelemetrie](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 Implementieren Sie verteiltes Tracing](ops_observability_dist_trace.md) 

 **Zugehörige Dokumente:** 
+ [ CloudWatch RUMAmazon-Leitfaden](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html)
+ [Leitfaden für Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html)

 **Zugehörige Videos:** 
+ [Optimieren Sie Anwendungen mithilfe von Erkenntnissen für Endbenutzer mit Amazon CloudWatch RUM](https://www.youtube.com/watch?v=NMaeujY9A9Y)
+ [AWS auf Air ft. Echte Benutzerüberwachung für Amazon CloudWatch](https://www.youtube.com/watch?v=r6wFtozsiVE)

 **Zugehörige Beispiele:** 
+ [ Workshop zur Beobachtbarkeit ](https://catalog.workshops.aws/observability/en-US/intro)
+ [Git-Repository für Amazon CloudWatch RUM Web Client](https://github.com/aws-observability/aws-rum-web)
+ [Verwenden von Amazon CloudWatch Synthetics zur Messung der Seitenladezeit](https://github.com/aws-samples/amazon-cloudwatch-synthetics-page-performance)

# OPS04-BP04 Implementieren einer Abhängigkeitstelemetrie
<a name="ops_observability_dependency_telemetry"></a>

 Die Abhängigkeitstelemetrie ist für die Überwachung des Status und der Leistung der externen Services und Komponenten, auf die Ihre Workload angewiesen ist, unerlässlich. Sie liefert wertvolle Erkenntnisse zu Erreichbarkeit, Timeouts und anderen kritischen Ereignissen im Zusammenhang mit Abhängigkeiten wie DNS, Datenbanken oder APIs von Drittanbietern. Wenn Sie Ihre Anwendung so instrumentieren, dass sie Metriken, Protokolle und Traces zu diesen Abhängigkeiten ausgibt, gewinnen Sie ein besseres Verständnis von potenziellen Engpässen, Leistungsproblemen oder Ausfällen, die sich auf Ihren Workload auswirken könnten. 

 **Gewünschtes Ergebnis:** Sicherstellen, dass die Abhängigkeiten, auf die Ihre Workload angewiesen ist, erwartungsgemäß funktionieren, sodass Sie Probleme proaktiv angehen und eine optimale Workload-Leistung gewährleisten können. 

 **Typische Anti-Muster:** 
+  **Nichtbeachtung externer Abhängigkeiten:** sich nur auf interne Anwendungsmetriken konzentrieren und dabei Metriken im Zusammenhang mit externen Abhängigkeiten außer Acht lassen. 
+  **Mangelnde proaktive Überwachung:** warten, bis Probleme auftreten, statt den Status und die Leistung von Abhängigkeiten kontinuierlich zu überwachen. 
+  **Isolierte Überwachung:** Einsatz mehrerer, unterschiedlicher Überwachungstools, was zu fragmentierten und inkonsistenten Ansichten bezüglich des Überwachungsstatus führen kann. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  **Verbesserte Zuverlässigkeit der Workloads:** sicherstellen, dass externe Abhängigkeiten kontinuierlich verfügbar sind und optimal funktionieren. 
+  **Schnellere Problemerkennung und -lösung:** proaktives Identifizieren und Beheben von Problemen mit Abhängigkeiten, bevor sie sich auf die Workload auswirken. 
+  **Umfassender Überblick:** Erhalt eines ganzheitlichen Überblicks über interne und externe Komponenten, die den Workload-Status beeinflussen. 
+  **Verbesserte Skalierbarkeit der Workloads:** Verständnis der Skalierbarkeitsgrenzen und Leistungsmerkmale externer Abhängigkeiten. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Implementieren Sie die Abhängigkeitstelemetrie, indem Sie zunächst die Services, Infrastrukturen und Prozesse identifizieren, von denen Ihre Workload abhängt. Quantifizieren Sie, wie gute Bedingungen aussehen, wenn diese Abhängigkeiten wie erwartet funktionieren, und bestimmen Sie dann, welche Daten zum Messen dieser Bedingungen benötigt werden. Mit diesen Informationen können Sie Dashboards und Warnmeldungen erstellen, die Ihren Operations-Teams Erkenntnisse zum Status dieser Abhängigkeiten liefern. Verwenden Sie AWS-Tools, um die Auswirkungen zu ermitteln und zu quantifizieren, wenn Abhängigkeiten nicht die gewünschten Resultate zeigen. Überarbeiten Sie Ihre Strategie kontinuierlich, um Änderungen der Prioritäten, Ziele und gewonnenen Erkenntnisse Rechnung zu tragen. 

### Implementierungsschritte
<a name="implementation-steps"></a>

 So implementieren Sie die Abhängigkeitstelemetrie auf effiziente Weise: 

1.  **Identifizierung externer Abhängigkeiten:** Arbeiten Sie mit Stakeholdern zusammen, um die externen Abhängigkeiten zu ermitteln, von denen Ihr Workload abhängt. Zu externen Abhängigkeiten zählen Services wie externe Datenbanken, APIs von Drittanbietern, Netzwerkverbindungsrouten zu anderen Umgebungen und DNS-Services. Der erste Schritt zu einer effektiven Abhängigkeitstelemetrie besteht darin, auf ganzer Ebene zu verstehen, welche diese Abhängigkeiten sind. 

1.  **Erstellung einer Überwachungsstrategie:** Sobald Sie sich ein klares Bild von Ihren externen Abhängigkeiten verschafft haben, entwerfen Sie eine darauf zugeschnittene Überwachungsstrategie. Dazu müssen Sie die Wichtigkeit jeder Abhängigkeit, ihr erwartetes Verhalten und alle damit verbundenen Service Level Agreements oder -Ziele verstehen. Richten Sie proaktive Warnmeldungen ein, die Sie über Statusänderungen oder Leistungsabweichungen informieren. 

1.  **Verwendung der [Netzwerküberwachung](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Network-Monitoring-Sections.html):** Verwenden Sie die Tools [Internet Monitor](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-InternetMonitor.html) und [Network Monitor](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/what-is-network-monitor.html), die umfassende Einblicke in die globalen Internet- und Netzwerkbedingungen bieten. Diese Tools helfen Ihnen dabei, Ausfälle, Unterbrechungen oder Leistungseinbußen, die sich auf Ihre externen Abhängigkeiten auswirken, zu verstehen und darauf zu reagieren. 

1.  **Bleiben Sie mit [AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health/) auf dem Laufenden:** AWS Health ist die maßgebliche Informationsquelle für den Zustand Ihrer AWS Cloud-Ressourcen. Ermöglicht AWS Health die Visualisierung und den Erhalt von Benachrichtigungen über aktuelle Serviceereignisse und bevorstehende Änderungen, z. B. geplante Lebenszyklusereignisse. So können Sie Maßnahmen ergreifen, um die Auswirkungen zu minimieren. 

   1.  [Erstellen Sie angepasste AWS Health-Ereignisbenachrichtigungen](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) für E-Mail- und Chat-Kanäle über [AWS-Benutzerbenachrichtigungen](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) und integrieren Sie diese programmgesteuert mit [Ihren Überwachungs- und Warnungstools über Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) oder die [AWS Health-API](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Planen und verfolgen Sie den Fortschritt bei Gesundheitsereignissen, die Maßnahmen erfordern, indem Sie diese in Änderungsmanagement- oder ITSM-Tools (wie [Jira](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) oder [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)) integrieren, die Sie möglicherweise bereits über Amazon EventBridge oder die AWS Health-API verwenden. 

   1.  Wenn Sie AWS Organizations verwenden, aktivieren Sie die [Organisationsansicht für AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html), um AWS Health-Ereignisse über Konten hinweg zu aggregieren. 

1.  **Instrumentierung Ihrer Anwendung mit [AWS X-Ray](https://aws.amazon.com/xray/):** AWS X-Ray stellt Ihnen Erkenntnisse zur Leistung von Anwendungen und zu den zugrunde liegenden Abhängigkeiten bereit. Verfolgen Sie Anfragen von Anfang bis Ende nach, um Engpässe oder Ausfälle bei den externen Services oder Komponenten zu identifizieren, auf die sich Ihre Anwendung stützt. 

1.  **Verwendung von [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/):** Dieser Machine Learning-gestützte Service identifiziert operative Probleme, prognostiziert das Auftreten kritischer Probleme und empfiehlt spezifische Maßnahmen. Dadurch ist er von unschätzbarem Wert, wenn es darum geht, Erkenntnisse zu Abhängigkeiten zu gewinnen und festzustellen, dass sie nicht die Ursache von operativen Problemen sind. 

1.  **Regelmäßige Überwachung:** Überwachen Sie kontinuierlich alle Metriken und Protokolle, die sich auf externe Abhängigkeiten beziehen. Richten Sie Warnmeldungen ein, die Sie über unerwartetes Verhalten oder Leistungseinbußen informieren. 

1.  **Validierung nach Änderungen:** Überprüfen Sie nach jeder Aktualisierung oder Änderung einer externen Abhängigkeit deren Leistung und Ausrichtung auf die Anforderungen Ihrer Anwendung. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS04-BP01 Definieren von Workload-KPIs](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_identify_kpis.html) 
+  [OPS04-BP02 Implementieren einer Anwendungstelemetrie](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_application_telemetry.html) 
+  [OPS04-BP03 Implementieren von Telemetrie für Benutzeraktivitäten](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_customer_telemetry.html) 
+  [OPS04-BP05 Implementierung einer Transaktionsverfolgung](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_dist_trace.html) 
+  [OP08-BP04 Erstellen umsetzbarer Warnmeldungen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_workload_observability_create_alerts.html) 

 **Zugehörige Dokumente:** 
+  [Amazon Personal Health Dashboard-Benutzerhandbuch](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) 
+  [AWS Internet Monitor-Benutzerhandbuch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-InternetMonitor.html) 
+  [AWS X-Ray-Entwicklerhandbuch](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [AWS DevOps Guru-Benutzerhandbuch](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 

 **Zugehörige Videos:** 
+  [Wie sich Internetprobleme auf die Leistung von Apps auswirken](https://www.youtube.com/watch?v=Kuc_SG_aBgQ) 
+  [Einführung in Amazon DevOps Guru](https://www.youtube.com/watch?v=2uA8q-8mTZY) 
+  [Ressourcenlebenszyklus-Ereignisse mit AWS Health in großem Umfang verwalten](https://www.youtube.com/watch?v=VoLLNL5j9NA) 

 **Zugehörige Beispiele:** 
+  [AWS Health Aware](https://github.com/aws-samples/aws-health-aware/) 
+  [Tag-basierte Filterung verwenden, um AWS Health-Überwachung und -Warnmeldungen in großem Umfang zu verwalten](https://aws.amazon.com/blogs/mt/using-tag-based-filtering-to-manage-health-monitoring-and-alerting-at-scale/) 

# OPS04-BP05 Implementieren Sie verteiltes Tracing
<a name="ops_observability_dist_trace"></a>

 Die verteilte Nachverfolgung bietet eine Möglichkeit, Anfragen zu überwachen und zu visualisieren, während sie verschiedene Komponenten eines verteilten Systems durchlaufen. Durch die Erfassung von Trace-Daten aus mehreren Quellen und deren Analyse in einer zentralen Ansicht können Teams besser verstehen, wie Anfragen ablaufen, wo Engpässe bestehen und worauf Optimierungsbemühungen abzielen sollten. 

 **Gewünschtes Ergebnis:** Sie verschaffen sich einen ganzheitlichen Überblick über die Anfragen, die durch Ihr verteiltes System fließen, und ermöglichen so präzises Debugging, optimierte Leistung und verbesserte Benutzererfahrungen. 

 **Typische Anti-Muster:** 
+  Inkonsistente Instrumentierung: Nicht alle Services in einem verteilten System sind für die Nachverfolgung instrumentiert. 
+  Latenz wird ignoriert: Sie konzentrieren sich nur auf Fehler und berücksichtigen nicht die Latenz oder allmähliche Leistungseinbußen. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+ Umfassender Systemüberblick: Visualisierung des gesamten Anfragenverlaufs, vom Eingang bis zum Ausgang.
+  Verbessertes Debugging: Schnelle Identifizierung von Fehlern oder Leistungsproblemen. 
+  Verbessertes Benutzererlebnis: Überwachung und Optimierung auf der Grundlage von tatsächlichen Benutzerdaten, um sicherzustellen, dass das System den realen Anforderungen entspricht. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Identifizieren Sie zunächst alle Elemente Ihrer Workload, für die eine Instrumentierung erforderlich ist. Sobald alle Komponenten berücksichtigt sind, können Sie Tools wie AWS X-Ray und OpenTelemetry zum Sammeln von Trace-Daten für die Analyse mit Tools wie X-Ray und Amazon CloudWatch ServiceLens Map nutzen. Nehmen Sie regelmäßig an Besprechungen mit Entwicklern teil und ergänzen Sie diese Diskussionen mit Tools wie Amazon DevOps Guru, X-Ray Analytics und X-Ray Insights, um tiefere Erkenntnisse zu gewinnen. Richten Sie Warnmeldungen anhand von Trace-Daten ein, damit Sie benachrichtigt werden, wenn die im Workload-Überwachungsplan definierten Ergebnisse gefährdet sind. 

### Implementierungsschritte
<a name="implementation-steps"></a>

 So implementieren Sie die verteilte Nachverfolgung auf effektive Weise: 

1.  **Verwendung von [AWS X-Ray](https://aws.amazon.com/xray/):** Integrieren Sie X-Ray in Ihre Anwendung, um Erkenntnisse zu ihrem Verhalten zu gewinnen, ihre Leistung zu verstehen und Engpässe zu lokalisieren. Nutzen Sie X-Ray Insights für die automatische Trace-Analyse. 

1.  **Instrumentieren Sie Ihre Dienste:** Stellen Sie sicher, dass jeder Service, von einer [AWS Lambda](https://aws.amazon.com/lambda/)Funktion bis zu einer [EC2Instance](https://aws.amazon.com/ec2/), Trace-Daten sendet. Je mehr Dienste Sie instrumentieren, desto klarer ist die end-to-end Sicht. 

1.  **Integrieren Sie [CloudWatch Real User Monitoring](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html) und [synthetisches Monitoring](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html):** Integrieren Sie Real User Monitoring (RUM) und synthetisches Monitoring mit X-Ray. Auf diese Weise können reale Benutzererfahrungen erfasst und Benutzerinteraktionen simuliert werden, um potenzielle Probleme zu identifizieren. 

1.  **Verwenden Sie den [CloudWatch Agenten](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html):** Der Agent kann Spuren entweder von X-Ray oder senden OpenTelemetry, wodurch die Tiefe der gewonnenen Erkenntnisse erweitert wird. 

1.  **Verwenden Sie [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/):** DevOps Guru verwendet Daten von X-Ray, CloudWatch, und AWS Config, AWS CloudTrail um umsetzbare Empfehlungen zu geben. 

1.  **Analyse von Traces:** Überprüfen Sie die Trace-Daten regelmäßig, um Muster, Anomalien oder Engpässe zu erkennen, die sich auf die Leistung Ihrer Anwendung auswirken könnten. 

1.  **Warnmeldungen einrichten:** Konfigurieren Sie Alarme [CloudWatch](https://aws.amazon.com/cloudwatch/)für ungewöhnliche Muster oder längere Latenzen, sodass Probleme proaktiv behoben werden können. 

1.  **Kontinuierliche Verbesserung:** Überarbeiten Sie Ihre Tracing-Strategie, wenn Services hinzugefügt oder geändert werden, um alle relevanten Datenpunkte zu erfassen. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS04-BP01 Identifizieren Sie die wichtigsten Leistungsindikatoren](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementieren Sie Anwendungstelemetrie](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 Implementieren Sie Benutzererlebnis-Telemetrie](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 Implementieren einer Abhängigkeitstelemetrie](ops_observability_dependency_telemetry.md) 

 **Zugehörige Dokumente:** 
+ [AWS X-Ray Leitfaden für Entwickler](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html)
+ [Benutzerhandbuch für CloudWatch Amazon-Agenten](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html)
+ [Amazon DevOps Guru-Benutzerhandbuch](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html)

 **Zugehörige Videos:** 
+ [Nutzen Sie AWS X-Ray Insights](https://www.youtube.com/watch?v=tl8OWHl6jxw)
+ [AWS auf Air ft. Beobachtbarkeit: Amazon CloudWatch ](https://www.youtube.com/watch?v=qBDBnPkZ-KI) und AWS X-Ray

 **Zugehörige Beispiele:** 
+ [Instrumentierung Ihrer Anwendung für AWS X-Ray](https://aws.amazon.com/xray/latest/devguide/xray-instrumenting-your-app.html)

# OPS 5. Wie können Sie Fehler reduzieren, die Fehlerbehebung erleichtern und den Ablauf bis zur Produktion verbessern?
<a name="ops-05"></a>

 Verwenden Sie Strategien, die die Übertragung von Änderungen auf die Produktionsumgebung verbessern und Faktorwechsel, schnelles Feedback zur Qualität sowie eine schnelle Fehlerbehebung ermöglichen. Dadurch fließen nützliche Änderungen schneller in die Produktion ein und es treten bei der Bereitstellung weniger Probleme auf. Zudem können Probleme, die durch Bereitstellungsaktivitäten verursacht werden, schnell aufgespürt und gelöst werden. 

**Topics**
+ [

# OPS05-BP01 Verwendung einer Versionskontrolle
](ops_dev_integ_version_control.md)
+ [

# OPS05-BP02 Testen und Validieren von Änderungen
](ops_dev_integ_test_val_chg.md)
+ [

# OPS05-BP03 Einsatz von Systemen zur Konfigurationsverwaltung
](ops_dev_integ_conf_mgmt_sys.md)
+ [

# OPS05-BP04 Einsatz von Systemen zur Build- und Bereitstellungsverwaltung
](ops_dev_integ_build_mgmt_sys.md)
+ [

# OPS05-BP05 Durchführen der Patch-Verwaltung
](ops_dev_integ_patch_mgmt.md)
+ [

# OPS05-BP06 Designstandards teilen
](ops_dev_integ_share_design_stds.md)
+ [

# OPS05-BP07 Implementieren von Verfahren zur Verbesserung der Codequalität
](ops_dev_integ_code_quality.md)
+ [

# OPS05-BP08 Verwenden mehrerer Umgebungen
](ops_dev_integ_multi_env.md)
+ [

# OPS05-BP09 Nehmen Sie häufige, kleine, reversible Änderungen vor
](ops_dev_integ_freq_sm_rev_chg.md)
+ [

# OPS05-BP10 Vollständige Automatisierung von Integration und Bereitstellung
](ops_dev_integ_auto_integ_deploy.md)

# OPS05-BP01 Verwendung einer Versionskontrolle
<a name="ops_dev_integ_version_control"></a>

 Aktivieren Sie die Verfolgung von Änderungen und Releases mithilfe einer Versionskontrolle. 

 Viele AWS-Services bieten Versionskontrollfunktionen. Verwenden Sie ein Revisions- oder [Quellkontroll](https://aws.amazon.com/devops/source-control/)-System wie [Git](https://aws.amazon.com/devops/source-control/git/), um Code und andere Artefakte (z. B. versionsgesteuerte [AWS CloudFormation](https://aws.amazon.com/cloudformation/)-Vorlagen Ihrer Infrastruktur) zu verwalten. 

 **Gewünschtes Ergebnis:** Ihre Teams arbeiten gemeinsam am Code. Bei der Zusammenführung ist der Code einheitlich und es gehen keine Änderungen verloren. Fehler können durch korrekte Versionsverwaltung leicht behoben werden. 

 **Typische Anti-Muster:** 
+  Sie haben Ihren Code auf Ihrer Workstation entwickelt und gespeichert. Es ist ein Speicherfehler bei der Workstation aufgetreten, der nicht rückgängig gemacht werden kann, und Sie haben den Code verloren. 
+  Nachdem Sie den vorhandenen Code mit Ihren Änderungen überschrieben haben, starten Sie Ihre Anwendung neu, doch sie funktioniert nicht mehr. Sie können die Änderung nicht rückgängig machen. 
+  Sie arbeiten an einer Berichtsdatei, deshalb ist sie für alle anderen schreibgeschützt, doch ein anderer Benutzer möchte sie bearbeiten. Der Benutzer kontaktiert Sie und bittet darum, die Arbeit daran zu beenden, damit er seine Aufgabe erledigen kann. 
+  Ihr Forschungsteam arbeitet an einer detaillierten Analyse, die Ihre zukünftige Arbeit prägt. Jemand hat versehentlich den endgültigen Bericht mit seiner Einkaufsliste überschrieben. Sie können die Änderung nicht rückgängig machen und müssen den Bericht neu erstellen. 

 **Vorteile der Nutzung dieser bewährten Methode:** Durch die Verwendung von Versionskontrollfunktionen können Sie problemlos einen bekanntermaßen funktionierenden Status bzw. frühere Versionen wiederherstellen und so das Risiko von verlorenen Assets begrenzen. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Bewahren Sie Ressourcen in Repositorys mit Versionskontrolle auf. Dies ermöglicht die Nachvollziehung von Änderungen, die Bereitstellung neuer Versionen, die Erkennung von Änderungen an bestehenden Versionen und die Rückkehr zu vorherigen Versionen (zum Beispiel bei einem Fehler die Zurücksetzung auf einen bekanntermaßen funktionierenden Zustand). Integrieren Sie die Versionskontrollfunktionen Ihrer Konfigurationsverwaltungssysteme in Ihre Verfahren. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS05-BP04 Einsatz von Systemen zur Build- und Bereitstellungsverwaltung](ops_dev_integ_build_mgmt_sys.md) 

 **Zugehörige Videos:** 
+ [AWS re:Invent 2023 – How Lockheed Martin builds software faster, powered by DevSecOps ](https://www.youtube.com/watch?v=Q1OSyxYkl5w)
+ [AWS re:Invent 2023 – How GitHub operationalizes AI for team collaboration and productivity ](https://www.youtube.com/watch?v=cOVvGaiusOI)

# OPS05-BP02 Testen und Validieren von Änderungen
<a name="ops_dev_integ_test_val_chg"></a>

 Jede bereitgestellte Änderung muss getestet werden, um Fehler in der Produktion zu vermeiden. Diese bewährte Methode konzentriert sich auf das Testen von Änderungen von der Versionskontrolle bis zur Erstellung von Artefakten. Neben Änderungen am Anwendungscode sollten die Tests auch die Infrastruktur, die Konfiguration, die Sicherheitskontrollen und die Betriebsverfahren umfassen. Es gibt viele Formen des Testens, von Tests der Einheiten bis hin zur Softwarekomponentenanalyse (SCA). Wenn Tests im Softwareintegrations- und -bereitstellungsprozess weiter nach links verschoben werden, führt dies zu einer höheren Gewissheit der Artefaktqualität. 

 Ihr Unternehmen muss Teststandards für alle Software-Artefakte entwickeln. Automatisierte Tests verringern den Arbeitsaufwand und vermeiden manuelle Testfehler. In einigen Fällen können aber auch manuelle Tests notwendig sein. Entwickler müssen Zugang zu automatisierten Testergebnissen haben, um Feedback-Schleifen zur Verbesserung der Softwarequalität zu schaffen. 

 **Gewünschtes Ergebnis:** Ihre Softwareänderungen werden vor der Bereitstellung getestet. Die Entwickler haben Zugang zu den Testergebnissen und den Validierungen. Ihre Organisation hat einen Teststandard, der für alle Softwareänderungen gilt. 

 **Typische Anti-Muster:** 
+  Sie stellen eine neue Softwareänderung ohne jegliche Tests bereit. Sie kann in der Produktion nicht ausgeführt werden, was zu einem Ausfall führt. 
+  Es werden neue Sicherheitsgruppen mit AWS CloudFormation eingesetzt, ohne in einer Vorproduktionsumgebung getestet zu werden. Durch die Sicherheitsgruppen ist Ihre App für Ihre Kunden unerreichbar. 
+  Eine Methode wurde geändert, aber es gibt keine Tests der Einheiten. Die Software läuft nicht, wenn sie in der Produktion eingesetzt wird. 

 **Vorteile der Nutzung dieser bewährten Methode:** Die Fehlerquote bei Änderungen bei Softwarebereitstellungen wird reduziert. Die Qualität der Software wird verbessert. Die Entwickler haben ein größeres Bewusstsein für die Lebensfähigkeit ihres Codes. Sicherheitsrichtlinien können zuverlässig eingeführt werden, um die Compliance des Unternehmens zu unterstützen. Infrastrukturänderungen, wie automatische Aktualisierungen der Skalierungsrichtlinien, werden im Voraus getestet, um den Anforderungen des Datenverkehrs gerecht zu werden. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Alle Änderungen, vom Anwendungscode bis zur Infrastruktur, werden im Rahmen Ihrer kontinuierlichen Integrationspraxis getestet. Die Testergebnisse werden veröffentlicht, damit die Entwickler schnelles Feedback erhalten. Ihre Organisation hat einen Teststandard, den alle Änderungen erfüllen müssen. 

 Nutzen Sie die Leistungsfähigkeit generativer KI mit Amazon Q Developer, um die Entwicklerproduktivität und die Codequalität zu verbessern. Amazon Q Developer umfasst die Generierung von Codevorschlägen (basierend auf großen Sprachmodellen), die Erstellung von Komponententests (einschließlich Randbedingungen) und Verbesserungen der Codesicherheit durch die Erkennung und Behebung von Sicherheitsschwachstellen. 

 **Kundenbeispiel** 

 Als Teil der kontinuierlichen Integrationspipeline führt AnyCompany Retail verschiedene Arten von Tests für alle Software-Artefakte durch. Das Unternehmen praktiziert eine testgesteuerte Entwicklung, sodass die gesamte Software über Tests von Einheiten verfügt. Sobald das Artefakt erstellt ist, werden End-to-End-Tests durchgeführt. Nach Abschluss dieser ersten Testrunde wird ein statischer Anwendungssicherheitsscan durchgeführt, bei dem nach bekannten Schwachstellen gesucht wird. Die Entwickler erhalten Meldungen, sobald die einzelnen Prüfpunkte durchlaufen wurden. Sobald alle Tests abgeschlossen wurden, wird der Software-Artefakt in einem Artefakt-Repository gespeichert. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  Arbeiten Sie mit den Beteiligten in Ihrem Unternehmen zusammen, um einen Teststandard für Software-Artefakte zu entwickeln. Welche Standardtests sollten alle Artefakte bestehen? Gibt es Compliance- oder Governance-Anforderungen, die bei der Testabdeckung berücksichtigt werden müssen? Müssen Sie die Qualität des Codes testen? Wer muss informiert werden, sobald die Tests abgeschlossen sind? 

   1.  Die [Referenzarchitektur für AWS-Bereitstellungs-Pipelines](https://pipelines.devops.aws.dev/) enthält eine maßgebliche Liste von Testtypen, die als Teil einer Integrationspipeline an Software-Artefakten durchgeführt werden können. 

1.  Instrumentieren Sie Ihre Anwendung mit den erforderlichen Tests auf der Grundlage Ihres Software-Teststandards. Jeder Testreihe sollte in weniger als zehn Minuten abgeschlossen sein. Tests sollten im Rahmen einer Integrationspipeline durchgeführt werden. 

   1.  Verwenden Sie [Amazon Q Developer](https://docs.aws.amazon.com/amazonq/latest/qdeveloper-ug/what-is.html), ein generatives KI-Tool, mit dem Sie Modultestfälle (einschließlich Randbedingungen) erstellen, Funktionen mithilfe von Code und Kommentaren generieren und bekannte Algorithmen implementieren können. 

   1.  Verwenden Sie [Amazon CodeGuru Reviewer](https://docs.aws.amazon.com/codeguru/latest/reviewer-ug/welcome.html), um Ihren Anwendungscode mithilfe von Tests auf Fehler zu prüfen. 

   1.  Sie können [AWS CodeBuild](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) verwenden, um Tests auf Software-Artefakten durchzuführen. 

   1.  [AWS CodePipeline](https://docs.aws.amazon.com/codepipeline/latest/userguide/welcome.html) kann Ihre Softwaretests in eine Pipeline orchestrieren. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS05-BP01 Verwendung einer Versionskontrolle](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_version_control.html) 
+  [OPS05-BP06 Gemeinsame Design-Standards](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_share_design_stds.html) 
+  [OPS05-BP07 Implementieren von Verfahren zur Verbesserung der Codequalität](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_code_quality.html) 
+  [OPS05-BP10 Vollständige Automatisierung von Integration und Bereitstellung](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_auto_integ_deploy.html) 

 **Zugehörige Dokumente:** 
+  [Einen testgetriebenen Entwicklungsansatz verwenden](https://docs.aws.amazon.com/prescriptive-guidance/latest/best-practices-cdk-typescript-iac/development-best-practices.html) 
+  [Beschleunigen Ihres Softwareentwicklungszyklus mit Amazon Q](https://aws.amazon.com/blogs/devops/accelerate-your-software-development-lifecycle-with-amazon-q/) 
+  [Amazon Q Developer (jetzt allgemein verfügbar) enthält Vorschauen neuer Funktionen, mit denen Sie das Entwicklererlebnis neu gestalten können](https://aws.amazon.com/blogs/aws/amazon-q-developer-now-generally-available-includes-new-capabilities-to-reimagine-developer-experience/) 
+  [Der ultimative Spickzettel für den Einsatz von Amazon Q Developer in Ihrer IDE](https://community.aws/content/2eYoqeFRqaVnk900emsknDfzhfW/the-ultimate-cheat-sheet-for-using-amazon-q-developer-in-your-ide) 
+  [Shift-Left-Workload, Nutzung von KI für die Testerstellung](https://community.aws/content/2gBZtC94gPzaCQRnt4P0rIYWuBx/shift-left-workload-leveraging-ai-for-test-creation) 
+  [Amazon Q Developer Center](https://aws.amazon.com/developer/generative-ai/amazon-q/) 
+  [10 Möglichkeiten, Anwendungen mit Amazon CodeWhisperer schneller zu entwickeln](https://aws.amazon.com/blogs/devops/10-ways-to-build-applications-faster-with-amazon-codewhisperer/) 
+  [Ein Blick über die Codeabdeckung hinaus – mit Amazon CodeWhisperer](https://aws.amazon.com/blogs/devops/looking-beyond-code-coverage-with-amazon-codewhisperer/) 
+  [Bewährte Methoden für Prompt-Engineering mit Amazon CodeWhisperer](https://aws.amazon.com/blogs/devops/best-practices-for-prompt-engineering-with-amazon-codewhisperer/) 
+  [Automatisierte AWS CloudFormation-Testpipeline mit TaskCat und CodePipeline](https://aws.amazon.com/blogs/devops/automated-cloudformation-testing-pipeline-with-taskcat-and-codepipeline/) 
+  [Erstellen einer End-to-End-AWS DevSecOps-CI/CD-Pipeline mit Open-Source-SCA-, -SAST- und -DAST-Tools](https://aws.amazon.com/blogs/devops/building-end-to-end-aws-devsecops-ci-cd-pipeline-with-open-source-sca-sast-and-dast-tools/) 
+  [Erste Schritte beim Testen von Serverless-Anwendungen](https://aws.amazon.com/blogs/compute/getting-started-with-testing-serverless-applications/) 
+  [Meine CI/CD-Pipeline ist mein Release Captain](https://aws.amazon.com/builders-library/cicd-pipeline/) 
+  [Durchführung von Continuous Integration und Continuous Delivery in AWS (Whitepaper)](https://docs.aws.amazon.com/whitepapers/latest/practicing-continuous-integration-continuous-delivery/welcome.html) 

 **Zugehörige Videos:** 
+  [Implementieren einer API mit Amazon Q Developer-Agent für die Softwareentwicklung](https://www.youtube.com/watch?v=U4XEvJUvff4) 
+  [Installation, Konfiguration und Verwendung von Amazon Q Developer mit JetBrains-IDEs (Anleitung)](https://www.youtube.com/watch?v=-iQfIhTA4J0) 
+  [Amazon CodeWhisperer meistern – YouTube-Playlist](https://www.youtube.com/playlist?list=PLDqi6CuDzubxzL-yIqgQb9UbbceYdKhpK) 
+  [AWS re:Invent 2020: Testbare Infrastruktur: Integrationstests in AWS](https://www.youtube.com/watch?v=KJC380Juo2w) 
+  [AWS Summit ANZ 2021 – Vorantreiben einer „Test-First“-Strategie mit CDK und testgesteuerter Entwicklung](https://www.youtube.com/watch?v=1R7G_wcyd3s) 
+  [Testen Ihrer Infrastruktur als Code mit AWS CDK](https://www.youtube.com/watch?v=fWtuwGSoSOU) 

 **Zugehörige Ressourcen:** 
+  [Referenzarchitektur für AWS-Bereitstellungs-Pipelines – Anwendung](https://pipelines.devops.aws.dev/application-pipeline/index.html) 
+  [AWS Kubernetes DevSecOps-Pipeline](https://github.com/aws-samples/devsecops-cicd-containers) 
+  [Tests von Einheiten für eine Node.js-Anwendung aus GitHub mithilfe von AWS CodeBuild ausführen](https://docs.aws.amazon.com/prescriptive-guidance/latest/patterns/run-unit-tests-for-a-node-js-application-from-github-by-using-aws-codebuild.html) 
+  [Serverspec für die testgesteuerte Entwicklung von Infrastrukturcode verwenden](https://docs.aws.amazon.com/prescriptive-guidance/latest/patterns/use-serverspec-for-test-driven-development-of-infrastructure-code.html) 

 **Zugehörige Services:** 
+  [Amazon Q Developer](https://aws.amazon.com/q/developer/) 
+  [Amazon CodeGuru Reviewer](https://docs.aws.amazon.com/codeguru/latest/reviewer-ug/welcome.html) 
+  [AWS CodeBuild](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) 
+  [AWS CodePipeline](https://docs.aws.amazon.com/codepipeline/latest/userguide/welcome.html) 

# OPS05-BP03 Einsatz von Systemen zur Konfigurationsverwaltung
<a name="ops_dev_integ_conf_mgmt_sys"></a>

 Verwenden Sie Systeme zur Konfigurationsverwaltung, um Änderungen vorzunehmen und zu verfolgen. Diese Systeme reduzieren Fehler aufgrund von manuellen Prozessen und verringern den Testaufwand. 

Bei der statischen Konfigurationsverwaltung werden Werte festgelegt, wenn eine Ressource initialisiert wird, die erwartungsgemäß während der Lebensdauer der Ressource konsistent bleibt. Bei der dynamischen Konfigurationsverwaltung werden bei der Initialisierung Werte festgelegt, die sich während der Lebensdauer einer Ressource ändern können oder voraussichtlich ändern werden. So können Sie zum Beispiel durch eine Konfigurationsänderung ein Feature in Ihrem Code aktivieren oder während eines Vorfalls den Detaillierungsgrad des Protokolls ändern.

Konfigurationen sollten in einem bekannten und konsistenten Zustand bereitgestellt werden. Sie sollten die automatisierte Inspektion verwenden, um die Ressourcenkonfigurationen in mehreren Umgebungen und Regionen kontinuierlich zu überwachen. Diese Kontrollen sollten als automatisierter Code und automatisierte Verwaltung definiert werden, um sicherzustellen, dass Regeln in allen Umgebungen einheitlich angewendet werden. Änderungen an Konfigurationen sollten im Rahmen vereinbarter Verfahren zur Kontrolle von Änderungen aktualisiert und konsistent angewendet werden, sodass die Versionskontrolle gewahrt bleibt. Die Anwendungskonfiguration sollte unabhängig vom Anwendungs- und Infrastrukturcode verwaltet werden. Dies ermöglicht eine konsistente Bereitstellung in mehreren Umgebungen. Konfigurationsänderungen führen nicht dazu, dass die Anwendung neu erstellt oder bereitgestellt wird. 

 **Gewünschtes Ergebnis:** Sie konfigurieren, validieren und implementieren als Teil Ihrer CI/CD-Pipeline (Continuous Integration, Continuous Delivery). Sie überwachen, um zu überprüfen, ob die Konfigurationen korrekt sind. Dadurch werden die Auswirkungen auf Endbenutzer und Kunden minimiert. 

 **Typische Anti-Muster:** 
+  Sie aktualisieren die Konfigurationen aller Webserver manuell und eine Reihe von Servern reagiert aufgrund von Updatefehlern nicht mehr. 
+  Sie aktualisieren Ihre Anwendungsserver mehrere Stunden lang auf manuelle Weise. Die Inkonsistenz der Konfiguration während der Änderung führt zu unerwarteten Verhaltensweisen. 
+  Jemand hat Ihre Sicherheitsgruppen aktualisiert und auf Ihre Webserver kann nicht mehr zugegriffen werden. Sie wissen nicht, was geändert wurde, und verbringen viel Zeit mit der Suche nach dem Problem – die Zeit bis zur Wiederherstellung nimmt zu. 
+  Sie übertragen eine Vorproduktionskonfiguration ohne Validierung über CI/CD in die Produktion. Sie setzen Benutzer und Kunden falschen Daten und Services aus. 

 **Vorteile der Nutzung dieser bewährten Methode:** Die Einführung von Konfigurationsverwaltungssystemen reduziert den Aufwand für die Durchführung und Nachverfolgung von Änderungen sowie die Häufigkeit der durch manuelle Verfahren verursachten Fehler. Konfigurationsverwaltungssysteme liefern Garantien in Bezug auf Governance, Compliance und regulatorische Anforderungen. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Konfigurationsverwaltungssysteme werden verwendet, um Änderungen an Anwendungs- und Umgebungskonfigurationen zu verfolgen und zu implementieren. Konfigurationsverwaltungssysteme werden auch eingesetzt, um Fehler zu reduzieren, die durch manuelle Prozesse verursacht werden, Konfigurationsänderungen wiederholbar und überprüfbar zu machen und den Aufwand zu reduzieren. 

 In AWS können Sie Ihre AWS-Ressourcenkonfigurationen mit [AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html) [über Konten und Regionen hinweg](https://docs.aws.amazon.com/config/latest/developerguide/aggregate-data.html) kontinuierlich überwachen. So können Sie den Konfigurationsverlauf besser verfolgen, nachvollziehen, wie sich eine Konfigurationsänderung auf andere Ressourcen auswirkt, und sie im Hinblick auf die erwarteten oder gewünschten Konfigurationen mithilfe von [AWS-Config-Regeln](https://docs.aws.amazon.com/config/latest/developerguide/evaluate-config.html) und [AWS Config-Konformitätspaketen](https://docs.aws.amazon.com/config/latest/developerguide/conformance-packs.html) prüfen. 

 Für dynamische Konfigurationen in Ihren Anwendungen, die auf Amazon EC2-Instances, AWS Lambda, Containern, mobilen Anwendungen oder IoT-Geräten ausgeführt werden, können Sie [AWS AppConfig](https://docs.aws.amazon.com/appconfig/latest/userguide/what-is-appconfig.html) verwenden, um sie in Ihren Umgebungen zu konfigurieren, zu validieren, bereitzustellen und zu überwachen. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  Identifizieren Sie die Verantwortlichen der Konfiguration. 

   1.  Informieren Sie die Verantwortlichen der Konfigurationen über alle Compliance-, Governance- oder regulatorischen Anforderungen. 

1.  Identifizieren Sie Konfigurationselemente und Leistungen. 

   1.  Konfigurationselemente sind alle Anwendungs- und Umgebungskonfigurationen, die von einer Bereitstellung innerhalb Ihrer CI/CD-Pipeline betroffen sind. 

   1.  Zu den Leistungen gehören Erfolgskriterien, Validierung und was überwacht werden muss. 

1.  Wählen Sie Tools für die Konfigurationsverwaltung basierend auf Ihren Geschäftsanforderungen und Ihrer Bereitstellungspipeline aus. 

1.  Ziehen Sie für signifikante Konfigurationsänderungen gewichtete Bereitstellungen wie Canary-Bereitstellungen in Betracht, um die Auswirkungen falscher Konfigurationen zu minimieren. 

1.  Integrieren Sie Ihre Konfigurationsverwaltung in Ihre CI/CD-Pipeline. 

1.  Bestätigen Sie alle übermittelten Änderungen. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS06-BP01 Plan für erfolglose Änderungen](ops_mit_deploy_risks_plan_for_unsucessful_changes.md) 
+  [OPS06-BP02 Testbereitstellungen](ops_mit_deploy_risks_test_val_chg.md) 
+  [OPS06-BP03 Einsetzen sicherer Bereitstellungsstrategien](ops_mit_deploy_risks_deploy_mgmt_sys.md) 
+  [OPS06-BP04 Automatisieren Sie Tests und Rollback](ops_mit_deploy_risks_auto_testing_and_rollback.md) 

 **Zugehörige Dokumente:** 
+ [AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/what-is-control-tower.html)
+ [AWS Landing Zone Accelerator ](https://aws.amazon.com/solutions/implementations/landing-zone-accelerator-on-aws/)
+ [AWS Config](https://aws.amazon.com/config/)
+ [ Was ist AWS Config? ](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html)
+  [AWS AppConfig](https://docs.aws.amazon.com/appconfig/latest/userguide/what-is-appconfig.html) 
+ [ Was ist AWS CloudFormation? ](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/Welcome.html)
+  [AWS-Entwicklungstools](https://aws.amazon.com/products/developer-tools/) 
+ [AWS CodeBuild](https://aws.amazon.com/codebuild/)
+ [AWS CodePipeline](https://aws.amazon.com/codepipeline/)
+ [AWS CodeDeploy](https://aws.amazon.com/codedeploy/)

 **Zugehörige Videos:** 
+ [AWS re:Invent 2022 – Proaktive Governance und Compliance für AWS-Workloads ](https://youtu.be/PpUnH9Y52X0?si=82wff87KHXcc6nbT)
+ [AWS re:Invent 2020: Mit AWS Config Compliance als Code erzielen](https://youtu.be/m8vTwvbzOfw?si=my4DP0FLq1zwKjho)
+ [ Verwaltung und Bereitstellung von Anwendungskonfigurationen mit AWS AppConfig](https://youtu.be/ztIxMY3IIu0?si=ovYGsxWOBysyQrg0)

# OPS05-BP04 Einsatz von Systemen zur Build- und Bereitstellungsverwaltung
<a name="ops_dev_integ_build_mgmt_sys"></a>

 Verwenden Sie Systeme zur Build- und Bereitstellungsverwaltung. Diese Systeme reduzieren Fehler aufgrund von manuellen Prozessen und verringern den Testaufwand. 

 In AWS können Sie mithilfe von Services wie [AWS-Entwicklertools](https://aws.amazon.com/products/developer-tools/) (z. B. [AWS CodeBuild](https://aws.amazon.com/codebuild/), [AWS CodePipeline](https://aws.amazon.com/codepipeline/) und [AWS CodeDeploy](https://aws.amazon.com/codedeploy/)) Continuous Integration- und Continuous Deployment-Pipelines (CI/CD) erstellen. 

 **Gewünschtes Ergebnis:** Ihre Systeme zur Build- und Bereitstellungsverwaltung unterstützen das Continuous Integration Continuous Delivery (CI/CD)-System Ihrer Organisation, das Funktionen zur Automatisierung sicherer Rollouts mit den richtigen Konfigurationen bietet. 

 **Typische Anti-Muster:** 
+  Nachdem Sie Ihren Code auf Ihrem Entwicklungssystem kompiliert haben, kopieren Sie die ausführbare Datei auf Ihre Produktionssysteme und sie kann nicht gestartet werden. Die lokalen Protokolldateien zeigen an, dass die Ausführung aufgrund fehlender Abhängigkeiten fehlgeschlagen ist. 
+  Sie erstellen Ihre Anwendung erfolgreich mit neuen Funktionen in Ihrer Entwicklungsumgebung und stellen den Code der Quality Assurance (QA, Qualitätsprüfung) zur Verfügung. Die QA-Prüfung schlägt fehl, da statische Komponenten fehlen. 
+  Am Freitag haben Sie Ihre Anwendung nach großem Aufwand manuell in Ihrer Entwicklungsumgebung erstellt, einschließlich der neu geschriebenen Funktionen. Am Montag können Sie die Schritte, mit denen Sie Ihre Anwendung erfolgreich erstellen konnten, nicht wiederholen. 
+  Sie führen die Tests durch, die Sie für den neuen Release erstellt haben. Sie verbringen die nächste Woche damit, eine Testumgebung einzurichten und alle vorhandenen Integrationstests durchzuführen, gefolgt von den Leistungstests. Der neue Code bewirkt eine inakzeptable Leistungsbeeinträchtigung und muss neu entwickelt und dann erneut getestet werden. 

 **Vorteile der Nutzung dieser bewährten Methode:** Mithilfe von Mechanismen zur Verwaltung von Erstellungs- und Bereitstellungsaktivitäten reduzieren Sie den Aufwand für wiederholte Aufgaben, verschaffen Ihren Teammitgliedern die Zeit, sich auf ihre wichtigen Aufgaben zu konzentrieren, und begrenzen die Entstehung von Fehlern durch manuelle Verfahren. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Systeme zur Build- und Bereitstellungsverwaltung werden verwendet, um Änderungen nachzuverfolgen und zu implementieren, Fehler zu reduzieren, die durch manuelle Prozesse verursacht werden, und den Aufwand für sichere Implementierungen zu minimieren. Nutzen Sie eine vollständig automatisierte Integrations- und Bereitstellungs-Pipeline vom Einchecken des Codes über das Testen und die Bereitstellung bis hin zur Validierung. Dies reduziert die Vorlaufzeit, senkt die Kosten, ermöglicht häufigere Änderungen, minimiert den Aufwand und verbessert die Zusammenarbeit. 

### Implementierungsschritte
<a name="implementation-steps"></a>

![\[Diagramm, das eine CI/CD-Pipeline mit AWS CodePipeline und zugehörigen Services zeigt\]](http://docs.aws.amazon.com/de_de/wellarchitected/latest/framework/images/deployment-pipeline-tooling.png)


 

1.  Nutzen Sie ein Versionskontrollsystem zum Speichern und Verwalten von Ressourcen (z. B. Dokumente, Quellcode und Binärdateien). 

1.  Verwenden Sie CodeBuild, um den Quellcode zu kompilieren, Einheitentests auszuführen und Artefakte zu erzeugen, die direkt bereitgestellt werden können. 

1.  Verwenden Sie CodeDeplay als Bereitstellungsservice, der die Anwendungsbereitstellungen auf [Amazon EC2](https://aws.amazon.com/ec2/)-Instances, On-Premises-Instances, [Serverless AWS Lambda-Funktionen](https://docs.aws.amazon.com/lambda/latest/dg/welcome.html) oder [Amazon ECS](https://aws.amazon.com/ecs/) automatisiert. 

1.  Überwachen Sie Ihre Bereitstellungen. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS06-BP04 Automatisieren Sie Tests und Rollback](ops_mit_deploy_risks_auto_testing_and_rollback.md) 

 **Zugehörige Dokumente:** 
+  [AWS-Entwicklungstools](https://aws.amazon.com/products/developer-tools/) 
+  [Was ist AWS CodeBuild?](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) 
+ [AWS CodeBuild](https://aws.amazon.com/codebuild/)
+  [Was ist AWS CodeDeploy?](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html) 

 **Zugehörige Videos:** 
+ [AWS re:Invent 2022 – Bewährte AWS Well-Architected-Methoden für DevOps in AWS](https://youtu.be/hfXokRAyorA)

# OPS05-BP05 Durchführen der Patch-Verwaltung
<a name="ops_dev_integ_patch_mgmt"></a>

 Führen Sie eine Patch-Verwaltung durch, um Funktionen zu erhalten, Probleme zu beheben und die Konformität mit der Governance zu gewährleisten. Automatisieren Sie die Patch-Verwaltung, um Fehler aufgrund manueller Prozesse zu reduzieren, zu skalieren und den Aufwand für die Installation von Patches zu verringern. 

 Patch- und Schwachstellenmanagement sind Teil Ihrer Vorteile- und Risikomanagement-Aktivitäten. Es ist vorzuziehen, unveränderliche Infrastrukturen zu haben und Workloads in verifizierten bekannten guten Zuständen bereitzustellen. Wenn dies nicht realisierbar ist, ist Patchen die verbleibende Option. 

 [AWS Health](https://aws.amazon.com/premiumsupport/technology/aws-health/) ist die autoritative Informationsquelle für geplante Lebenszyklusereignisse und andere von Aktionen ausgelöste Ereignisse, die sich auf den Zustand Ihrer AWS Cloud-Ressourcen auswirken. Sie sollten über bevorstehende Änderungen und Aktualisierungen informiert sein, die durchgeführt werden sollten. Informationen zu wichtigen geplanten Lebenszyklusereignissen werden mindestens sechs Monate im Voraus bereitgestellt. 

 [Amazon EC2 Image Builder](https://aws.amazon.com/image-builder/) stellt Pipelines zur Aktualisierung von Machine Images bereit. Als Teil des Patch-Managements sollten Sie [Amazon Machine Images](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/AMIs.html       ) (AMIs) in Betracht ziehen, die eine [AMI-Image-Pipeline](https://docs.aws.amazon.com/imagebuilder/latest/userguide/start-build-image-pipeline.html) oder Container-Images mit einer [Docker-Image-Pipeline](https://docs.aws.amazon.com/imagebuilder/latest/userguide/start-build-container-pipeline.html) verwenden, während AWS Lambda Muster für [benutzerdefinierte Laufzeiten und zusätzliche Bibliotheken](https://docs.aws.amazon.com/lambda/latest/dg/runtimes-custom.html) bereitstellt, um Schwachstellen zu beseitigen. 

 Sie sollten Aktualisierungen für [Amazon Machine Images](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/AMIs.html) für Linux- oder Windows Server-Images mit [Amazon EC2 Image Builder](https://aws.amazon.com/image-builder/) verwalten. Sie können [Amazon Elastic Container Registry (Amazon ECR)](https://docs.aws.amazon.com/AmazonECR/latest/userguide/what-is-ecr.html) mit Ihrer bestehenden Pipeline verwenden, um Amazon ECS-Images und Amazon EKS-Images zu verwalten. Lambda enthält [Funktionen zur Versionsverwaltung](https://docs.aws.amazon.com/lambda/latest/dg/configuration-versions.html). 

 Patches sollten nicht auf Produktionssystemen durchgeführt werden, ohne zuerst in einer sicheren Umgebung getestet zu werden. Patches sollten nur angewendet werden, wenn sie ein betriebliches oder geschäftliches Ergebnis unterstützen. In AWS können Sie [AWS Systems ManagerPatch Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-patch.html) verwenden, um das Patchen verwalteter Systeme zu automatisieren und die Aktivität mithilfe von [Systems Manager-Wartungszeitfenstern](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-maintenance.html) zu planen. 

 **Gewünschtes Ergebnis:** Ihre AMI und Container-Images sind gepatcht, aktuell und startbereit. Sie können den Status aller bereitgestellten Images nachverfolgen und wissen, dass die Patches konform sind. Sie können über den aktuellen Status berichten und verfügen über ein Verfahren, mit dem Sie Ihre Compliance-Anforderungen erfüllen können. 

 **Typische Anti-Muster:** 
+  Sie erhalten den Auftrag, alle neuen Sicherheits-Patches innerhalb von zwei Stunden anzuwenden, was zu mehreren Ausfällen aufgrund der Anwendungsinkompatibilität mit bestimmten Patches führt. 
+  Eine ungepatchte Bibliothek hat unbeabsichtigte Folgen, weil unbekannte Personen Schwachstellen darin ausnutzen, um auf Ihre Workload zuzugreifen. 
+  Sie patchen die Entwicklerumgebungen automatisch, ohne die Entwickler zu benachrichtigen. Sie erhalten mehrere Beschwerden von den Entwicklern, dass ihre Umgebung nicht mehr wie erwartet funktioniert. 
+  Sie haben die kommerziell im Handel erhältliche Software auf einer persistenten Instance nicht gepatcht. Als ein Problem mit der Software auftritt und Sie sich an den Anbieter wenden, werden Sie darüber informiert, dass die Version nicht unterstützt wird und Sie bestimmte Patches installieren müssen, um Unterstützung zu erhalten. 
+  Ein kürzlich veröffentlichter Patch für Ihre verwendete Verschlüsselungssoftware bietet signifikante Leistungsverbesserungen. Ihr ungepatchtes System weist Leistungsprobleme auf, die bestehen bleiben, weil es nicht gepatcht ist. 
+  Sie werden über eine Zero-Day-Schwachstelle informiert, die eine Notfalllösung erfordert, und Sie müssen alle Ihre Umgebungen manuell patchen. 
+  Sie sind über kritische Maßnahmen, die zur Wartung Ihrer Ressourcen erforderlich sind, nicht informiert, z. B. obligatorische Versionsupdates, weil Sie bevorstehende geplante Lebenszyklusereignisse und andere Informationen nicht überprüfen. Sie verlieren kritische Zeit für Planung und Ausführung, was zu notfallmäßigen Änderungen für Ihre Teams und zu potenziellen Auswirkungen oder unerwarteten Ausfallzeiten führt. 

 **Vorteile der Nutzung dieser bewährten Methode:** Durch die Einrichtung eines Patch-Verwaltungsprozesses, einschließlich Ihrer Patching-Kriterien und Bereitstellungsmethodik für Ihre Umgebungen, können Sie die Patch-Ebenen skalieren und Berichte darüber erstellen. Das gibt Ihnen Sicherheit in Bezug auf Sicherheitspatches und gewährleistet einen klaren Überblick über den Status bekannter Problemlösungen. Dies wiederum fördert die Übernahme der gewünschten Merkmale und Funktionen, das Entfernen von Problemen und die kontinuierliche Compliance. Implementieren Sie Verwaltungssysteme und Automatisierung für Patches, um den Aufwand für die Bereitstellung von Patches zu reduzieren und Fehler zu begrenzen, die durch manuelle Prozesse verursacht werden. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Installieren Sie auf Ihren Systemen Patches zur Behebung von Problemen, zur Erlangung der gewünschten Funktionen oder Fähigkeiten sowie zur kontinuierlichen Einhaltung der Governance-Richtlinien und der Anforderungen des Lieferantensupport. Nehmen Sie in unveränderlichen Systemen eine Bereitstellung mit einer geeigneten Patch-Gruppe vor, um das gewünschte Ergebnis zu erzielen. Automatisieren Sie den Mechanismus der Patch-Verwaltung, um die Patch-Zeit zu verkürzen, Fehler aufgrund von manuellen Prozessen zu vermeiden und den Aufwand für die Installation von Patches zu verringern. 

### Implementierungsschritte
<a name="implementation-steps"></a>

 Für Amazon EC2 Image Builder: 

1.  Wenn Sie Amazon EC2 Image Builder verwenden, geben Sie die Pipeline-Details an: 

   1.  Erstellen Sie eine Image-Pipeline und geben Sie ihr einen Namen. 

   1.  Definieren Sie den Pipeline-Zeitplan und die Zeitzone. 

   1.  Konfigurieren Sie alle Abhängigkeiten. 

1.  Wählen Sie ein Rezept: 

   1.  Wählen Sie ein vorhandenes Rezept aus oder erstellen Sie ein neues. 

   1.  Wählen Sie den Image-Typ aus. 

   1.  Geben Sie Ihrem Rezept einen Namen und eine Versionsnummer. 

   1.  Wählen Sie Ihr Basis-Image aus. 

   1.  Fügen Sie Build-Komponenten zur Zielregistrierung hinzu. 

1.  Optional: Definieren Sie Ihre Infrastrukturkonfiguration. 

1.  Optional: Definieren Sie die Konfigurationseinstellungen. 

1.  Prüfen Sie die Einstellungen. 

1.  Achten Sie regelmäßig auf die Rezepthygiene. 

 Für Systems Manager Patch Manager: 

1.  Erstellen Sie eine Patch-Baseline. 

1.  Wählen Sie eine Methode für Patching-Operationen aus. 

1.  Aktivieren Sie Compliance-Berichte und -Scans. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS06-BP04 Automatisieren Sie Tests und Rollback](ops_mit_deploy_risks_auto_testing_and_rollback.md) 

 **Zugehörige Dokumente:** 
+ [ Was ist Amazon EC2 Image Builder? ](https://docs.aws.amazon.com/imagebuilder/latest/userguide/what-is-image-builder.html)
+ [ Erstellen einer Image-Pipeline mit Amazon EC2 Image Builder ](https://docs.aws.amazon.com/imagebuilder/latest/userguide/start-build-image-pipeline.html)
+ [ Erstellen einer Container-Image-Pipeline ](https://docs.aws.amazon.com/imagebuilder/latest/userguide/start-build-container-pipeline.html)
+  [AWS Systems Manager Patch Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-patch.html) 
+ [ Arbeiten mit Patch Manager ](https://docs.aws.amazon.com/systems-manager/latest/userguide/patch-manager-console.html)
+ [ Arbeiten mit Patch-Compliance-Berichten ](https://docs.aws.amazon.com/systems-manager/latest/userguide/patch-manager-compliance-reports.html)
+ [AWS-Entwicklertools ](https://aws.amazon.com/products/developer-tools)

 **Zugehörige Videos:** 
+  [CI/CD für Serverless-Anwendungen in AWS](https://www.youtube.com/watch?v=tEpx5VaW4WE) 
+  [Design mit Blick auf die Ops](https://youtu.be/uh19jfW7hw4) 

   **Zugehörige Beispiele:** 
+ [Anleitungen für AWS Systems Manager Patch Manager ](https://docs.aws.amazon.com/systems-manager/latest/userguide/patch-manager-tutorials.html)

# OPS05-BP06 Designstandards teilen
<a name="ops_dev_integ_share_design_stds"></a>

 Tauschen Sie teamübergreifend bewährte Methoden aus, um das Bewusstsein zu schärfen und den Nutzen der Entwicklungsarbeit zu maximieren. Dokumentieren Sie sie und halten Sie sie auf dem neuesten Stand, wenn sich Ihre Architektur weiterentwickelt. Wenn gemeinsame Standards in Ihrem Unternehmen durchgesetzt werden, ist es wichtig, dass Mechanismen vorhanden sind, um Ergänzungen, Änderungen und Ausnahmen von Standards abzubilden. Ohne diese Option werden Standards zu einer Einschränkung der Innovation. 

 **Gewünschtes Ergebnis:** Designstandards werden von allen Teams in Ihren Organisationen gemeinsam genutzt. Sie werden dokumentiert und entsprechend der Weiterentwicklung der bewährten Verfahren aufbewahrt up-to-date. 

 **Typische Anti-Muster:** 
+ Zwei Entwicklerteams haben jeweils einen Service zur Authentifizierung von Benutzern erstellt. Ihre Benutzer müssen für jeden Teil des Systems, auf den sie zugreifen möchten, eigene Anmeldeinformationen verwenden. 
+ Jedes Team verwaltet seine eigene Infrastruktur. Eine neue Compliance-Anforderung erzwingt eine Änderung Ihrer Infrastruktur. Jedes Team implementiert sie auf andere Weise.

 **Vorteile der Nutzung dieser bewährten Methode:** Die Verwendung gemeinsamer Standards unterstützt die Umsetzung bewährter Methoden und maximiert den Nutzen der Entwicklungsarbeit. Durch die Dokumentation und Aktualisierung von Designstandards wird Ihr Unternehmen stets up-to-date über bewährte Verfahren und Sicherheits- und Compliance-Anforderungen informiert. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Nutzen Sie bewährte Methoden, Designstandards, Checklisten, Arbeitsverfahren, Leitlinien und Governance-Anforderungen in allen Teams. Verwenden Sie Verfahren zur Anforderung von Änderungen, Ergänzungen und Ausnahmen von Designstandards, um Verbesserungen und Innovationen zu unterstützen. Stellen Sie sicher, dass die Teams über die veröffentlichten Inhalte informiert sind. Verfügen Sie über einen Mechanismus zur Beibehaltung von Designstandards up-to-date, wenn neue bewährte Verfahren auftauchen. 

 **Kundenbeispiel** 

 AnyCompany Der Einzelhandel verfügt über ein funktionsübergreifendes Architekturteam, das Softwarearchitekturmuster erstellt. Dieses Team entwickelt die Architektur mit integrierter Compliance und Governance. Teams, die diese gemeinsamen Standards anwenden, profitieren davon, dass Compliance und Governance bereits integriert sind. Sie können schnell auf dem Designstandard aufbauen. Das Architekturteam trifft sich vierteljährlich, um die Architekturmuster zu bewerten und sie gegebenenfalls zu aktualisieren. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  Bestimmen Sie ein funktionsübergreifendes Team, das für die Entwicklung und Aktualisierung der Designstandards zuständig ist. Dieses Team sollte mit Stakeholdern in Ihrer gesamten Organisation zusammenarbeiten, um Designstandards, Arbeitsverfahren, Checklisten, Leitlinien und Governance-Anforderungen zu entwickeln. Dokumentieren Sie die Designstandards und geben Sie sie innerhalb Ihrer Organisation weiter. 

   1.  Mit [AWS Service Catalog](https://docs.aws.amazon.com/servicecatalog/latest/adminguide/introduction.html) können Sie Portfolios erstellen, die Designstandards als Infrastructure-as-Code abbilden. Sie können Portfolios über Konten hinweg gemeinsam nutzen. 

1.  Setzen Sie einen Mechanismus ein, um Designstandards beizubehalten, up-to-date sobald neue bewährte Verfahren identifiziert werden. 

1.  Wenn Designstandards zentral durchgesetzt werden, sollten Sie über ein Verfahren verfügen, um Änderungen, Aktualisierungen und Ausnahmen anzufordern. 

 **Aufwand für den Implementierungsplan:** Mittel. Die Entwicklung eines Prozesses zur Erstellung und gemeinsamen Nutzung von Designstandards kann die Koordination und Zusammenarbeit mit Stakeholdern in Ihrer gesamten Organisation erforderlich machen. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS01-BP03 Bewertung der Governance-Anforderungen](ops_priorities_governance_reqs.md) – Governance-Anforderungen beeinflussen Designstandards. 
+  [OPS01-BP04 Bewerten der Compliance-Anforderungen](ops_priorities_compliance_reqs.md) – Compliance ist ein wichtiger Faktor bei der Erstellung von Designstandards. 
+  [OPS07-BP02 Sicherstellen einer konsistenten Prüfung der betrieblichen Bereitschaft](ops_ready_to_support_const_orr.md) – Checklisten für die operative Einsatzbereitschaft sind ein Mechanismus zur Umsetzung von Designstandards bei der Gestaltung Ihrer Workload. 
+  [OPS11-BP01 Implementieren eines Prozesses für die kontinuierliche Verbesserung](ops_evolve_ops_process_cont_imp.md) – Die Aktualisierung von Designstandards ist ein Teil der kontinuierlichen Verbesserung. 
+  [OPS11-BP04 Wissensmanagement durchführen](ops_evolve_ops_knowledge_management.md) – Als Teil Ihres Wissensmanagements sollten Sie Designstandards dokumentieren und weitergeben. 

 **Zugehörige Dokumente:** 
+ [Automatisieren Sie AWS Backup uns mit AWS Service Catalog](https://aws.amazon.com/blogs/mt/automate-aws-backups-with-aws-service-catalog/)
+ [AWS Service Catalog Ab Werk erweitertes Konto](https://aws.amazon.com/blogs/mt/aws-service-catalog-account-factory-enhanced/)
+ [Wie die Expedia Group das Database-as-a-Service () -Angebot () DBaaS mithilfe von AWS Service Catalog](https://aws.amazon.com/blogs/mt/how-expedia-group-built-database-as-a-service-dbaas-offering-using-aws-service-catalog/)
+ [ Überblick über die Nutzung von Cloud-Architekturmustern ](https://aws.amazon.com/blogs/architecture/maintain-visibility-over-the-use-of-cloud-architecture-patterns/)
+ [Vereinfachen Sie die gemeinsame Nutzung Ihrer AWS Service Catalog Portfolios in einem Setup AWS Organizations](https://aws.amazon.com/blogs/mt/simplify-sharing-your-aws-service-catalog-portfolios-in-an-aws-organizations-setup/)

 **Zugehörige Videos:** 
+ [AWS Service Catalog — Erste Schritte](https://www.youtube.com/watch?v=A9kKy6WhqVA)
+ [AWS re:Invent 2020: Managen Sie Ihre AWS Service Catalog Portfolios wie ein Experte](https://www.youtube.com/watch?v=lVfXkWHAtR8)

 **Zugehörige Beispiele:** 
+ [AWS Service Catalog Referenzarchitektur](https://github.com/aws-samples/aws-service-catalog-reference-architectures)
+ [AWS Service Catalog Werkstatt](https://catalog.us-east-1.prod.workshops.aws/workshops/d40750d7-a330-49be-9945-cde864610de9/en-US)

 **Zugehörige Services:** 
+  [AWS Service Catalog](https://docs.aws.amazon.com/servicecatalog/latest/adminguide/introduction.html) 

# OPS05-BP07 Implementieren von Verfahren zur Verbesserung der Codequalität
<a name="ops_dev_integ_code_quality"></a>

 Implementieren Sie Verfahren zur Verbesserung der Codequalität und Minimierung von Fehlern. Einige Beispiele sind die testbasierte Entwicklung, Code-Reviews, die Einführung von Standards und Pair-Programming. Integrieren Sie diese Verfahren in Ihren Continuous-Integration- und Continuous-Delivery-Prozess. 

 **Gewünschtes Ergebnis:** Ihre Organisation setzt bewährte Methoden wie Code-Reviews oder Pair-Programming ein, um die Codequalität zu verbessern. Entwickler und operative Mitarbeiter nutzen bewährte Methoden zur Codequalität als Teil des Softwareentwicklungslebenszyklus. 

 **Typische Anti-Muster:** 
+  Sie führen ohne Code-Review Commits zum Main-Branch Ihrer Anwendung durch. Die Änderung wird automatisch in der Produktion bereitgestellt und verursacht einen Ausfall. 
+  Eine neue Anwendung wird ohne Unit-, End-to-End- oder Integrationstests entwickelt. Es gibt keine Möglichkeit, die Anwendung vor der Bereitstellung zu testen. 
+  Ihre Teams nehmen manuelle Änderungen in der Produktion vor, um Fehler zu beheben. Die Änderungen durchlaufen keine Tests oder Code-Reviews und werden nicht durch kontinuierliche Integrations- und Bereitstellungsprozesse erfasst oder protokolliert. 

 **Vorteile der Nutzung dieser bewährten Methode:** Durch die Umsetzung von Methoden zur Verbesserung der Codequalität können Sie die Anzahl der Probleme minimieren, die bei der Produktion noch vorhanden sind. Zu den bewährten Methoden für die Wahrung der Codequalität gehören Paarprogrammierung, Codeprüfung und Implementierung von KI-Produktivitätstools. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Implementieren Sie Verfahren zur Verbesserung der Codequalität, um vor der Bereitstellung Fehler zu minimieren. Nutzen Sie Verfahren wie die testbasierte Entwicklung, Code-Reviews und Pair-Programming, um die Qualität Ihrer Entwicklung zu verbessern. 

 Nutzen Sie die Leistungsfähigkeit generativer KI mit Amazon Q Developer, um die Entwicklerproduktivität und die Codequalität zu verbessern. Amazon Q Developer umfasst die Generierung von Codevorschlägen (basierend auf großen Sprachmodellen), die Erstellung von Komponententests (einschließlich Randbedingungen) und Verbesserungen der Codesicherheit durch die Erkennung und Behebung von Sicherheitsschwachstellen. 

 **Kundenbeispiel** 

 AnyCompany Retail wendet verschiedene Verfahren an, um die Codequalität zu verbessern. Die testbasierte Entwicklung ist der Standard für die Entwicklung von Anwendungen. Bei einigen neuen Funktionen arbeiten die Entwickler während eines Sprints zusammen. Jede Pull-Anforderung wird von einem erfahrenen Entwickler überprüft, bevor sie integriert und bereitgestellt wird. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  Setzen Sie bei Ihrem kontinuierlichen Integrations- und Bereitstellungsprozess auf Code-Qualitätsverfahren wie die testbasierte Entwicklung, Code-Reviews und Pair-Programming. Nutzen Sie diese Techniken, um die Softwarequalität zu verbessern. 

   1.  Verwenden Sie [Amazon Q Developer](https://docs.aws.amazon.com/amazonq/latest/qdeveloper-ug/what-is.html), ein generatives KI-Tool, mit dem Sie Modultestfälle (einschließlich Randbedingungen) erstellen, Funktionen mithilfe von Code und Kommentaren generieren, bekannte Algorithmen implementieren, Verstöße gegen Sicherheitsrichtlinien und Schwachstellen in Ihrem Code erkennen, Geheimnisse aufdecken, Infrastructure as Code (IaC) scannen, Code dokumentieren und Codebibliotheken von Drittanbietern schneller erlernen können. 

   1.  [Amazon CodeGuru Reviewer](https://docs.aws.amazon.com/codeguru/latest/reviewer-ug/welcome.html) kann Machine-Learning-Programmierempfehlungen für Java- und Python-Code bereitstellen. 

 **Aufwand für den Implementierungsplan:** Mittel. Es gibt viele Möglichkeiten zur Umsetzung dieser bewährten Methode. Es kann jedoch schwierig sein, die Akzeptanz im Unternehmen zu erreichen. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS05-BP02 Testen und Validieren von Änderungen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_test_val_chg.html) 
+  [OPS05-BP06 Gemeinsame Design-Standards](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_share_design_stds.html) 

 **Zugehörige Dokumente:** 
+  [Einen testgestützten Entwicklungsansatz verwenden](https://docs.aws.amazon.com/prescriptive-guidance/latest/best-practices-cdk-typescript-iac/development-best-practices.html) 
+  [Beschleunigen Ihres Softwareentwicklungszyklus mit Amazon Q](https://aws.amazon.com/blogs/devops/accelerate-your-software-development-lifecycle-with-amazon-q/) 
+  [Amazon Q Developer (jetzt allgemein verfügbar) enthält Vorschauen neuer Funktionen, mit denen Sie das Entwicklererlebnis neu gestalten können](https://aws.amazon.com/blogs/aws/amazon-q-developer-now-generally-available-includes-new-capabilities-to-reimagine-developer-experience/) 
+  [Der ultimative Spickzettel für den Einsatz von Amazon Q Developer in Ihrer IDE](https://community.aws/content/2eYoqeFRqaVnk900emsknDfzhfW/the-ultimate-cheat-sheet-for-using-amazon-q-developer-in-your-ide) 
+  [Shift-Left-Workload, Nutzung von KI für die Testerstellung](https://community.aws/content/2gBZtC94gPzaCQRnt4P0rIYWuBx/shift-left-workload-leveraging-ai-for-test-creation) 
+  [Amazon Q Developer Center](https://aws.amazon.com/developer/generative-ai/amazon-q/) 
+  [10 Möglichkeiten, Anwendungen mit Amazon CodeWhisperer schneller zu entwickeln](https://aws.amazon.com/blogs/devops/10-ways-to-build-applications-faster-with-amazon-codewhisperer/) 
+  [Ein Blick über die Codeabdeckung hinaus – mit Amazon CodeWhisperer](https://aws.amazon.com/blogs/devops/looking-beyond-code-coverage-with-amazon-codewhisperer/) 
+  [Bewährte Methoden für Prompt-Engineering mit Amazon CodeWhisperer](https://aws.amazon.com/blogs/devops/best-practices-for-prompt-engineering-with-amazon-codewhisperer/) 
+  [Leitfaden für agile Software](https://martinfowler.com/agile.html) 
+  [Meine CI/CD-Pipeline ist mein Release Captain](https://aws.amazon.com/builders-library/cicd-pipeline/) 
+  [Automatisieren von Code-Reviews mit Amazon CodeGuru Reviewer](https://aws.amazon.com/blogs/devops/automate-code-reviews-with-amazon-codeguru-reviewer/) 
+  [Einen testgestützten Entwicklungsansatz verwenden](https://docs.aws.amazon.com/prescriptive-guidance/latest/best-practices-cdk-typescript-iac/development-best-practices.html) 
+  [So entwickelt DevFactory mit Amazon CodeGuru bessere Anwendungen](https://aws.amazon.com/blogs/machine-learning/how-devfactory-builds-better-applications-with-amazon-codeguru/) 
+  [Über Pair-Programming](https://martinfowler.com/articles/on-pair-programming.html) 
+  [RENGA Inc. automatisiert Code-Reviews mit Amazon CodeGuru](https://aws.amazon.com/blogs/machine-learning/renga-inc-automates-code-reviews-with-amazon-codeguru/) 
+  [Die Kunst der agilen Entwicklung: Testbasierte Entwicklung](http://www.jamesshore.com/v2/books/aoad1/test_driven_development) 
+  [Warum Code-Reviews wichtig sind (und tatsächlich Zeit sparen\$1)](https://www.atlassian.com/agile/software-development/code-reviews) 

 **Zugehörige Videos:** 
+  [Implementieren einer API mit Amazon Q Developer-Agent für die Softwareentwicklung](https://www.youtube.com/watch?v=U4XEvJUvff4) 
+  [Installation, Konfiguration und Verwendung von Amazon Q Developer mit JetBrains-IDEs (Anleitung)](https://www.youtube.com/watch?v=-iQfIhTA4J0) 
+  [Amazon CodeWhisperer meistern – YouTube-Playlist](https://www.youtube.com/playlist?list=PLDqi6CuDzubxzL-yIqgQb9UbbceYdKhpK) 
+  [AWS re:Invent 2020: Kontinuierliche Verbesserung der Codequalität mit Amazon CodeGuru](https://www.youtube.com/watch?v=iX1i35H1OVw) 
+  [AWS Summit ANZ 2021 – Vorantreiben einer „Test-First“-Strategie mit CDK und testgesteuerter Entwicklung](https://www.youtube.com/watch?v=1R7G_wcyd3s) 

 **Zugehörige Services:** 
+  [Amazon Q Developer](https://aws.amazon.com/q/developer/) 
+  [Amazon CodeGuru Reviewer](https://docs.aws.amazon.com/codeguru/latest/reviewer-ug/welcome.html) 
+  [Amazon CodeGuru Profiler](https://docs.aws.amazon.com/codeguru/latest/profiler-ug/what-is-codeguru-profiler.html) 

# OPS05-BP08 Verwenden mehrerer Umgebungen
<a name="ops_dev_integ_multi_env"></a>

 Verwenden Sie mehrere Umgebungen, um Ihre Workload auszuprobieren, zu entwickeln und zu testen. Verwenden Sie zunehmende Kontrollstufen, wenn Umgebungen sich der Produktion nähern, um sicherzustellen, dass Ihre Workload bei der Bereitstellung wie beabsichtigt funktioniert. 

 **Gewünschtes Ergebnis:** Sie verfügen über mehrere Umgebungen, die Ihre Compliance- und Governance-Anforderungen widerspiegeln. Auf Ihrem Weg zur Produktion testen und promoten Sie Code in Umgebungen. 

1.  Ihr Unternehmen tut dies durch die Einrichtung einer Landing Zone, die für Steuerung, Kontrollen, Kontoautomatisierung, Networking, Sicherheit und betriebliche Beobachtbarkeit sorgt. Verwalten Sie diese Landing Zone-Funktionen, indem Sie mehrere Umgebungen verwenden. Ein typisches Beispiel ist eine Sandbox-Organisation für die Entwicklung und Erprobung von Änderungen an einer [AWS Control Tower](https://aws.amazon.com/controltower/)-basierten Landing Zone, zu der auch [AWS IAM Identity Center](https://aws.amazon.com/iam/identity-center/) und Richtlinien wie [Service-Kontrollrichtlinien (SCPs)](https://docs.aws.amazon.com/organizations/latest/userguide/orgs_manage_policies_scps.html) gehören. Alle diese Elemente können den Zugang zur Landing Zone und den Betrieb von AWS-Konten innerhalb der Landing Zone erheblich beeinträchtigen. 

1.  Zusätzlich zu diesen Services erweitern Ihre Teams die Funktionen der Landing Zones mit Lösungen, die von AWS- und AWS-Partnern veröffentlicht werden, oder als maßgeschneiderte Lösungen in Ihrem Unternehmen entwickelt wurden. Zu den von AWS veröffentlichten Lösungen gehören beispielsweise [Customizations for AWS Control Tower (CfCT)](https://aws.amazon.com/solutions/implementations/customizations-for-aws-control-tower/) und [AWS Control TowerAccount Factory for Terraform (AFT)](https://docs.aws.amazon.com/controltower/latest/userguide/aft-overview.html). 

1.  Ihr Unternehmen wendet dieselben Prinzipien beim Testen, Promoten von Code und Richtlinienänderungen für die Landing Zone durch Umgebungen auf Ihrem Weg zur Produktion an. Diese Strategie bietet eine stabile und sichere Landing Zone-Umgebung für Ihre Anwendungs- und Workload-Teams. 

 **Typische Anti-Muster:** 
+  Sie führen die Entwicklung in einer gemeinsamen Entwicklungsumgebung durch und ein weiterer Entwickler überschreibt Ihre Codeänderungen. 
+  Die restriktiven Sicherheitskontrollen Ihrer gemeinsamen Entwicklungsumgebung verhindern, dass Sie mit neuen Services und Funktionen experimentieren können. 
+  Sie führen Belastungstests auf Ihren Produktionssystemen durch und verursachen einen Ausfall für Ihre Benutzer. 
+  In der Produktion ist ein kritischer Fehler aufgetreten, der zum Verlust von Daten geführt hat. In Ihrer Produktionsumgebung versuchen Sie, die Bedingungen, die zum Datenverlust geführt haben, nachzustellen, damit Sie die Ursache feststellen und beseitigen können. Um einen weiteren Datenverlust während des Testens zu verhindern, müssen Sie die Anwendung für Ihre Benutzer deaktivieren. 
+  Sie betreiben einen Mehrmandanten-Service und können eine Kundenanfrage nach einer eigenen Umgebung nicht erfüllen. 
+  Möglicherweise testen Sie nicht immer, aber wenn Sie dies tun, testen Sie in Ihrer Produktionsumgebung. 
+  Sie glauben, dass die Einfachheit einer einzelnen Umgebung die Auswirkungen von Änderungen innerhalb der Umgebung ausgleicht. 
+  Sie erweitern eine wichtige Landing Zone-Funktion, aber die Änderung beeinträchtigt die Fähigkeit Ihres Teams, Konten entweder für neue Projekte oder für Ihre bestehenden Workloads zu bereitzustellen. 
+  Sie wenden neue Kontrollen auf Ihre AWS-Konten an, aber die Änderung wirkt sich auf die Fähigkeit Ihres Workload-Teams aus, Änderungen innerhalb seiner AWS-Konten vorzunehmen. 

 **Vorteile der Nutzung dieser bewährten Methode:** Wenn Sie mehrere Umgebungen bereitstellen, können Sie gleichzeitig mehrere Entwicklungs-, Test- und Produktionsumgebungen unterstützen, ohne Konflikte zwischen Entwicklern oder Benutzer-Communitys zu verursachen. Bei komplexen Funktionen wie Landing Zones wird das Risiko von Änderungen erheblich reduziert, der Verbesserungsprozess vereinfacht und das Risiko kritischer Aktualisierungen der Umgebung verringert. Organisationen, die Landing Zones verwenden, profitieren in natürlicher Weise von mehreren Konten in ihrer AWS-Umgebung mit Kontostruktur, Governance, Netzwerk- und Sicherheitskonfigurationen. Im Laufe der Zeit kann sich die Landing Zone mit dem Wachstum Ihres Unternehmens weiterentwickeln, um Ihre Workloads und Ressourcen zu sichern und zu organisieren. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Verwenden Sie mehrere Umgebungen und stellen Sie den Entwicklern Sandbox-Umgebungen mit weniger Kontrollen zur Verfügung, in denen sie experimentieren können. Richten Sie individuelle Entwicklungsumgebungen ein, damit parallele Arbeit möglich ist. Dadurch steigern Sie die Agilität der Entwicklung. Implementieren Sie strengere Kontrollen erst in den Umgebungen, die kurz vor der Produktionsaufnahme stehen, damit Entwickler Innovationen schaffen können. Nutzen Sie die Infrastruktur als Code sowie Konfigurationsverwaltungssysteme, um Umgebungen bereitzustellen, die mit den in der Produktion vorhandenen Kontrollen einheitlich konfiguriert sind. Auf diese Weise können Sie sicherstellen, dass die Systeme bei der Bereitstellung wie erwartet funktionieren. Wenn Umgebungen nicht in Gebrauch sind, schalten Sie sie ab, um Kosten für ungenutzte Ressourcen zu vermeiden (z. B. Entwicklungssysteme am Abend und am Wochenende). Stellen Sie beim Belastungstest produktionsgleiche Umgebungen bereit, um die Gültigkeit der Ergebnisse zu verbessern. 

 Teams aus den Bereichen Plattformentwicklung, Netzwerke und Sicherheit verwalten ihre Fähigkeiten häufig auf Organisationsebene mit unterschiedlichen Anforderungen. Eine Trennung der Konten allein reicht nicht aus, um separate Umgebungen für Experimente, Entwicklung und Tests bereitzustellen und aufrechtzuerhalten. Erstellen Sie in solchen Fällen separate Instanzen von AWS Organizations. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige Dokumente:** 
+ [ Instance Scheduler in AWS](https://aws.amazon.com/solutions/implementations/instance-scheduler-on-aws/)
+  [Was ist AWS CloudFormation?](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/Welcome.html) 
+ [Organisation Ihrer AWS-Umgebung mit mehreren Konten – Mehrere Organisationen – Testen von Änderungen an Ihrer gesamten AWS-Umgebung](https://docs.aws.amazon.com/whitepapers/latest/organizing-your-aws-environment/multiple-organizations.html#test-changes-to-your-overall-aws-environment)
+ [AWS Control Tower-Handbuch ](https://catalog.workshops.aws/control-tower)

# OPS05-BP09 Nehmen Sie häufige, kleine, reversible Änderungen vor
<a name="ops_dev_integ_freq_sm_rev_chg"></a>

 Häufige, kleine und reversible Änderungen verringern den Umfang und die Auswirkung einer Änderung. In Verbindung mit Change-Management-Systemen, Systemen zur Konfigurationsverwaltung und Build- und Liefersystemen reduzieren häufige, kleine und reversible Änderungen den Umfang und die Auswirkungen einer Änderung. Dies macht die Fehlersuche effizienter und ermöglicht eine schnellere Korrektur, da die Möglichkeit besteht, Änderungen zurückzusetzen. 

 **Typische Anti-Muster:** 
+  Sie stellen vierteljährlich eine neue Version Ihrer Anwendung mit einem Änderungsfenster bereit, was bedeutet, dass ein zentraler Dienst ausgeschaltet wird. 
+  Sie nehmen häufig Änderungen an Ihrem Datenbankschema vor, ohne Änderungen in Ihren Managementsystemen nachzuverfolgen. 
+  Sie führen direkte manuelle Updates durch, überschreiben damit bestehende Installationen und Konfigurationen und haben keinen klaren Rollback-Plan. 

 **Vorteile der Nutzung dieser bewährten Methode:** Sie profitieren schneller von den Entwicklungsarbeiten, wenn Sie häufig kleine Änderungen bereitstellen. Wenn die Änderungen klein sind, ist es viel einfacher zu erkennen, ob sie unbeabsichtigte Folgen haben, und sie lassen sich leichter rückgängig machen. Wenn die Änderungen rückgängig gemacht werden können, ist die Implementierung mit geringeren Risiken verbunden, da die Wiederherstellung einfacher ist. Der Änderungsprozess hat ein geringeres Risiko und die Auswirkungen einer fehlgeschlagenen Änderung werden reduziert. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Niedrig 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Machen Sie häufige, kleine und reversible Änderungen und verringern Sie dadurch den Umfang und die Auswirkung einer Änderung. Dies erleichtert die Fehlersuche, trägt zur Beschleunigung der Fehlerbehebung bei und bietet die Möglichkeit, eine Änderung zurückzusetzen. Außerdem profitiert Ihr Unternehmen schneller von neuen Entwicklungen. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS05-BP03 Einsatz von Systemen zur Konfigurationsverwaltung](ops_dev_integ_conf_mgmt_sys.md) 
+  [OPS05-BP04 Einsatz von Systemen zur Build- und Bereitstellungsverwaltung](ops_dev_integ_build_mgmt_sys.md) 
+  [OPS06-BP04 Automatisieren Sie Tests und Rollback](ops_mit_deploy_risks_auto_testing_and_rollback.md) 

 **Zugehörige Dokumente:** 
+ [Implementierung von Microservices auf AWS](https://docs.aws.amazon.com/whitepapers/latest/microservices-on-aws/microservices-on-aws.html)
+ [ Microservices – Beobachtbarkeit ](https://docs.aws.amazon.com/whitepapers/latest/microservices-on-aws/observability.html)

# OPS05-BP10 Vollständige Automatisierung von Integration und Bereitstellung
<a name="ops_dev_integ_auto_integ_deploy"></a>

 Automatisieren Sie den Aufbau, die Bereitstellung und die Tests der Workloads. Dadurch werden Fehler aufgrund von manuellen Prozessen und der Aufwand für die Bereitstellung von Änderungen verringert. 

 Wenden Sie Metadaten mithilfe von [Ressourcen-Tags](https://docs.aws.amazon.com/general/latest/gr/aws_tagging.html) und [AWS -Ressourcengruppen](https://docs.aws.amazon.com/ARG/latest/APIReference/Welcome.html) nach einer konsistenten [Tagging-Strategie](https://aws.amazon.com/answers/account-management/aws-tagging-strategies/) an, um die Identifizierung Ihrer Ressourcen zu erleichtern. Versehen Sie Ihre Ressourcen mit Tags für Organisation, Kostenkalkulation, Zugriffssteuerung und Zielrichtung der Ausführung von automatisierten Betriebsaktivitäten. 

 **Gewünschtes Ergebnis:** Entwickler verwenden Tools, um Code bereitzustellen und bis zur Produktion zu unterstützen. Entwickler müssen sich nicht bei der AWS-Managementkonsole anmelden, um Updates bereitzustellen. Es gibt einen vollständigen Audit Trail für Änderungen und Konfigurationen, der die Governance- und Compliance-Anforderungen erfüllt. Prozesse sind wiederholbar und teamübergreifend standardisiert. Entwickler sind in der Lage, sich auf die Entwicklung und Code-Pushs zu konzentrieren, sodass die Produktivität steigt. 

 **Typische Anti-Muster:** 
+  Am Freitag schließen Sie die Erstellung des neuen Codes für Ihren Feature-Zweig ab. Am Montag, nach dem Ausführen Ihrer Skripts für die Codequalitätstests und einzelnen Komponententests, überprüfen Sie Ihren Code für den nächsten geplanten Release. 
+  Sie erhalten die Aufgabe, eine Korrektur für ein kritisches Problem zu schreiben, das sich auf eine große Anzahl von Kunden in der Produktion auswirkt. Nachdem Sie die Korrektur getestet haben, übermitteln Sie Ihren Code und fordern beim Änderungsmanagement die Bereitstellungsgenehmigung zur Produktion an. 
+  Als Entwickler melden Sie sich bei der AWS-Managementkonsole an, um eine neue Entwicklungsumgebung mit nicht standardmäßigen Methoden und Systemen zu erstellen. 

 **Vorteile der Nutzung dieser bewährten Methode:** Durch die Implementierung automatisierter Build- und Bereitstellungsverwaltungssysteme reduzieren Sie Fehler aus manuellen Prozessen und den Aufwand für die Bereitstellung von Änderungen, sodass sich Ihre Teammitglieder auf die Wertschöpfung konzentrieren können. Sie erhöhen die Liefergeschwindigkeit auf Ihrem Weg zur Produktion. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Niedrig 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Verwenden Sie Systeme zur Build- und Bereitstellungsverwaltung für die Verfolgung und Implementierung von Änderungen, die Reduzierung von Fehlern, die durch manuelle Prozesse entstehen, sowie zur Verringerung des Aufwands. Nutzen Sie eine vollständig automatisierte Integrations- und Bereitstellungs-Pipeline vom Einchecken des Codes über das Testen und die Bereitstellung bis hin zur Validierung. Dies reduziert die Vorlaufzeit, fördert häufigere Änderungen, reduziert den Aufwand, beschleunigt die Markteinführung, führt zu einer höheren Produktivität und erhöht die Sicherheit Ihres Codes bis hin zur Produktion. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS05-BP03 Einsatz von Systemen zur Konfigurationsverwaltung](ops_dev_integ_conf_mgmt_sys.md) 
+  [OPS05-BP04 Einsatz von Systemen zur Build- und Bereitstellungsverwaltung](ops_dev_integ_build_mgmt_sys.md) 

 **Zugehörige Dokumente:** 
+  [Was ist AWS CodeBuild?](https://docs.aws.amazon.com/codebuild/latest/userguide/welcome.html) 
+  [Was ist AWS CodeDeploy?](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html) 

 **Zugehörige Videos:** 
+ [AWS re:Invent 2022 – Bewährte AWS Well-Architected-Methoden für DevOps in AWS](https://youtu.be/hfXokRAyorA)

# OPS 6. Wie können Sie Bereitstellungsrisiken eindämmen?
<a name="ops-06"></a>

 Verwenden Sie Ansätze, die schnelles Feedback zur Qualität liefern und eine schnelle Wiederherstellung bei Änderungen ermöglichen, die nicht zu den gewünschten Ergebnissen führen. Mit diesen Verfahren können Sie die Auswirkung von Problemen eindämmen, die durch Änderungen entstehen. 

**Topics**
+ [

# OPS06-BP01 Plan für erfolglose Änderungen
](ops_mit_deploy_risks_plan_for_unsucessful_changes.md)
+ [

# OPS06-BP02 Testbereitstellungen
](ops_mit_deploy_risks_test_val_chg.md)
+ [

# OPS06-BP03 Einsetzen sicherer Bereitstellungsstrategien
](ops_mit_deploy_risks_deploy_mgmt_sys.md)
+ [

# OPS06-BP04 Automatisieren Sie Tests und Rollback
](ops_mit_deploy_risks_auto_testing_and_rollback.md)

# OPS06-BP01 Plan für erfolglose Änderungen
<a name="ops_mit_deploy_risks_plan_for_unsucessful_changes"></a>

Planen Sie Maßnahmen für die Rückkehr zu einem bekanntermaßen funktionierenden Zustand oder die Korrektur in der Produktionsumgebung ein, falls bei der Bereitstellung ein nicht erwünschtes Ergebnis auftritt. Eine Richtlinie zur Festlegung eines solchen Plans hilft allen Teams, Strategien zum Umgang mit fehlgeschlagenen Änderungen zu entwickeln. Einige Beispiele für Strategien sind Bereitstellungs- und Rollback-Schritte, Änderungsrichtlinien, Feature-Flags sowie die Isolierung und Verlagerung von Datenverkehr. Ein einzelner Release kann mehrere zusammengehörige Komponentenänderungen enthalten. Die Strategie sollte die Möglichkeit bieten, dem Ausfall einer Komponentenänderung standzuhalten oder sich danach zu regenerieren.

 **Gewünschtes Ergebnis:** Sie haben einen detaillierten Wiederherstellungsplan für Ihre Änderung erstellt, falls diese nicht erfolgreich sein sollte. Darüber hinaus haben Sie die Größe Ihres Releases reduziert, um die potenziellen Auswirkungen auf andere Workload-Komponenten zu minimieren. Infolgedessen haben Sie die Auswirkungen auf Ihr Unternehmen verringert, indem Sie die potenziellen Ausfallzeiten aufgrund einer fehlgeschlagenen Änderung reduziert und die Flexibilität und Effizienz der Wiederherstellungszeiten erhöht haben. 

 **Typische Anti-Muster:** 
+  Sie haben Code bereitgestellt und Ihre Anwendung ist instabil geworden, aber es befinden sich aktive Benutzer im System. Sie müssen entscheiden, ob Sie die Änderung rückgängig machen und Auswirkungen auf die aktiven Benutzer in Kauf nehmen möchten, oder ob Sie die Änderung erst später rückgängig machen möchten, wodurch möglicherweise trotzdem Auswirkungen auf die Benutzer entstehen könnten. 
+  Nachdem Sie eine Routineänderung vorgenommen haben, kann auf Ihre neuen Umgebungen zugegriffen werden, aber eines Ihrer Subnetze ist nicht mehr erreichbar. Sie müssen entscheiden, ob Sie die gesamte Änderung rückgängig machen oder versuchen, die Nichtverfügbarkeit des Subnetzes zu beheben. Während Sie diese Entscheidung abwägen, bleibt das Subnetz nicht erreichbar. 
+  Ihre Systeme sind nicht so konzipiert, dass sie mit kleineren Releases aktualisiert werden können. Daher haben Sie Schwierigkeiten, die Bulk-Änderungen während einer fehlgeschlagenen Bereitstellung rückgängig zu machen. 
+  Sie verwenden nicht Infrastructure as Code (IaC) und Sie haben manuelle Aktualisierungen an Ihrer Infrastruktur vorgenommen, die zu einer unerwünschten Konfiguration geführt haben. Sie sind nicht in der Lage, die manuellen Änderungen effektiv zu verfolgen und rückgängig zu machen. 
+  Da Sie die erhöhte Häufigkeit Ihrer Bereitstellungen nicht gemessen haben, hat Ihr Team keinen Anreiz, den Umfang seiner Änderungen zu reduzieren und seine Rollback-Pläne für jede Änderung zu verbessern. Dies führt zu höheren Risiken und höheren Ausfallraten. 
+  Sie messen nicht die Gesamtdauer eines Ausfalls, der durch erfolglose Änderungen verursacht wird. Ihr Team ist nicht in der Lage, den Bereitstellungsprozess und die Effektivität des Wiederherstellungsplans zu priorisieren und zu verbessern. 

 **Vorteile der Einführung dieser bewährten Methode:** Wenn Sie einen Plan für die Wiederherstellung nach erfolglosen Änderungen haben, wird die durchschnittliche Wiederherstellungszeit (MTTR) minimiert und die Auswirkungen auf Ihr Unternehmen verringert. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Mithilfe einer konsistenten, dokumentierten Richtlinie und Praxis, die von den Release-Teams angewendet wird, kann ein Unternehmen planen, was bei nicht erfolgreichen Änderungen passieren soll. Unter bestimmten Umständen sollte die Richtlinie ein Forward-Fixing berücksichtigen. In allen Fällen sollte ein Fix-Forward- oder Rollback-Plan vor der Bereitstellung in der Live-Produktion gut dokumentiert und getestet werden, um die benötigte Zeit zum Rückgängigmachen einer Änderung zu minimieren. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  Dokumentieren Sie die Richtlinien, nach denen Teams über wirksame Pläne verfügen müssen, wie Änderungen innerhalb eines bestimmten Zeitraums rückgängig gemacht werden können. 

   1.  In den Richtlinien sollte festgelegt sein, wann eine Fix-Forward-Situation zulässig ist. 

   1.  Erfordern Sie einen dokumentierten Rollback-Plan, auf den alle Beteiligten zugreifen können. 

   1.  Geben Sie die Anforderungen für das Rollback an (z. B. wenn festgestellt wird, dass nicht autorisierte Änderungen vorgenommen wurden). 

1.  Analysieren Sie den Grad der Auswirkungen aller Änderungen für jede Komponente einer Workload. 

   1.  Ermöglichen Sie die Standardisierung, Vorlagenerstellung und Vorautorisierung wiederholbarer Änderungen, sofern sie einem konsistenten Workflow folgen, der Änderungsrichtlinien durchsetzt. 

   1.  Reduzieren Sie die potenziellen Auswirkungen jeder Änderung, indem Sie den Umfang der Änderung verringern, damit die Wiederherstellung weniger Zeit in Anspruch nimmt und weniger Auswirkungen auf das Unternehmen hat. 

   1.  Stellen Sie sicher, dass die Rollback-Verfahren den Code in einen bekannt funktionierenden Zustand zurückversetzen, um Zwischenfälle nach Möglichkeit zu vermeiden. 

1.  Integrieren Sie Tools und Workflows, um Ihre Richtlinien programmgesteuert durchzusetzen. 

1.  Machen Sie Daten zu Änderungen für andere Workload-Besitzer sichtbar, um die Diagnose bei fehlgeschlagenen Änderungen, für die kein Rollback möglich ist, zu beschleunigen. 

   1.  Messen Sie den Erfolg dieser Methode anhand sichtbarer Änderungsdaten und identifizieren Sie iterative Verbesserungen. 

1.  Verwenden Sie Überwachungstools, um den Erfolg oder Misserfolg einer Bereitstellung zu überprüfen und so die Entscheidungsfindung beim Rollback zu beschleunigen. 

1.  Messen Sie die Dauer des Ausfalls bei einer erfolglosen Änderung, um Ihre Wiederherstellungspläne kontinuierlich zu verbessern. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS06-BP04 Automatisieren Sie Tests und Rollback](ops_mit_deploy_risks_auto_testing_and_rollback.md) 

 **Zugehörige Dokumente:** 
+ [AWS Builders Library \$1 Gewährleistung der Rollback-Sicherheit bei Bereitstellungen](https://aws.amazon.com/builders-library/ensuring-rollback-safety-during-deployments/)
+ [AWS Whitepaper \$1 Änderungsmanagement in der Cloud](https://docs.aws.amazon.com/whitepapers/latest/change-management-in-the-cloud/change-management-in-the-cloud.html)

 **Zugehörige Videos:** 
+ [ re:Invent 2019 \$1 Der Amazon-Ansatz für die Hochverfügbarkeitsbereitstellung ](https://aws.amazon.com/builders-library/amazon-approach-to-high-availability-deployment/)

# OPS06-BP02 Testbereitstellungen
<a name="ops_mit_deploy_risks_test_val_chg"></a>

 Testen Sie Release-Verfahren in der Vorproduktion, indem Sie dieselbe Bereitstellungskonfiguration, dieselben Sicherheitskontrollen, Schritte und Verfahren wie in der Produktion verwenden. Stellen Sie sicher, dass alle bereitgestellten Schritte wie erwartet abgeschlossen wurden, z. B. das Überprüfen von Dateien, Konfigurationen und Services. Testen Sie alle Änderungen darüber hinaus mit Funktions-, Integrations- und Auslastungstests sowie Überwachungsverfahren, z. B. Zustandsprüfungen. Durch diese Tests können Sie Bereitstellungsprobleme frühzeitig erkennen und haben die Möglichkeit, sie vor der Produktion einzuplanen und zu beheben. 

 Sie können temporäre parallele Umgebungen erstellen, um jede Änderung zu testen. Automatisieren Sie die Bereitstellung der Testumgebungen mithilfe von Infrastructure as Code (IaC), um den Arbeitsaufwand zu reduzieren und Stabilität, Konsistenz und schnellere Feature-Bereitstellung zu gewährleisten. 

 **Gewünschtes Ergebnis:** Ihr Unternehmen führt eine testgestützte Entwicklungskultur ein, die Testbereitstellungen einschließt. Dadurch wird sichergestellt, dass sich die Teams darauf konzentrieren, Werte für das Unternehmen zu schaffen, anstatt Releases zu verwalten. Die Teams werden bei der Identifizierung von Bereitstellungsrisiken frühzeitig einbezogen, um die geeigneten Maßnahmen zur Risikominderung festzulegen. 

 **Typische Anti-Muster:** 
+  Während Produktionseinführungen führen ungetestete Bereitstellungen häufig zu Problemen, die eine Fehlerbehebung und Eskalation erfordern. 
+  Ihr Release enthält Infrastructure as Code (IaC), wodurch vorhandene Ressourcen aktualisiert werden. Sie sind sich nicht sicher, ob IaC erfolgreich ausgeführt wird oder ob es Auswirkungen auf die Ressourcen gibt. 
+  Sie stellen ein neues Feature für Ihre Anwendung bereit. Sie funktioniert nicht wie beabsichtigt und dies fällt erst auf, als sie von betroffenen Benutzern gemeldet wird. 
+  Sie aktualisieren Ihre Zertifikate. Sie installieren versehentlich die Zertifikate für die falschen Komponenten, was unentdeckt bleibt und Auswirkungen auf Website-Benutzer hat, da keine sichere Verbindung zur Website hergestellt werden kann. 

 **Vorteile der Nutzung dieser bewährten Methode:** Durch umfangreiche Tests der Bereitstellungsverfahren und der durch sie eingeführten Änderungen in der Vorproduktion werden die potenziellen Auswirkungen der Bereitstellungsschritte auf die Produktion minimiert. Dies erhöht das Vertrauen bei der Produktionseinführung und minimiert den Support während des Betriebs, ohne die bereitgestellten Änderungen zu verlangsamen. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Das Testen Ihres Bereitstellungsprozesses ist genauso wichtig wie das Testen der Änderungen, die sich aus der Bereitstellung ergeben. Dies kann erreicht werden, indem Sie Ihre Bereitstellungsschritte in einer Vorproduktionsumgebung testen, die die Produktion so genau wie möglich widerspiegelt. Häufig auftretende Probleme, z. B. unvollständige oder falsche Bereitstellungsschritte oder Fehlkonfigurationen, können so vor der Bereitstellung in der Produktionsumgebung erkannt werden. Darüber hinaus können Sie Ihre Wiederherstellungsschritte testen. 

 **Kundenbeispiel** 

 Im Rahmen seiner CI/CD-Pipeline (Continuous Integration and Continuous Delivery) führt AnyCompany Retail die definierten Schritte durch, die zur Veröffentlichung von Infrastruktur- und Softwareupdates für seine Kunden in einer Produktionsumgebung erforderlich sind. Die Pipeline besteht aus Vorabprüfungen zur Erkennung von Abweichungen (Erkennung von Änderungen an Ressourcen, die außerhalb von IaC vorgenommen wurden) bei Ressourcen vor der Bereitstellung sowie zur Validierung der Aktionen, die von IaC bei der Initiierung ausgeführt werden. Vor der erneuten Registrierung beim Load Balancer werden Bereitstellungsschritte validiert und z. B. sichergestellt, dass bestimmte Dateien und Konfigurationen vorhanden sind und Services ausgeführt werden und korrekt auf Zustandsprüfungen auf dem lokalen Host reagieren. Darüber hinaus führen alle Änderungen zu einer Reihe automatisierter Tests wie Funktions-, Sicherheits-, Regressions-, Integrations- und Auslastungstests. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  Führen Sie Prüfungen vor der Installation durch, um die Vorproduktionsumgebung in der Produktionsumgebung zu spiegeln. 

   1.  Verwenden Sie die [Drift-Erkennung](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/using-cfn-stack-drift.html), um zu erkennen, wann Ressourcen außerhalb von geändert wurden. CloudFormation

   1.  Verwenden Sie [Änderungssätze](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/using-cfn-updating-stacks-changesets.html), um zu überprüfen, ob die Absicht eines Stack-Updates mit den Aktionen übereinstimmt, die CloudFormation bei der Initiierung des Änderungssatzes ausgeführt werden. 

1.  Dadurch wird ein manueller Genehmigungsschritt in [AWS CodePipeline](https://docs.aws.amazon.com/codepipeline/latest/userguide/approvals.html) ausgelöst, um die Bereitstellung in der Vorproduktionsumgebung zu autorisieren. 

1.  Verwenden Sie Bereitstellungskonfigurationen wie [AWS CodeDeploy AppSpec](https://docs.aws.amazon.com/codedeploy/latest/userguide/application-specification-files.html)Dateien, um Bereitstellungs- und Validierungsschritte zu definieren. 

1.  [Integrieren Sie AWS CodeDeploy gegebenenfalls andere AWS Dienste](https://docs.aws.amazon.com/codedeploy/latest/userguide/integrations-aws.html) oder [integrieren Sie AWS CodeDeploy sie in Produkte und Services von Partnern](https://docs.aws.amazon.com/codedeploy/latest/userguide/integrations-partners.html). 

1.  [Überwachen Sie Bereitstellungen](https://docs.aws.amazon.com/codedeploy/latest/userguide/monitoring.html) mithilfe von Amazon CloudWatch, AWS CloudTrail, und SNS Amazon-Ereignisbenachrichtigungen. 

1.  Führen Sie nach der Bereitstellung automatisierte Tests durch, einschließlich Funktions-, Sicherheits-, Regressions-, Integrations- und Auslastungstests. 

1.  Führen Sie die [Fehlersuche](https://docs.aws.amazon.com/codedeploy/latest/userguide/troubleshooting.html) bei Problemen mit der Bereitstellung aus. 

1.  Eine erfolgreiche Validierung der zuvor genannten Schritte sollte einen manuellen Genehmigungsworkflow initiieren, um die Bereitstellung in der Produktion zu autorisieren. 

 **Aufwand für den Implementierungsplan:** Hoch 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS05-BP02 Testen und Validieren von Änderungen](ops_dev_integ_test_val_chg.md) 

 **Zugehörige Dokumente:** 
+ [AWS Builders' Library \$1 Automatisieren von sicheren, automatischen Bereitstellungen \$1 Testbereitstellungen](https://aws.amazon.com/builders-library/automating-safe-hands-off-deployments/#Test_deployments_in_pre-production_environments)
+ [AWS Whitepaper \$1 Praktische Umsetzung von Continuous Integration und Continuous Delivery am AWS](https://docs.aws.amazon.com/whitepapers/latest/practicing-continuous-integration-continuous-delivery/testing-stages-in-continuous-integration-and-continuous-delivery.html)
+ [ Die Geschichte von Apollo – Die Deployment Engine von Amazon ](https://www.allthingsdistributed.com/2014/11/apollo-amazon-deployment-engine.html)
+  [Wie können Sie AWS CodeDeploy lokal testen und debuggen, bevor Sie Ihren Code versenden](https://aws.amazon.com/blogs/devops/how-to-test-and-debug-aws-codedeploy-locally-before-you-ship-your-code/) 
+ [ Integration von Netzwerkkonnektivitätstests in die Bereitstellung der Infrastruktur ](https://aws.amazon.com/blogs/networking-and-content-delivery/integrating-network-connectivity-testing-with-infrastructure-deployment/)

 **Zugehörige Videos:** 
+ [ re:Invent 2020 \$1 Testen von Software und Systemen bei Amazon ](https://www.youtube.com/watch?v=o1sc3cK9bMU)

 **Zugehörige Beispiele:** 
+ [Tutorial \$1 Bereitstellen und ECS Amazon-Service mit einem Validierungstest](https://docs.aws.amazon.com/codedeploy/latest/userguide/tutorial-ecs-deployment-with-hooks.html)

# OPS06-BP03 Einsetzen sicherer Bereitstellungsstrategien
<a name="ops_mit_deploy_risks_deploy_mgmt_sys"></a>

 Sichere Produktionseinführungen steuern den Fluss vorteilhafter Änderungen mit dem Ziel, die von den Kunden wahrgenommenen Auswirkungen dieser Änderungen zu minimieren. Die Sicherheitskontrollen bieten Prüfmechanismen, um die gewünschten Ergebnisse zu validieren und den Umfang der Auswirkungen von Fehlern zu begrenzen, die durch die Änderungen oder durch Fehler bei der Bereitstellung verursacht werden. Zu sicheren Rollouts können Strategien wie Feature-Flags, One-Box, Rolling (Canary-Releases), Immutable, Aufteilung des Datenverkehrs und Blau/Grün-Bereitstellungen gehören. 

 **Gewünschtes Ergebnis:** Ihr Unternehmen verwendet ein CI/CD-System (Continuous Integration/Continuous Delivery, kontinuierliche Integration/kontinuierliche Bereitstellung), das Funktionen zur Automatisierung sicherer Rollouts bietet. Die Teams müssen angemessene sichere Rollout-Strategien anwenden. 

 **Typische Anti-Muster:** 
+  Sie stellen eine nicht erfolgreiche Änderung für die gesamte Produktion gleichzeitig bereit. Infolgedessen sind alle Kunden gleichzeitig betroffen. 
+  Ein Fehler, der bei einer gleichzeitigen Bereitstellung in allen Systemen auftritt, erfordert ein Notfall-Release. Die Korrektur für alle Kunden dauert mehrere Tage. 
+  Die Verwaltung der Produktionseinführung erfordert die Planung und Beteiligung mehrerer Teams. Dies schränkt Ihre Fähigkeit ein, Features für Ihre Kunden häufig zu aktualisieren. 
+  Sie führen eine veränderbare Bereitstellung durch, indem Sie Ihre vorhandenen Systeme ändern. Nachdem Sie festgestellt haben, dass die Änderung nicht erfolgreich war, müssen Sie die Systeme erneut ändern, um die alte Version wiederherzustellen, was die Wiederherstellungsdauer verlängert. 

 **Vorteile der Nutzung dieser bewährten Methode:** Automatisierte Bereitstellungen sorgen für ein ausgewogenes Verhältnis zwischen der Geschwindigkeit der Bereitstellungen und der konsistenten Bereitstellung nützlicher Änderungen für die Kunden. Die Begrenzung der Auswirkungen verhindert kostspielige Bereitstellungsfehler und maximiert die Fähigkeit der Teams, effizient auf Ausfälle zu reagieren. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Ausfälle bei der kontinuierlichen Bereitstellung können zu einer verringerten Serviceverfügbarkeit und schlechten Kundenerfahrungen führen. Um die Anzahl erfolgreicher Implementierungen zu maximieren, sollten Sie im gesamten Release-Prozess Sicherheitskontrollen zur Minimierung von Bereitstellungsfehlern implementieren. Das Ziel sollte dabei sein, dass keine Bereitstellungsfehler auftreten. 

 **Kundenbeispiel** 

 AnyCompany Retail möchte Bereitstellungen mit minimalen bis gar keinen Ausfallzeiten erreichen, d. h. es soll während der Bereitstellung keine spürbaren Auswirkungen für die Benutzer geben. Um dies zu erreichen, hat das Unternehmen Bereitstellungsmuster festgelegt, z. B. fortlaufende und Blau/Grün-Bereitstellungen (siehe nachfolgendes Workflow-Diagramm). Alle Teams übernehmen eines oder mehrere dieser Muster in ihre CI/CD-Pipeline. 


| CodeDeploy-Workflow für Amazon EC2 | CodeDeploy-Workflow für Amazon ECS | CodeDeploy-Workflow für Lambda | 
| --- | --- | --- | 
|  ![\[Ablauf des Bereitstellungsprozesses für Amazon EC2\]](http://docs.aws.amazon.com/de_de/wellarchitected/latest/framework/images/deployment-process-ec2.png)  |  ![\[Ablauf des Bereitstellungsprozesses für Amazon ECS\]](http://docs.aws.amazon.com/de_de/wellarchitected/latest/framework/images/deployment-process-ecs.png)  |  ![\[Ablauf des Bereitstellungsprozesses für Lambda\]](http://docs.aws.amazon.com/de_de/wellarchitected/latest/framework/images/deployment-process-lambda.png)  | 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  Verwenden Sie einen Genehmigungsworkflow, um die Reihenfolge der Produktionseinführungsschritte nach der Beförderung zur Produktion einzuleiten. 

1.  Verwenden Sie ein automatisiertes Bereitstellungssystem wie [AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html). Die [Bereitstellungsoptionen](https://docs.aws.amazon.com/codedeploy/latest/userguide/deployment-steps.html) von AWS CodeDeploy schließen lokale Bereitstellungen für EC2/On-Premises und Blau/Grün-Bereitstellungen für EC2/On-Premises, AWS Lambda und Amazon ECS ein (siehe vorhergehendes Workflow-Diagramm). 

   1.  [Integrieren Sie AWS CodeDeploy gegebenenfalls in andere AWS-Services](https://docs.aws.amazon.com/codedeploy/latest/userguide/integrations-aws.html) oder [integrieren Sie AWS CodeDeploy in Produkte und Services von Partnern](https://docs.aws.amazon.com/codedeploy/latest/userguide/integrations-partners.html). 

1.  Verwenden Sie Blau/Grün-Bereitstellungen für Datenbanken wie [Amazon Aurora](https://docs.aws.amazon.com/AmazonRDS/latest/AuroraUserGuide/blue-green-deployments.html) und [Amazon RDS](https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/blue-green-deployments.html). 

1.  [Überwachen Sie Bereitstellungen](https://docs.aws.amazon.com/codedeploy/latest/userguide/monitoring.html) mithilfe von Amazon CloudWatch, AWS CloudTrail und Amazon Simple Notiﬁcation Service (Amazon SNS)-Ereignisbenachrichtigungen. 

1.  Führen Sie nach der Bereitstellung automatisierte Tests durch, einschließlich Funktions-, Sicherheits-, Regressions-, Integrations- und Auslastungstests. 

1.  Führen Sie die [Fehlersuche](https://docs.aws.amazon.com/codedeploy/latest/userguide/troubleshooting.html) bei Problemen mit der Bereitstellung aus. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS05-BP02 Testen und Validieren von Änderungen](ops_dev_integ_test_val_chg.md) 
+  [OPS05-BP09 Nehmen Sie häufige, kleine, reversible Änderungen vor](ops_dev_integ_freq_sm_rev_chg.md) 
+  [OPS05-BP10 Vollständige Automatisierung von Integration und Bereitstellung](ops_dev_integ_auto_integ_deploy.md) 

 **Zugehörige Dokumente:** 
+ [AWS Builders Library \$1 Automatisierung sicherer, vollautomatischer Bereitstellungen \$1 Produktionsbereitstellungen ](https://aws.amazon.com/builders-library/automating-safe-hands-off-deployments/?did=ba_card&trk=ba_card#Production_deployments)
+ [AWS Builders Library \$1 Meine CI/CD-Pipeline ist mein Release Captain \$1 Sichere, automatische Produktionseinführungen](https://aws.amazon.com//builders-library/cicd-pipeline/#Safe.2C_automatic_production_releases)
+ [AWS-Whitepaper \$1 Durchführung von Continuous Integration und Continuous Delivery in AWS \$1 Bereitstellungsmethoden](https://docs.aws.amazon.com/whitepapers/latest/practicing-continuous-integration-continuous-delivery/deployment-methods.html)
+ [AWS CodeDeploy Benutzerhandbuch](https://docs.aws.amazon.com/codedeploy/latest/userguide/welcome.html)
+ [Arbeiten mit Bereitstellungskonfigurationen in AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/deployment-configurations.html)
+ [Einrichten einer API Gateway-Canary-Release-Bereitstellung ](https://docs.aws.amazon.com/apigateway/latest/developerguide/canary-release.html)
+ [Amazon-ECS-Bereitstellungstypen](https://docs.aws.amazon.com/)
+ [Vollständig verwaltete Blau/Grün-Bereitstellungen in Amazon Aurora und Amazon RDS](https://aws.amazon.com/blogs/aws/new-fully-managed-blue-green-deployments-in-amazon-aurora-and-amazon-rds/)
+ [Blau/Grün-Bereitstellungen mit AWS Elastic Beanstalk](https://docs.aws.amazon.com/elasticbeanstalk/latest/dg/using-features.CNAMESwap.html)

 **Zugehörige Videos:** 
+ [re:Invent 2020 \$1 Vollständige Automatisierung: Automatisieren der Pipelines für kontinuierliche Bereitstellung bei Amazon](https://www.youtube.com/watch?v=ngnMj1zbMPY)
+ [re:Invent 2019 \$1 Der Amazon-Ansatz für die Hochverfügbarkeitsbereitstellung](https://www.youtube.com/watch?v=bCgD2bX1LI4)

 **Zugehörige Beispiele:** 
+ [Testen einer Blau/Grün-Beispielbereitstellung in AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/applications-create-blue-green.html)
+ [ Workshop \$1 Entwicklung von CI/CD-Pipelines für Lambda-Canary-Bereitstellungen mit AWS CDK](https://catalog.workshops.aws/cdk-cicd-for-lambda-canary-deployment/en-US) 
+ [ Workshop \$1 Entwicklung Ihrer ersten DevOps-Blue/Green-Pipeline mit Amazon ECS ](https://catalog.us-east-1.prod.workshops.aws/workshops/4b59b9fb-48b6-461c-9377-907b2e33c9df/en-US)
+ [ Workshop \$1 Entwicklung Ihrer ersten DevOps-Blue/Green-Pipeline mit Amazon EKS ](https://catalog.us-east-1.prod.workshops.aws/workshops/4eab6682-09b2-43e5-93d4-1f58fd6cff6e/en-US)
+ [ Workshop \$1 EKS GitOps mit ArgoCD ](https://catalog.workshops.aws/eksgitops-argocd-githubactions)
+ [ Workshop \$1 CI/CD in AWS Workshop ](https://catalog.workshops.aws/cicdonaws/en-US)
+ [ Implementierung von kontenübergreifendem CI/CD mit AWS SAM für containerbasierte Lambda-Funktionen ](https://aws.amazon.com/blogs/compute/implementing-cross-account-cicd-with-aws-sam-for-container-based-lambda/)

# OPS06-BP04 Automatisieren Sie Tests und Rollback
<a name="ops_mit_deploy_risks_auto_testing_and_rollback"></a>

 Um die Geschwindigkeit, Zuverlässigkeit und Sicherheit Ihres Bereitstellungsprozesses zu erhöhen, sollten Sie eine Strategie für automatisierte Test- und Rollback-Funktionen in Vorproduktions- und Produktionsumgebungen entwickeln. Automatisieren Sie Tests bei der Bereitstellung in der Produktion, um Interaktionen zwischen Mensch und System zu simulieren und die bereitgestellten Änderungen zu überprüfen. Automatisieren Sie das Rollback, um schnell zu einem als funktionierend bekannten Zustand zurückkehren zu können. Das Rollback sollte unter vordefinierten Bedingungen automatisch eingeleitet werden, z. B. wenn das gewünschte Ergebnis einer Änderung nicht erreicht wird oder wenn der automatisierte Test fehlschlägt. Die Automatisierung dieser beiden Aktivitäten verbessert Ihre Erfolgsquote bei Bereitstellungen, minimiert die Wiederherstellungszeit und reduziert die potenziellen Auswirkungen auf das Unternehmen. 

 **Gewünschtes Ergebnis:** Ihre automatisierten Tests und Rollback-Strategien sind in Ihre CI/CD-Pipeline (Continuous Integration/Continuous Delivery, kontinuierliche Integration/kontinuierliche Bereitstellung) integriert. Ihre Überwachung kann Validierungen anhand Ihrer Erfolgskriterien ausführen und bei einem Fehler ein automatisches Rollback einleiten. Dadurch werden die Auswirkungen auf Endbenutzer und Kunden minimiert. Wenn beispielsweise alle Testergebnisse den Anforderungen entsprechen, übertragen Sie Ihren Code in die Produktionsumgebung, wo automatisierte Regressionstests unter Verwendung derselben Testfälle eingeleitet werden. Wenn die Ergebnisse der Regressionstests nicht den Erwartungen entsprechen, wird im Pipeline-Workflow ein automatisiertes Rollback eingeleitet. 

 **Typische Anti-Muster:** 
+  Ihre Systeme sind nicht so konzipiert, dass sie mit kleineren Releases aktualisiert werden können. Daher haben Sie Schwierigkeiten, die Bulk-Änderungen während einer fehlgeschlagenen Bereitstellung rückgängig zu machen. 
+  Ihr Bereitstellungsprozess besteht aus einer Reihe manueller Schritte. Nachdem Sie Änderungen an Ihrer Workload bereitgestellt haben, beginnen Sie mit den Tests nach der Bereitstellung. Danach bemerken Sie, dass Ihre Workload nicht mehr funktioniert und die Verbindung der Kunden getrennt wird. Sie starten das Rollback zur vorherigen Version. All diese manuellen Schritte verzögern die allgemeine Systemwiederherstellung und wirken sich nachhaltig auf Ihre Kunden aus. 
+  Sie haben Zeit dafür aufgewendet, automatisierte Testfälle für Funktionen zu entwickeln, die in Ihrer Anwendung nicht häufig verwendet werden. Dadurch amortisiert sich die Investition in Ihre automatisierten Testfunktionen nur schlecht. 
+  Ihre Version besteht aus Anwendungs-, Infrastruktur-, Patch- und Konfigurations-Updates, die voneinander unabhängig sind. Sie haben jedoch nur eine CI/CD-Pipeline, die alle Änderungen gleichzeitig bereitstellt. Ein Fehler in einer Komponente zwingt Sie, alle Änderungen rückgängig zu machen, wodurch Ihr Rollback komplex und ineffizient wird. 
+  Ihr Team schließt die Programmierarbeiten im ersten Sprint ab und beginnt mit dem zweiten Sprint, aber Ihr Plan sieht Tests erst im dritten Sprint vor. Deshalb haben automatisierte Tests Fehler aus dem ersten Sprint aufgedeckt, die behoben werden müssen, bevor mit dem Testen der Ergebnisse von Sprint zwei begonnen werden kann. Der gesamte Release verzögert sich, wodurch der Wert Ihrer automatisierten Tests erheblich verringert wird. 
+  Ihre automatisierten Regressionstestfälle für die Produktionsversion sind abgeschlossen, aber Sie überwachen den Zustand der Workloads nicht. Da Sie nicht sehen können, ob der Dienst neu gestartet wurde oder nicht, sind Sie sich nicht sicher, ob ein Rollback erforderlich ist oder bereits stattgefunden hat. 

 **Vorteile der Nutzung dieser bewährten Methode:** Automatisierte Tests erhöhen die Transparenz Ihres Testprozesses und Ihre Fähigkeit, mehr Funktionen in kürzerer Zeit abzudecken. Durch das Testen und Validieren von Änderungen in der Produktionsphase können Sie Probleme sofort identifizieren. Die Verbesserung der Konsistenz mit automatisierten Testtools ermöglicht eine bessere Fehlererkennung. Durch das automatische Rollback zur vorherigen Version werden die Auswirkungen für Ihre Kunden minimiert. Ein automatisiertes Rollback sorgt letztendlich für mehr Vertrauen in Ihre Bereitstellungsfunktionen, da es die Auswirkungen auf Ihr Unternehmen verringert. Insgesamt verringern time-to-delivery sich diese Fähigkeiten bei gleichbleibender Qualität. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Automatisieren Sie die Tests von bereitgestellten Umgebungen, um schneller die gewünschten Ergebnisse zu erreichen. Automatisieren Sie den Rollback zu einem bekanntermaßen funktionierenden vorherigen Zustand, wenn die zuvor definierten Ergebnisse nicht erzielt werden. So können Sie die Wiederherstellungszeit minimieren und verringern Fehler, die durch manuelle Prozesse entstehen. Integrieren Sie Testtools in Ihren Pipeline-Workflow, um manuelle Eingaben konsistent zu testen und zu minimieren. Priorisieren Sie die Automatisierung von Testfällen, z. B. Tests, die die größten Risiken minimieren und die bei jeder Änderung häufig durchgeführt werden müssen. Automatisieren Sie außerdem das Rollback auf Grundlage bestimmter Bedingungen, die in Ihrem Testplan vordefiniert sind. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  Richten Sie einen Testlebenszyklus für Ihren Entwicklungslebenszyklus ein, in dem jede Phase des Testprozesses definiert wird. Dies reicht von der Anforderungsplanung über die Testfallentwicklung, die Toolkonfiguration, das automatisierte Testen bis hin zum Abschluss des Testfalls. 

   1.  Erstellen Sie anhand Ihrer gesamten Teststrategie einen Workload-spezifischen Testansatz. 

   1.  Ziehen Sie eine Strategie für kontinuierliche Tests während des gesamten Entwicklungszyklus in Erwägung. 

1.  Wählen Sie in Abhängigkeit von Ihren Geschäftsanforderungen und Pipeline-Investitionen automatisierte Tools für Tests und Rollbacks aus. 

1.  Entscheiden Sie, welche Testfälle Sie automatisieren möchten und welche manuell durchgeführt werden sollen. Dies kann auf Grundlage des geschäftlichen Nutzens des getesteten Features definiert werden. Informieren Sie alle Teammitglieder über diesen Plan und legen Sie fest, wer für die Durchführung manueller Tests verantwortlich ist. 

   1.  Wenden Sie automatisierte Testfunktionen auf bestimmte Testfälle an, die für die Automatisierung sinnvoll sind, z. B. wiederholbare oder häufig ausgeführte Fälle, Fälle, die sich wiederholende Aufgaben erfordern, oder solche, die für mehrere Konfigurationen erforderlich sind. 

   1.  Definieren Sie Skripts für die Testautomatisierung sowie die Erfolgskriterien im Automatisierungstool, sodass eine kontinuierliche Workflow-Automatisierung initiiert werden kann, wenn bei bestimmten Fällen Fehler auftreten. 

   1.  Definieren Sie spezifische Fehlerkriterien für das automatisierte Rollback. 

1.  Priorisieren Sie die Testautomatisierung, um konsistente Ergebnisse mit einer gründlichen Testfallentwicklung zu erzielen, bei der Komplexität und menschliche Interaktion ein höheres Ausfallrisiko darstellen. 

1.  Integrieren Sie Ihre automatisierten Test- und Rollback-Tools in Ihre CI/CD-Pipeline. 

   1.  Entwickeln Sie klare Erfolgskriterien für Ihre Änderungen. 

   1.  Überwachen und beobachten Sie Ihre Umgebung, um diese Kriterien zu erkennen und Änderungen automatisch rückgängig zu machen, wenn bestimmte Rollback-Kriterien erfüllt werden. 

1.  Führen Sie verschiedene Arten automatisierter Produktionstests durch, z. B.: 

   1.  A/B-Tests zur Anzeige von Ergebnissen im Vergleich zur aktuellen Version zwischen zwei Benutzertestgruppen. 

   1.  Canary-Tests, mit denen Sie Ihre Änderung für eine Untergruppe von Benutzern bereitstellen können, bevor Sie sie für alle freigeben. 

   1.  Testen mit Feature-Flags, wobei jeweils eine einzelne Funktion der neuen Version außerhalb der Anwendung ein- und ausgeschaltet werden kann, sodass alle neuen Funktionen einzeln validiert werden können. 

   1.  Regressionstests zur Überprüfung neuer Funktionen mit bestehenden, miteinander verbundenen Komponenten. 

1.  Überwachen Sie die betrieblichen Aspekte der Anwendung, Transaktionen und Interaktionen mit anderen Anwendungen und Komponenten. Entwickeln Sie Berichte, um den Erfolg von Änderungen nach Workload aufzuzeigen, sodass Sie erkennen können, welche Teile der Automatisierung und des Workflows weiter optimiert werden können. 

   1.  Entwickeln Sie Testergebnisberichte, anhand derer Sie schnell entscheiden können, ob Rollback-Verfahren eingeleitet werden sollten oder nicht. 

   1.  Implementieren Sie eine Strategie, die ein automatisiertes Rollback auf Grundlage vordefinierter Fehlerbedingungen ermöglicht, die sich aus einer oder mehreren Ihrer Testmethoden ergeben. 

1.  Entwickeln Sie Ihre automatisierten Testfälle so, dass sie bei zukünftigen wiederholbaren Änderungen wiederverwendet werden können. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS06-BP01 Plan für erfolglose Änderungen](ops_mit_deploy_risks_plan_for_unsucessful_changes.md) 
+  [OPS06-BP02 Testbereitstellungen](ops_mit_deploy_risks_test_val_chg.md) 

 **Zugehörige Dokumente:** 
+ [AWS Builders Library \$1 Gewährleistung der Rollback-Sicherheit bei Bereitstellungen](https://aws.amazon.com/builders-library/ensuring-rollback-safety-during-deployments/)
+  [Eine Bereitstellung erneut bereitstellen und rückgängig machen mit AWS CodeDeploy](https://docs.aws.amazon.com/codedeploy/latest/userguide/deployments-rollback-and-redeploy.html) 
+ [8 bewährte Methoden für die Automatisierung Ihrer Bereitstellungen mit AWS CloudFormation](https://aws.amazon.com/blogs/infrastructure-and-automation/best-practices-automating-deployments-with-aws-cloudformation/)

 **Zugehörige Beispiele:** 
+ [Testen von Benutzeroberflächen ohne Server mit Selenium, AWS Lambda, und Developer Tools AWS FargateAWS](https://aws.amazon.com/blogs/devops/using-aws-codepipeline-aws-codebuild-and-aws-lambda-for-serverless-automated-ui-testing/)

 **Zugehörige Videos:** 
+ [ re:Invent 2020 \$1 Vollständige Automatisierung: Automatisieren der Pipelines für kontinuierliche Bereitstellung bei Amazon ](https://www.youtube.com/watch?v=ngnMj1zbMPY)
+ [ re:Invent 2019 \$1 Der Amazon-Ansatz für die Hochverfügbarkeitsbereitstellung ](https://www.youtube.com/watch?v=bCgD2bX1LI4)

# OPS 7. Wie bringen Sie in Erfahrung, ob Sie für die Unterstützung eines Workloads bereit sind?
<a name="ops-07"></a>

 Bewerten Sie die Betriebsbereitschaft Ihrer Workloads, von Prozessen und Verfahren sowie Ihrer Mitarbeiter, damit Sie die betrieblichen Risiken im Zusammenhang mit Ihrer Workload genau kennen. 

**Topics**
+ [

# OPS07-BP01 Sicherstellen des Know-hows der Mitarbeiter
](ops_ready_to_support_personnel_capability.md)
+ [

# OPS07-BP02 Sicherstellen einer konsistenten Prüfung der betrieblichen Bereitschaft
](ops_ready_to_support_const_orr.md)
+ [

# OPS07-BP03 Verwenden von Runbooks zur Durchführung von Verfahren
](ops_ready_to_support_use_runbooks.md)
+ [

# OPS07-BP04 Verwenden von Playbooks zum Untersuchen von Problemen
](ops_ready_to_support_use_playbooks.md)
+ [

# OPS07-BP05 Treffen fundierter Entscheidungen für die Bereitstellung von Systemen und Änderungen
](ops_ready_to_support_informed_deploy_decisions.md)
+ [

# OPS07-BP06 Erstellen von Supportplänen für Produktions-Workloads
](ops_ready_to_support_enable_support_plans.md)

# OPS07-BP01 Sicherstellen des Know-hows der Mitarbeiter
<a name="ops_ready_to_support_personnel_capability"></a>

Stellen Sie einen Mechanismus bereit, mit dem Sie prüfen können, ob Sie über ausreichend trainierte Mitarbeiter zur Unterstützung der Workload verfügen. Sie müssen für die Plattform und die Services, die Ihre Workload ausmachen, trainiert sein. Stellen Sie ihnen die Informationen zur Verfügung, die sie zum Betrieb des Workloads benötigen. Sie müssen über genügend geschulte Mitarbeiter verfügen, um den normalen Betrieb der Workload zu unterstützen und auftretende Probleme zu beheben. Sorgen Sie für genügend Mitarbeiter, sodass Sie Bereitschaftsdienste und Urlaubsvertretungen abwechseln können, um Burnouts zu vermeiden. 

 **Gewünschtes Ergebnis:** 
+  Es gibt genügend trainierte Mitarbeiter, um die Workload im Rahmen des Verfügbarkeitszeitraums zu unterstützen. 
+  Sie trainieren Ihre Mitarbeiter für die Software und Services, die Ihre Workload ausmachen. 

 **Typische Anti-Muster:** 
+ Bereitstellen einer Workload ohne Teammitglieder, die für den Betrieb der Plattform und der genutzten Services trainiert sind. 
+  Sie haben nicht genug Mitarbeiter, um wechselnde Bereitschaftsdienste oder Urlaubszeiten abzudecken. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Wenn Sie über qualifizierte Teammitglieder verfügen, können diese Ihre Workload effektiv unterstützen. 
+  Mit einer ausreichenden Anzahl von Teammitgliedern können Sie den Workload und die Rotation der Bereitschaftsdienste unterstützen und gleichzeitig das Risiko eines Burnouts verringern. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Validieren Sie, ob ausreichend trainierte Mitarbeiter für den Support des Workloads vorhanden sind. Vergewissern Sie sich, dass Sie über genügend Teammitglieder verfügen, um die normalen operativen Aktivitäten, einschließlich Einsatzbereitschaftsdienste, abzudecken. 

 **Kundenbeispiel** 

 AnyCompany Retail sorgt dafür, dass die Teams für die Workload angemessen besetzt und trainiert sind. Es gibt genügend Ingenieure, um wechselnde Bereitschaftsdienste zu unterstützen. Die Mitarbeiter erhalten Training, um die Software und die Workload-Plattform zu nutzen. Sie werden außerdem ermutigt, Zertifizierungen zu erwerben. Es gibt so viele Mitarbeiter, dass Urlaub möglich ist, ohne dass die Abdeckung der Workload und der rotierenden Bereitschaftsdienste unterbrochen werden muss. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  Weisen Sie eine ausreichende Anzahl von Mitarbeitern zur Ausführung und Unterstützung Ihres Workloads zu, einschließlich Bereitschaftsdiensten, Sicherheitsproblemen und Lebenszyklusereignissen, z. B. Supportende und Zertifikatrotation. 

1.  Trainieren Sie die Mitarbeiter im Umgang mit der Software und den Plattformen, aus denen Ihr Workload besteht. 

   1.  [AWS Training and Certification](https://aws.amazon.com/training/) bietet eine Bibliothek mit Kursen zu AWS. Es gibt kostenlose und kostenpflichtige Kurse – online und vor Ort. 

   1.  [AWS organisiert Veranstaltungen und Webinare](https://aws.amazon.com/events/), bei denen Sie von AWS-Experten lernen. 

1. Führen Sie Folgendes regelmäßig aus. 
   +  Bewerten Sie regelmäßig Größe und Kompetenzen des Teams, wenn sich operative Bedingungen und Workloads verändern. 
   +  Passen Sie die Größe und Fähigkeiten des Teams an die operativen Anforderungen an. 
   +  Überprüfen Sie, ob die nötigen Fähigkeiten und Kapazitäten vorhanden sind, um [geplante Lebenszyklusereignisse](https://docs.aws.amazon.com/health/latest/ug/aws-health-planned-lifecycle-events.html), ungeplante Sicherheitsprobleme und operative Benachrichtigungen mittels AWS Health zu behandeln. 

 **Aufwand für den Implementierungsplan:** Hoch. Das Einstellen und Trainieren eines Teams zur Unterstützung einer Workload kann einen erheblichen Aufwand darstellen, bietet aber langfristig einen bedeutenden Nutzen. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS11-BP04 Wissensmanagement durchführen](ops_evolve_ops_knowledge_management.md) – Die Teammitglieder müssen über die notwendigen Informationen verfügen, um die Workload zu betreiben und zu unterstützen. Der Schlüssel dazu ist das Wissensmanagement. 

 **Zugehörige Dokumente:** 
+  [AWS-Veranstaltungen und -Webinare](https://aws.amazon.com/events/) 
+  [AWS Training and Certification](https://aws.amazon.com/training/) 

# OPS07-BP02 Sicherstellen einer konsistenten Prüfung der betrieblichen Bereitschaft
<a name="ops_ready_to_support_const_orr"></a>

Verwenden Sie Operational Readiness Reviews (ORRs, Überprüfungen der Einsatzbereitschaft), um zu prüfen, ob Sie Ihre Workload betreiben können. ORR ist ein bei Amazon entwickelter Mechanismus zur Prüfung, ob Teams ihre Workloads in sicherer Weise betreiben können. ORR bezeichnet einen Prüfungs- und Inspektionsprozess anhand einer Checkliste mit Anforderungen. Dies ist ein Selfservicevorgang, mit dem Teams ihre Workloads zertifizieren. ORRs beinhalten bewährte Methoden aus unseren jahrelangen Erfahrungen bei der Erstellung von Software. 

 Eine ORR-Checkliste besteht aus Architekturempfehlungen, betrieblichen Prozessen, Ereignismanagement und Freigabequalität. Unser Correction of Error (CoE)-Prozess ist dafür eine sehr wichtige Grundlage. Ihre eigene Analyse nach einem Vorfall sollte die Weiterentwicklung Ihrer eigenen ORR unterstützen. Bei einer ORR geht es nicht nur um die Umsetzung bewährter Methoden, sondern auch darum, das erneute Auftreten von Ereignissen zu verhindern. Schließlich können auch Sicherheit, Governance und Compliance zu einer ORR gehören. 

 Führen Sie eine ORR durch, bevor eine Workload zur allgemeinen Verfügbarkeit gestartet wird, und anschließend während des gesamten Softwareentwicklungslebenszyklus. Die Durchführung der ORR vor dem Start verbessert Ihre Fähigkeit zum sicheren Betrieb der Workload. Führen Sie die ORR auf der Workload regelmäßig erneut durch, um Abweichungen von bewährten Methoden zu erkennen. Sie können ORR-Checklisten für neue Serviceeinführungen oder für regelmäßige Prüfungen haben. So bleiben Sie hinsichtlich der neuen bewährten Methoden auf dem Laufenden und können Erfahrungen aus Analysen nach Vorfällen einarbeiten. Wenn Sie mit der Cloud immer vertrauter werden, können Sie ORR-Anforderungen als Standardelemente in Ihre Architektur einbauen. 

 **Gewünschtes Ergebnis:** Sie haben eine ORR-Checkliste mit bewährten Methoden für Ihre Organisation. ORRs werden vor dem Start von Workloads durchgeführt. ORRs werden im Laufe des Workload-Lebenszyklus regelmäßig durchgeführt. 

 **Typische Anti-Muster:** 
+ Sie starten eine Workload, ohne zu wissen, ob Sie diese betreiben können. 
+ Governance- und Sicherheitsanforderungen gehören nicht zur Zertifizierung einer Workload für den Start. 
+ Workloads werden nicht regelmäßig erneut bewertet. 
+ Workloads werden gestartet, ohne dass erforderliche Verfahren eingerichtet sind. 
+ Sie erleben die Wiederholung von Ausfällen mit der gleichen Ursache bei mehreren Workloads. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Ihre Workloads beinhalten bewährte Methoden für Architektur, Prozess und Management. 
+  Erkenntnisse werden in Ihren ORR-Prozess integriert. 
+  Workloads werden gestartet, wenn erforderliche Verfahren eingerichtet sind. 
+  ORRs werden über den gesamten Softwarelebenszyklus Ihrer Workloads hinweg ausgeführt. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Eine ORR ist zweierlei: ein Verfahren und eine Checkliste. Ihr ORR-Verfahren sollte von ihrer Organisation übernommen und von der Unternehmensleitung unterstützt werden. ORRs müssen mindestens durchgeführt werden, bevor Workloads zur allgemeinen Verfügbarkeit gestartet werden. Führen Sie die ORR während des gesamten Lebenszyklus der Softwareentwicklung durch, um ihn bei bewährten Methoden oder neuen Anforderungen aktuell zu halten. Die ORR-Checkliste sollte Konfigurationselemente, Sicherheits- und Governance-Elemente sowie bewährte Methoden aus Ihrer Organisation enthalten. Mit der Zeit können Sie Services wie [AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html), [AWS Security Hub CSPM](https://docs.aws.amazon.com/securityhub/latest/userguide/what-is-securityhub.html) und [Integritätsschutz von AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/guardrails.html) verwenden, um bewährte Methoden aus der ORR in den Integritätsschutz für die automatische Erkennung optimaler Verfahrensweisen aufzunehmen. 

 **Kundenbeispiel** 

 Nach mehreren Produktionsvorfällen entschied sich AnyCompany Retail, einen ORR-Prozess zu implementieren. Das Unternehmen erstellte eine Checkliste mit bewährten Methoden sowie Governance- und Complianceanforderungen und Erfahrungen aus früheren Ausfällen. Für neue Workloads werden vor dem Start ORRs durchgeführt. Für jede Workload wird eine jährliche ORR mit einer Teilmenge der bewährten Methoden durchgeführt, um neue bewährte Methoden und Anforderungen umzusetzen, die der ORR-Checkliste hinzugefügt werden. Mit der Zeit verwendete AnyCompany Retail [AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html) zur Aufdeckung einiger bewährter Methoden, was den ORR-Prozess beschleunigte. 

 **Implementierungsschritte** 

 Weitere Informationen zu ORRs finden Sie im [Whitepaper zur Überprüfung der betrieblichen Bereitschaft (ORR)](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/wa-operational-readiness-reviews.html). Hier finden Sie ausführliche Informationen zur Geschichte des ORR-Verfahrens, zum Aufbau Ihrer eigenen ORR-Praxis und zur Erstellung Ihrer ORR-Checkliste. Die folgenden Schritte sind eine verkürzte Version dieses Dokuments. Für ein vertieftes Verständnis des ORR-Konzepts und der Erstellung eigener ORRs empfehlen wir, das Whitepaper zu lesen. 

1. Bringen Sie die wichtigsten Stakeholder zusammen, darunter auch Vertreter aus den Bereichen Sicherheit, Operations und Entwicklung. 

1. Lassen Sie alle Stakeholder mindestens eine Anforderung beisteuern. Versuchen Sie für den ersten Durchgang die Anzahl der Elemente auf höchstens dreißig zu beschränken. 
   +  [Anhang B: Beispielfragen für ORRs](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/appendix-b-example-orr-questions.html) aus dem ORR-Whitepaper enthält Beispielfragen, die Ihnen beim Start helfen können. 

1. Fassen Sie Ihre Anforderungen in einer Tabelle zusammen. 
   + Sie können [benutzerdefinierte Linsen](https://docs.aws.amazon.com/wellarchitected/latest/userguide/lenses-custom.html) im [AWS Well-Architected Tool](https://console.aws.amazon.com/wellarchiected/) verwenden, um Ihre ORR zu entwickeln und an Ihre Konten und die AWS-Organisation weiterzugeben. 

1. Identifizieren Sie eine Workload für die ORR. Ideal ist dafür eine Pre-Launch-Workload oder eine interne Workload. 

1. Gehen Sie die ORR-Checkliste durch und notieren Sie alle Erkenntnisse. Erkenntnisse sind möglicherweise akzeptabel, wenn eine Behebung vorhanden ist. Fügen Sie alle Erkenntnisse ohne Behebung Ihrer Liste hinzu und implementieren Sie die Behebungen vor dem Start. 

1. Fügen Sie Ihrer ORR-Checkliste stets weitere bewährte Methoden und Anforderungen hinzu. 

 Support-Kunden mit Enterprise Support können den [Workshop zur Überprüfung der betrieblichen Bereitschaft](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/) bei ihrem Technical Account Manager anfordern. Der Workshop ist eine interaktive *Working Backwards*-Sitzung zur Entwicklung Ihrer eigenen ORR-Checkliste. 

 **Aufwand für den Implementierungsplan:** Hoch. Die Einführung einer ORR-Praxis in Ihrer Organisation erfordert die Unterstützung durch Führungskräfte und alle Stakeholder. Erstellen und aktualisieren Sie die Checkliste mit Beiträgen aus der gesamten Organisation. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+ [OPS01-BP03 Bewertung der Governance-Anforderungen](ops_priorities_governance_reqs.md) – Governance-Anforderungen passen perfekt zu einer ORR-Checkliste. 
+ [OPS01-BP04 Bewerten der Compliance-Anforderungen](ops_priorities_compliance_reqs.md) – Complianceanforderungen werden manchmal auf ORR-Checklisten berücksichtigt. Ansonsten sind sie ein separater Prozess. 
+ [OPS03-BP07 Ressourcenteams angemessen](ops_org_culture_team_res_appro.md) – Die Teamkapazität ist ein guter Kandidat für eine ORR-Anforderung. 
+ [OPS06-BP01 Plan für erfolglose Änderungen](ops_mit_deploy_risks_plan_for_unsucessful_changes.md) – Vor dem Start Ihrer Workload muss ein Rollback- oder Rollforward-Plan eingerichtet werden. 
+ [OPS07-BP01 Sicherstellen des Know-hows der Mitarbeiter](ops_ready_to_support_personnel_capability.md) – Zur Unterstützung einer Workload benötigen Sie das erforderliche Personal. 
+ [SEC01-BP03 Identifizieren und Validieren von Kontrollzielen](https://docs.aws.amazon.com/wellarchitected/latest/framework/sec_securely_operate_control_objectives.html) – Sicherheitskontrollziele sind hervorragende ORR-Anforderungen. 
+ [REL13-BP01 Definieren von Wiederherstellungszielen bei Ausfällen und Datenverlusten](https://docs.aws.amazon.com/wellarchitected/latest/framework/rel_planning_for_recovery_objective_defined_recovery.html) – Notfallwiederherstellungspläne sind eine gute ORR-Anforderung. 
+ [COST02-BP01 Entwickeln von Richtlinien auf Basis Ihrer Organisationsanforderungen](https://docs.aws.amazon.com/wellarchitected/latest/framework/cost_govern_usage_policies.html) – Kostenmanagementrichtlinien sind für Ihre ORR-Checkliste gut geeignet. 

 **Zugehörige Dokumente:** 
+  [AWS Control Tower – Integritätsschutz in AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/guardrails.html) 
+  [AWS Well-Architected Tool – Fokusbereiche](https://docs.aws.amazon.com/wellarchitected/latest/userguide/lenses-custom.html) 
+  [Operational Readiness Review Template von Adrian Hornsby](https://medium.com/the-cloud-architect/operational-readiness-review-template-e23a4bfd8d79) 
+  [Whitepaper zur Überprüfung der betrieblichen Bereitschaft (ORR)](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/wa-operational-readiness-reviews.html) 

 **Zugehörige Videos:** 
+  [AWS Supports You \$1 Entwickeln einer effektiven Überprüfung der betrieblichen Bereitschaft (ORR)](https://www.youtube.com/watch?v=Keo6zWMQqS8) 

 **Zugehörige Beispiele:** 
+  [Sample Operational Readiness Review (ORR)-Fokusbereich](https://github.com/aws-samples/custom-lens-wa-sample/tree/main/ORR-Lens) 

 **Zugehörige Services:** 
+  [AWS Config](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html) 
+  [AWS Control Tower](https://docs.aws.amazon.com/controltower/latest/userguide/what-is-control-tower.html) 
+  [AWS Security Hub CSPM](https://docs.aws.amazon.com/securityhub/latest/userguide/what-is-securityhub.html) 
+  [AWS Well-Architected Tool](https://docs.aws.amazon.com/wellarchitected/latest/userguide/intro.html) 

# OPS07-BP03 Verwenden von Runbooks zur Durchführung von Verfahren
<a name="ops_ready_to_support_use_runbooks"></a>

 Ein *Runbook* ist ein dokumentierter Prozess für das Erreichen eines bestimmten Ergebnisses. Runbooks bestehen aus einer Reihe von Schritten, die befolgt werden sollen, um ein Ergebnis zu erzielen. Runbooks werden schon seit den frühen Tagen der Luftfahrt verwendet. Im Cloud-Bereich werden Runbooks verwendet, um die Risiken zu reduzieren und die gewünschten Ergebnisse zu erzielen. In der einfachsten Form ist ein Runbook eine Checkliste für die Durchführung einer Aufgabe. 

 Runbooks stellen einen kritischen Teil der Ausführung Ihrer Workload dar. Vom Onboarding eines neuen Teammitglieds bis zur Bereitstellung einer Hauptversion – Runbooks stellen kodifizierte Prozesse dar, mit denen unabhängig von der ausführenden Person konsistente Ergebnisse erzielt werden können. Runbooks sollten an einer zentralen Stelle veröffentlicht werden. Wenn sich der Prozess verändert, sollten sie aktualisiert werden; dies stellt eine zentrale Komponente des Änderungsmanagements dar. Sie sollten auch Anleitungen für Fehlerbehandlung, Tools, Berechtigungen, Ausnahmen und Eskalationen enthalten, falls ein Problem auftritt. 

 Wenn sich Ihre Organisation entwickelt, sollten Sie mit der Automatisierung von Runbooks beginnen. Sie sollten zunächst Runbooks automatisieren, die kurz sind und häufig verwendet werden. Verwenden Sie Skriptsprachen, um Schritte zu automatisieren oder ihre Ausführung zu vereinfachen. Nach der Automatisierung der ersten Runbooks können Sie komplexere Runbooks automatisieren. Mit der Zeit sollten die meisten Ihrer Runbooks auf die eine oder andere Art automatisiert werden. 

 **Gewünschtes Ergebnis:** Ihr Team besitzt eine Sammlung von Schritt-für-Schritt-Anleitungen für die Ausführung von Workload-Aufgaben. Die Runbooks enthalten Angaben zum gewünschten Ergebnis sowie zu notwendigen Tools und Berechtigungen. Darüber hinaus stellen sie Anleitungen für die Fehlerbehandlung bereit. Sie werden an einem zentralen Ort (Versionskontrollsystem) gespeichert und regelmäßig aktualisiert. Ihre Runbooks bieten Ihren Teams beispielsweise die Möglichkeit, AWS Health-Ereignisse für kritische Konten bei Anwendungsalarmen, Betriebsproblemen und geplanten Lebenszyklusereignissen zu überwachen, zu kommunizieren und darauf zu reagieren. 

 **Typische Anti-Muster:** 
+  Verlassen auf das Gedächtnis, um die einzelnen Schritte in einem Prozess durchzuführen. 
+  Manuelle Bereitstellung von Änderungen ohne Checkliste. 
+  Verschiedene Teammitglieder führen den gleichen Prozess aus, aber mit unterschiedlichen Schritten oder Ergebnissen. 
+  Runbooks sind nicht mehr mit Systemänderungen und Automatisierungen synchronisiert. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Reduzierung der Fehlerquoten für manuelle Aufgaben. 
+  Prozesse werden konsistent ausgeführt. 
+  Neue Teammitglieder können schneller mit der Ausführung von Aufgaben beginnen. 
+  Runbooks können automatisiert werden, um den Aufwand zu reduzieren. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Runbooks können verschiedene Formen annehmen, abhängig vom Entwicklungsstand Ihrer Organisation. Sie sollten mindestens aus einem Schritt-für-Schritt-Textdokument bestehen. Das gewünschte Ergebnis sollte klar angegeben werden. Dokumentieren Sie klar die notwendigen Berechtigungen oder Tools. Stellen Sie für den Fall, dass etwas nicht funktioniert, detaillierte Anleitungen für Fehlerbehandlung und Eskalation bereit. Nennen Sie die Person, die für das Runbook verantwortlich ist, und veröffentlichen Sie es an einer zentralen Stelle. Validieren Sie das Runbook, nachdem Sie es dokumentiert haben, indem Sie es von einem Teammitglied ausführen lassen. Mit der weiteren Entwicklung der Verfahren sollten Sie Ihre Runbooks entsprechend Ihrem Prozess für das Änderungsmanagement aktualisieren. 

 Ihre textbasierten Runbooks sollten mit zunehmender Entwicklung Ihrer Organisation automatisiert werden. Mit Services wie [AWS-Systems-Manager-Automatisierungen](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html) können Sie Textdateien zu Automatisierungen transformieren, die Sie für Ihre Workload ausführen können. Diese Automatisierungen können als Reaktion auf Ereignisse ausgeführt werden, was den operativen Aufwand für die Wartung der Workload reduziert. AWS Systems Manager Automation bietet außerdem ein [visuelles Low-Code-Design](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-visual-designer.html), um Automatisierungs-Runbooks einfacher zu erstellen. 

 **Kundenbeispiel** 

 AnyCompany Retail muss während Softwarebereitstellungen die Datenbankschemata aktualisieren. Das Cloud Operations-Team entwickelt gemeinsam mit dem Datenbankverwaltungsteam ein Runbook für die manuelle Bereitstellung dieser Änderungen. In diesem Runbook werden die einzelnen Prozessschritte in Form einer Checkliste aufgelistet. Es enthält für den Fall, dass es ein Problem gibt, auch einen Abschnitt zur Fehlerbehandlung. Das Runbook wird wie die übrigen Runbooks im internen Wiki veröffentlicht. Das Cloud Operations-Team plant, das Runbook in der Zukunft zu automatisieren. 

### Implementierungsschritte
<a name="implementation-steps"></a>

 Wenn Sie noch kein Dokumenten-Repository besitzen, dann ist ein Repository für die Versionskontrolle hervorragend als Grundlage für Ihre Runbook-Bibliothek geeignet. Sie können Ihre Runbooks mithilfe von Markdown erstellen. Wir haben eine Runbook-Beispielvorlage bereitgestellt, die Sie für die Erstellung von Runbooks verwenden können. 

```
# Runbook Title
## Runbook Info
| Runbook ID | Description | Tools Used | Special Permissions | Runbook Author | Last Updated | Escalation POC | 
|-------|-------|-------|-------|-------|-------|-------|
| RUN001 | What is this runbook for? What is the desired outcome? | Tools | Permissions | Your Name | 2022-09-21 | Escalation Name |
## Steps
1. Step one
2. Step two
```

1.  Wenn Sie noch kein Dokumentations-Repository oder -Wiki besitzen, sollten Sie in Ihrem Versionskontrollsystem ein neues Versionskontroll-Repository erstellen. 

1.  Identifizieren Sie einen Prozess, für den es kein Runbook gibt. Ein idealer Prozess hierfür ist ein Prozess, der halbregelmäßig ausgeführt wird, nur wenige Schritte enthält und bei Fehlern nur geringe Auswirkungen hat. 

1.  Erstellen Sie in Ihrem Dokument-Repository ein neues Markdown-Entwurfsdokument auf der Basis der Vorlage. Füllen Sie den Runbook-Titel und die Pflichtfelder unter Runbook-Informationen aus. 

1.  Füllen Sie ab dem ersten Schritt den Abschnitt Schritte im Runbook aus. 

1.  Geben Sie das Runbook einem Teammitglied. Lassen Sie das Teammitglied das Runbook ausführen, um die Schritte zu validieren. Aktualisieren Sie das Runbook, wenn etwas fehlt oder unklar ist. 

1.  Veröffentlichen Sie das Runbook in Ihrem internen Dokumentationsspeicher. Informieren Sie Ihr Team und die übrigen Stakeholder über das Runbook, nachdem es veröffentlicht wurde. 

1.  Mit der Zeit entsteht dadurch eine Bibliothek von Runbooks. Beginnen Sie mit der Automatisierung von Runbooks, wenn diese Bibliothek wächst. 

 **Aufwand für den Implementierungsplan:** Niedrig. Eine Schritt-für-Schritt-Anleitung in Textform ist der Mindeststandard für ein Runbook. Die Automatisierung von Runbooks kann den Implementierungsaufwand erhöhen. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS02-BP02 Prozesse und Verfahren haben feste Besitzer](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_proc_owners.html) 
+  [OPS07-BP04 Verwenden von Playbooks zum Untersuchen von Problemen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ready_to_support_use_playbooks.html) 
+  [OPS10-BP01 Verwenden eines Prozesses für die Bewältigung von Ereignissen, Vorfällen und Problemen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_event_incident_problem_process.html) 
+  [OPS10-BP02 Implementieren eines Prozesses für jede Warnmeldung](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_process_per_alert.html) 
+  [OPS11-BP04 Wissensmanagement](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_knowledge_management.html) 

 **Zugehörige Dokumente:** 
+  [Operative Kompetenz durch automatisierte Playbooks und Runbooks](https://aws.amazon.com/blogs/mt/achieving-operational-excellence-using-automated-playbook-and-runbook/) 
+  [AWS Systems Manager: Working with runbooks](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html) 
+  [Migrations-Playbook für große AWS-Migrationen – Aufgabe 4: Verbesserung Ihrer Migrations-Runbooks](https://docs.aws.amazon.com/prescriptive-guidance/latest/large-migration-migration-playbook/task-four-migration-runbooks.html) 
+  [Use AWS Systems Manager Automation runbooks to resolve operational tasks](https://aws.amazon.com/blogs/mt/use-aws-systems-manager-automation-runbooks-to-resolve-operational-tasks/) 

 **Zugehörige Videos:** 
+  [AWS re:Invent 2019: DIY-Leitfaden für Runbooks, Vorfallberichte und Vorfallreaktion](https://www.youtube.com/watch?v=E1NaYN_fJUo) 
+  [How to automate IT Operations on AWS \$1 Amazon Web Services](https://www.youtube.com/watch?v=GuWj_mlyTug) 
+  [Integrate Scripts into AWS Systems Manager](https://www.youtube.com/watch?v=Seh1RbnF-uE) 

 **Zugehörige Beispiele:** 
+  [Well-Architected Labs: Automatisieren von Vorgängen mit Playbooks und Runbooks](https://wellarchitectedlabs.com/operational-excellence/200_labs/200_automating_operations_with_playbooks_and_runbooks/) 
+  [AWS Blogbeitrag: Aufbau einer Cloud-Automatisierungspraxis für operative Exzellenz: Bewährte Methoden von AWS Managed Services](https://aws.amazon.com/blogs/mt/build-a-cloud-automation-practice-for-operational-excellence-best-practices-from-aws-managed-services/) 
+  [AWS Systems Manager: Automation walkthroughs](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk.html) 
+  [AWS Systems Manager: Restore a root volume from the latest snapshot runbook](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-document-sample-restore.html) 
+  [Building an AWS incident response runbook using Jupyter notebooks and CloudTrail Lake](https://catalog.us-east-1.prod.workshops.aws/workshops/a5801f0c-7bd6-4282-91ae-4dfeb926a035/en-US) 
+  [Gitlab – Runbooks](https://gitlab.com/gitlab-com/runbooks) 
+  [Rubix – eine Python-Bibliothek für die Erstellung von Runbooks in Jupyter Notebooks](https://github.com/Nurtch/rubix) 
+  [Verwenden von Document Builder zum Erstellen eines benutzerdefinierten Runbooks](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk-document-builder.html) 

 **Zugehörige Services:** 
+  [AWS Systems Manager Automation](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html) 

# OPS07-BP04 Verwenden von Playbooks zum Untersuchen von Problemen
<a name="ops_ready_to_support_use_playbooks"></a>

 *Playbooks* sind Schritt-für-Schritt-Anleitungen zur Untersuchung von Vorfällen. Wenn Vorfälle auftreten, werden Playbooks verwendet, um sie zu untersuchen, die Auswirkungen abzuschätzen und Ursachen zu identifizieren. Playbooks werden für verschiedene Szenarien eingesetzt, von fehlgeschlagenen Bereitstellungen bis hin zu Sicherheitsvorfällen. In vielen Fällen identifizieren Playbooks Ursachen, die dann mithilfe eines Runbooks beseitigt werden. Playbooks sind eine sehr wichtige Komponente der Vorfallreaktionspläne Ihrer Organisation. 

 Ein gutes Playbook weist einige zentrale Merkmale auf. Es leitet den Benutzer Schritt für Schritt durch den Erkennungsprozess. Welche Schritte sollten befolgt werden, um einen Vorfall zu diagnostizieren? Legen Sie im Playbook klar fest, ob bestimmte Tools oder erhöhte Berechtigungen benötigt werden. Ein wichtiger Teil ist ein Kommunikationsplan, um alle Stakeholder über den Status der Untersuchung zu informieren. Für den Fall, dass die eigentliche Ursache des Vorfalls nicht identifiziert werden kann, sollte das Playbook einen Eskalationsplan enthalten. Wenn die Ursache identifiziert wurde, sollte das Playbook auf ein Runbook verweisen, das beschreibt, wie die Ursache zu beheben ist. Playbooks sollten zentral gespeichert und regelmäßig gepflegt werden. Wenn Playbooks für bestimmte Warnungmeldungen verwendet werden, sollte Ihr Team in den Warnungmeldungen auf das Playbook verwiesen werden. 

 Im Zuge der Weiterentwicklung Ihrer Organisation sollten Sie Ihre Playbooks automatisieren. Beginnen Sie mit Playbooks für Vorfälle mit geringem Risikograd. Automatisieren Sie die Erkennungsschritte mit Skripts. Stellen Sie sicher, dass Sie über begleitende Runbooks für die Behebung typischer Ursachen verfügen. 

 **Gewünschtes Ergebnis:** Ihre Organisation verfügt über Playbooks für typische Vorfälle. Die Playbooks werden an einem zentralen Ort gespeichert und sind für Ihre Teammitglieder verfügbar. Playbooks werden häufig aktualisiert. Für alle bekannten Ursachen werden begleitende Runbooks erstellt. 

 **Typische Anti-Muster:** 
+  Es gibt kein Standardverfahren für die Untersuchung von Vorfällen. 
+  Teammitglieder verlassen sich auf ihr Gedächtnis oder allgemein vorhandenes Wissen, um eine fehlgeschlagene Bereitstellung zu beheben. 
+  Neue Teammitglieder lernen die Untersuchung von Problemen durch Ausprobieren. 
+  Es werden keine bewährten Methoden für die Untersuchung von Problemen zwischen Teams ausgetauscht. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Playbooks verbessern Ihre Fähigkeit zum Umgang mit Vorfällen. 
+  Verschiedene Teammitglieder können dasselbe Playbook verwenden, um Ursachen in konsistenter Weise zu ermitteln. 
+  Für bekannte Ursachen können Runbooks entwickelt werden, um die Wiederherstellungszeit zu verkürzen. 
+  Mit Playbooks können Teammitglieder schneller Beiträge leisten. 
+  Mit wiederholbaren Playbooks können Teams ihre Prozesse skalieren. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Wie Sie Ihre Playbooks aufbauen und verwenden, hängt vom Reifegrad Ihrer Organisation ab. Wenn Sie noch neu in der Cloud sind, erstellen Sie Playbooks in Textform in einem zentralen Dokumenten-Repository. Wenn sich Ihre Organisation weiterentwickelt, können Playbooks mit Skriptsprachen wie Python teilweise automatisiert werden. Diese Skripts können zur Beschleunigung der Untersuchung in einem Jupyter Notebook ausgeführt werden. Fortgeschrittene Organisationen haben vollständig automatisierte Playbooks für häufig auftretende Probleme, die dann mit Runbooks automatisch behoben werden. 

 Beginnen Sie die Arbeit an Ihren Playbooks mit der Auflistung typischer Vorfälle bei Ihren Workloads. Wählen Sie Playbooks zunächst für Vorfälle mit geringem Risiko, bei denen die Ursache eingegrenzt werden kann. Wenn Sie über Playbooks für einfachere Szenarien verfügen, gehen Sie zu Szenarien mit höheren Risiken oder zu Szenarien über, bei denen die Ursache nicht vollständig klar ist. 

 Ihre textbasierten Playbooks sollten mit zunehmender Entwicklung Ihrer Organisation automatisiert werden. Mit Services wie [AWS-Systems-Manager-Automatisierungen](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html) können Textdateien in Automatisierungen transformiert werden. Diese Automatisierungen können dann für Ihre Workload ausgeführt werden, um die Untersuchungen zu beschleunigen. Sie können in Reaktion auf Ereignisse aktiviert werden, wodurch sich der durchschnittliche Zeitaufwand für die Untersuchung und Behebung von Vorfällen reduziert. 

 Kunden können [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) zur Reaktion auf Vorfälle verwenden. Dieser Service bietet eine einzige Oberfläche für die Untersuchung von Vorfällen, die Information der Stakeholder über Untersuchung und Abhilfemaßnahmen und die Zusammenarbeit während des gesamten Vorgangs. Er verwendet AWS-Systems-Manager-Automatisierungen zur Beschleunigung von Untersuchung und Wiederherstellung. 

 **Kundenbeispiel** 

 Ein Produktionsvorfall hat Auswirkungen auf AnyCompany Retail. Der zuständige Techniker untersuchte das Problem mithilfe eines Playbooks. Im Zuge der einzelnen Schritte wurden die Stakeholder, die im Playbook festgelegt waren, auf dem Laufenden gehalten. Der Techniker ermittelte einen Race-Zustand in einem Backend-Service als Ursache für den Vorfall. Mithilfe eines Runbooks startete er den Service neu und brachte AnyCompany Retail so wieder online. 

### Implementierungsschritte
<a name="implementation-steps"></a>

 Wenn Sie noch kein Dokumenten-Repository besitzen, dann sollten Sie ein Versionskontroll-Repository für Ihre Playbook-Bibliothek erstellen. Sie können Ihre Playbooks mit Markdown erstellen, das mit den meisten Playbook-Automatisierungssystemen kompatibel ist. Wenn Sie neu beginnen, verwenden Sie die folgende Beispielvorlage für ein Playbook. 

```
# Playbook Title
## Playbook Info
| Playbook ID | Description | Tools Used | Special Permissions | Playbook Author | Last Updated | Escalation POC | Stakeholders | Communication Plan |
|-------|-------|-------|-------|-------|-------|-------|-------|-------|
| RUN001 | What is this playbook for? What incident is it used for? | Tools | Permissions | Your Name | 2022-09-21 | Escalation Name | Stakeholder Name | How will updates be communicated during the investigation? |
## Steps
1. Step one
2. Step two
```

1.  Wenn Sie noch kein Dokumenten-Repository oder -Wiki besitzen, sollten Sie in Ihrem Versionskontrollsystem ein neues Versionskontroll-Repository für Ihre Playbooks erstellen. 

1.  Identifizieren Sie ein typisches Problem, das eine Untersuchung erfordert. Dies sollte ein Szenario sein, bei dem die Ursache auf wenige Probleme eingegrenzt werden kann und das Risiko insgesamt niedrig ist. 

1.  Füllen Sie mithilfe der Markdown-Vorlage den Abschnitt Playbook-Name und die Felder unter Playbook-Informationen aus. 

1.  Geben Sie die Schritte zur Fehlerbehebung ein. Benennen Sie die zu treffenden Maßnahmen bzw. die zu untersuchenden Bereiche so klar wie möglich. 

1.  Geben Sie das Playbook einem Teammitglied zur Prüfung. Wenn darin etwas fehlt oder nicht klar ist, aktualisieren Sie das Playbook. 

1.  Veröffentlichen Sie Ihr Playbook in Ihrem Dokumenten-Repository und informieren Sie Ihr Team und alle Stakeholder darüber. 

1.  Diese Playbook-Bibliothek wächst mit der Zeit an. Sobald Sie mehrere Playbooks haben, beginnen Sie mithilfe von Tools wie AWS-Systems-Manager-Automatisierungen mit ihrer Automatisierung, um die Automatisierung und die Playbooks synchron zu halten. 

 **Aufwand für den Implementierungsplan:** Niedrig. Ihre Playbooks sollten an einem zentralen Ort gespeicherte Textdokumente sein. Ausgereiftere Organisationen gehen zu automatisierten Playbooks über. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS02-BP02 Prozesse und Verfahren haben feste Besitzer](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_proc_owners.html) 
+  [OPS07-BP03 Verwenden von Runbooks zur Durchführung von Verfahren](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ready_to_support_use_runbooks.html) 
+  [OPS10-BP01 Verwenden eines Prozesses für die Bewältigung von Ereignissen, Vorfällen und Problemen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_event_incident_problem_process.html) 
+  [OPS10-BP02 Implementieren eines Prozesses für jede Warnmeldung](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_process_per_alert.html) 
+  [OPS11-BP04 Wissensmanagement](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_knowledge_management.html) 

 **Zugehörige Dokumente:** 
+  [Operative Kompetenz durch automatisierte Playbooks und Runbooks](https://aws.amazon.com/blogs/mt/achieving-operational-excellence-using-automated-playbook-and-runbook/) 
+  [AWS Systems Manager: Working with runbooks](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html) 
+  [Use AWS Systems Manager Automation runbooks to resolve operational tasks](https://aws.amazon.com/blogs/mt/use-aws-systems-manager-automation-runbooks-to-resolve-operational-tasks/) 

 **Zugehörige Videos:** 
+  [AWS re:Invent 2019: DIY-Leitfaden für Runbooks, Vorfallberichte und Vorfallreaktion (SEC318-R1)](https://www.youtube.com/watch?v=E1NaYN_fJUo) 
+  [AWS Systems Manager Incident Manager - AWS Virtual Workshops](https://www.youtube.com/watch?v=KNOc0DxuBSY) 
+  [Integrate Scripts into AWS Systems Manager](https://www.youtube.com/watch?v=Seh1RbnF-uE) 

 **Zugehörige Beispiele:** 
+  [AWS Customer Playbook Framework](https://github.com/aws-samples/aws-customer-playbook-framework) 
+  [AWS Systems Manager: Automation walkthroughs](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk.html) 
+  [Building an AWS incident response runbook using Jupyter notebooks and CloudTrail Lake](https://catalog.workshops.aws/workshops/a5801f0c-7bd6-4282-91ae-4dfeb926a035/en-US) 
+  [Rubix – Eine Python-Bibliothek für die Erstellung von Runbooks in Jupyter Notebooks](https://github.com/Nurtch/rubix) 
+  [Verwenden von Document Builder zum Erstellen eines benutzerdefinierten Runbooks](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-walk-document-builder.html) 

 **Zugehörige Services:** 
+  [AWS Systems Manager Automation](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html) 
+  [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) 

# OPS07-BP05 Treffen fundierter Entscheidungen für die Bereitstellung von Systemen und Änderungen
<a name="ops_ready_to_support_informed_deploy_decisions"></a>

Sorgen Sie dafür, dass Prozesse für erfolgreiche und nicht erfolgreiche Änderungen an Ihrer Workload vorhanden sind. Eine Pre-mortem-Übung ist eine Übung, bei der ein Team einen Fehler simuliert, um Strategien zur Behebung zu entwickeln. Nutzen Sie diese „Pre-mortems“, um Fehlern vorzubeugen und legen Sie, wo erforderlich, entsprechende Abläufe fest. Bewerten Sie den Nutzen und die Risiken der Bereitstellung von Änderungen an Ihrer Workload. Überprüfen Sie, ob alle Änderungen mit der Governance übereinstimmen. 

 **Gewünschtes Ergebnis:** 
+  Sie treffen bei der Bereitstellung von Änderungen an Ihrer Workload fundierte Entscheidungen. 
+  Änderungen entsprechen der Governance. 

 **Typische Anti-Muster:** 
+ Sie stellen eine Änderung an Ihrer Workload bereit, ohne einen Prozess für die Verarbeitung einer fehlgeschlagenen Bereitstellung zu haben.
+ Sie nehmen Änderungen an Ihrer Produktionsumgebung vor, die nicht mit den Governance-Anforderungen vereinbar sind.
+ Sie stellen eine neue Version Ihrer Workload bereit, ohne eine Baseline für die Ressourcenauslastung zu erstellen.

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Sie sind auf fehlgeschlagene Änderungen an Ihrer Workload vorbereitet. 
+  Änderungen an Ihrer Workload sind konform mit den Governance-Richtlinien. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Niedrig 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Verwenden Sie Pre-mortem-Übungen, um Prozesse für fehlgeschlagene Änderungen zu entwickeln. Dokumentieren Sie Ihre Prozesse für fehlgeschlagene Änderungen. Stellen Sie sicher, dass alle Änderungen mit der Governance übereinstimmen. Evaluieren Sie die Vorteile und Risiken der Bereitstellung von Änderungen an Ihrer Workload. 

 **Kundenbeispiel** 

 AnyCompany Retail führt regelmäßig Pre-Mortems durch, um die Prozesse für fehlgeschlagene Änderungen zu validieren. Die Prozesse werden in einem gemeinsamen Wiki dokumentiert und regelmäßig aktualisiert. Alle Änderungen entsprechen den Governance-Anforderungen. 

 **Implementierungsschritte** 

1.  Treffen Sie fundierte Entscheidungen, wenn Sie Änderungen an Ihrer Workload bereitstellen. Legen Sie Kriterien für eine erfolgreiche Bereitstellung fest und überprüfen Sie diese. Entwickeln Sie Szenarien oder Kriterien, die ein Rollback einer Änderung auslösen würden. Wägen Sie den Nutzen der Bereitstellung von Änderungen gegen die Risiken einer fehlgeschlagenen Änderung ab. 

1.  Überprüfen Sie, ob alle Änderungen mit den Governance-Richtlinien übereinstimmen. 

1.  Planen Sie anhand von Pre-Mortems fehlgeschlagene Änderungen und dokumentieren Sie Strategien zur Schadensbegrenzung. Führen Sie eine Table-Top-Übung durch, um eine fehlgeschlagene Änderung zu modellieren und Rollback-Verfahren zu validieren. 

 **Aufwand für den Implementierungsplan:** Mittel. Die Einführung von Pre-Mortems erfordert die Koordination und den Einsatz aller Stakeholder in Ihrer gesamten Organisation 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS01-BP03 Bewertung der Governance-Anforderungen](ops_priorities_governance_reqs.md) – Governance-Anforderungen sind ein Schlüssel bei der Entscheidung zur Bereitstellung einer Änderung. 
+  [OPS06-BP01 Plan für erfolglose Änderungen](ops_mit_deploy_risks_plan_for_unsucessful_changes.md) – Erstellen Sie Pläne zur Eindämmung einer fehlgeschlagenen Bereitstellung und verwenden Sie Pre-Mortems, um diese zu validieren. 
+  [OPS06-BP02 Testbereitstellungen](ops_mit_deploy_risks_test_val_chg.md) – Jede Softwareänderung sollte vor der Bereitstellung ordnungsgemäß getestet werden, um Fehler in der Produktion zu reduzieren. 
+  [OPS07-BP01 Sicherstellen des Know-hows der Mitarbeiter](ops_ready_to_support_personnel_capability.md) – Ausreichend trainierte Mitarbeiter zur Unterstützung der Workload sind unerlässlich, um eine fundierte Entscheidung über die Bereitstellung einer Systemänderung zu treffen. 

 **Zugehörige Dokumente:** 
+ [ Amazon Web Services: Risiko und Compliance ](https://docs.aws.amazon.com/whitepapers/latest/aws-risk-and-compliance/welcome.html)
+ [AWS-Modell der übergreifenden Verantwortlichkeit ](https://aws.amazon.com/compliance/shared-responsibility-model/)
+ [ Governance in der AWS Cloud: Die richtige Balance zwischen Agilität und Sicherheit ](https://aws.amazon.com/blogs/apn/governance-in-the-aws-cloud-the-right-balance-between-agility-and-safety/)

# OPS07-BP06 Erstellen von Supportplänen für Produktions-Workloads
<a name="ops_ready_to_support_enable_support_plans"></a>

 Aktivieren Sie Support für sämtliche Software und Services, auf denen Ihre Produktions-Workload basiert. Wählen Sie ein geeignetes Support-Level für Ihre Servicelevel-Anforderungen in der Produktion. Supportpläne für diese Abhängigkeiten sind wichtig für den Fall von Serviceunterbrechungen oder Softwareproblemen. Dokumentieren Sie Supportpläne sowie die Verfahren zur Anfrage nach Support bei allen Service- und Softwareanbietern. Implementieren Sie Mechanismen zur Prüfung, ob Support-Kontaktpunkte stets aktuell sind. 

 **Gewünschtes Ergebnis:** 
+  Implementieren Sie Supportpläne für Software und Services, auf denen Ihre Produktions-Workloads basieren. 
+  Wählen Sie einen geeigneten Supportplan auf der Grundlage Ihrer Service-Level-Anforderungen. 
+  Dokumentieren Sie die Supportpläne, die Supportlevels und die Vorgehensweise bei Supportanfragen. 

 **Typische Anti-Muster:** 
+  Sie haben keinen Supportplan für einen kritischen Softwareanbieter. Dies beeinflusst Ihre Workload und Sie haben keine Möglichkeit, schnell einen Fix oder rechtzeitige Updates von dem Anbieter zu erhalten. 
+  Ein Entwickler, der der primäre Ansprechpartner bei einem Softwareanbieter war, hat das Unternehmen verlassen. Sie können den Support des Anbieters nicht direkt erreichen. Sie müssen Zeit aufwenden, um sich durch generische Kontaktsysteme zu arbeiten, was die Reaktionszeiten verlängert. 
+  Bei einem Softwareanbieter ereignet sich ein Produktionsausfall. Es gibt keine Dokumentation dazu, wie ein Supportfall einzureichen ist. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Mit dem richtigen Supportlevel können Sie schnell eine Reaktion erhalten, die dem Service-Level entspricht. 
+  Als Kunde mit Support stehen Ihnen bei Produktionsproblemen Eskalationsmöglichkeiten zur Verfügung. 
+  Software- und Serviceanbieter können Ihnen bei Vorfällen Unterstützung bei der Fehlerbehebung bieten. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Niedrig 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Aktivieren Sie die Supportpläne für sämtliche Software- und Serviceanbieter, von denen Ihre Produktions-Workload abhängt. Richten Sie geeignete Supportpläne ein, um Service-Level einhalten zu können. Für AWS-Kunden bedeutet dies die Aktivierung von AWS Business Support oder einer höheren Stufe für alle Konten mit Produktions-Workloads. Treffen Sie sich regelmäßig mit Supportanbietern, um Neues zu Supportangeboten, -prozessen und -ansprechpartnern zu erfahren. Dokumentieren Sie das Supportverfahren bei Software- und Serviceanbietern, einschließlich der Eskalationsmöglichkeiten bei Ausfällen. Implementieren Sie Mechanismen, um die Supportkontakte stets auf aktuellem Stand zu halten. 

 **Kundenbeispiel** 

 Bei AnyCompany Retail gibt es für alle kommerziellen Software- und Service-Abhängigkeiten Supportpläne. Beispielsweise hat das Unternehmen AWS Enterprise Support für alle Konten mit Produktions-Workloads. Jeder Entwickler kann bei einem Problem einen Supportfall auslösen. Es gibt eine Wiki-Seite mit Informationen zum Verfahren bei Supportanfragen, zu den Ansprechpartnern und zu bewährten Methoden dafür. 

 **Implementierungsschritte** 

1.  Arbeiten Sie mit den Stakeholdern in Ihrer Organisation, um Software- und Serviceanbieter zu identifizieren, von denen Ihre Workload abhängt. Dokumentieren Sie diese Abhängigkeiten. 

1.  Legen Sie die Service-Level-Anforderungen für Ihre Workload fest. Wählen Sie einen Supportplan, der dazu passt. 

1.  Richten Sie für kommerzielle Software und Services einen Supportplan bei den Anbietern ein. 

   1.  Ein Abonnement von AWS Business Support oder höher für alle Produktionskonten bietet schnellere Reaktionszeiten von AWS Support und wird dringend empfohlen. Wenn Sie keinen Premium-Support haben, benötigen Sie einen Aktionsplan für den Umgang mit Problemen, bei denen Hilfe von AWS Support erforderlich ist. AWS Support stellt Ihnen verschiedenste Tools und Technologien, Fachpersonal und Programme zur Verfügung, die Sie proaktiv bei der Performance-Optimierung, Kostensenkung und schnelleren Entwicklung neuer Innovationen unterstützen. Darüber hinaus bietet AWS Business Support zusätzliche Vorteile, darunter API-Zugriff auf AWS Trusted Advisor und AWS Health für die programmgesteuerte Integration mit Ihren Systemen sowie weitere Zugriffsmethoden wie die AWS-Managementkonsole und Amazon EventBridge-Kanäle. 

1.  Dokumentieren Sie den Supportplan in Ihrem Wissensmanagement-Tool. Berücksichtigen Sie dabei, wie eine Supportanfrage durchgeführt wird, wer in einem solchen Fall zu benachrichtigen ist und wie Vorfälle eskaliert werden können. Ein Wiki ist ein gutes Hilfsmittel, das allen Beteiligten ermöglicht, erforderliche Aktualisierungen der Dokumentation vorzunehmen, wenn ihnen Änderungen bei Supportprozessen oder Ansprechpartnern bekannt werden. 

 **Aufwand für den Implementierungsplan:** Niedrig. Die meisten Software- und Serviceanbieter bieten Opt-in-Supportpläne an. Durch die Dokumentation und die Weitergabe bewährter Supportmethoden in Ihrem Wissensmanagementsystem können Sie sicherstellen, dass Ihr Team weiß, was bei einem Produktionsproblem zu tun ist. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS02-BP02 Prozesse und Verfahren haben feste Besitzer](ops_ops_model_def_proc_owners.md) 

 **Zugehörige Dokumente:** 
+ [AWS Support-Pläne ](https://docs.aws.amazon.com/awssupport/latest/user/aws-support-plans.html)

 **Zugehörige Services:** 
+ [AWS Business Support ](https://aws.amazon.com/premiumsupport/plans/business/)
+ [AWS Enterprise Support ](https://aws.amazon.com/premiumsupport/plans/enterprise/)

# Betrieb
<a name="a-operate"></a>

**Topics**
+ [

# OPS 8. Wie nutzen Sie die Beobachtbarkeit von Workloads in Ihrer Organisation?
](ops-08.md)
+ [

# OPS 9. Wie können Sie den Zustand Ihrer Operationen beurteilen?
](ops-09.md)
+ [

# OPS 10. Wie bewältigen Sie Workload- und operationsspezifische Ereignisse?
](ops-10.md)

# OPS 8. Wie nutzen Sie die Beobachtbarkeit von Workloads in Ihrer Organisation?
<a name="ops-08"></a>

Sorgen Sie für einen optimalen Zustand der Workload, indem Sie die Beobachtbarkeit nutzen. Nutzen Sie relevante Metriken, Protokolle und Ablaufverfolgungen, um sich einen umfassenden Überblick über die Leistung Ihrer Workload zu verschaffen und Probleme effizient zu beheben.

**Topics**
+ [

# OPS08-BP01 Analysieren Sie Workload-Metriken
](ops_workload_observability_analyze_workload_metrics.md)
+ [

# OPS08-BP02 Analysieren Sie Workload-Protokolle
](ops_workload_observability_analyze_workload_logs.md)
+ [

# OPS08-BP03 Analysieren Sie Workload-Traces
](ops_workload_observability_analyze_workload_traces.md)
+ [

# OPS08-BP04 Erstellen umsetzbarer Warnmeldungen
](ops_workload_observability_create_alerts.md)
+ [

# OPS08-BP05 Erstellen von Dashboards
](ops_workload_observability_create_dashboards.md)

# OPS08-BP01 Analysieren Sie Workload-Metriken
<a name="ops_workload_observability_analyze_workload_metrics"></a>

 Analysieren Sie nach der Implementierung der Anwendungstelemetrie regelmäßig die gesammelten Metriken. Latenz, Anfragen, Fehler und Kapazität (oder Kontingente) liefern zwar Erkenntnisse zur Systemleistung, es ist jedoch wichtig, die Überprüfung der Metriken zu Geschäftsergebnissen zu priorisieren. Dadurch wird sichergestellt, dass Sie datengestützte Entscheidungen treffen, die auf Ihre Geschäftsziele abgestimmt sind. 

 **Gewünschtes Ergebnis:** Präzise Erkenntnisse zur Workload-Leistung, die als Grundlage für datengestützte Entscheidungen dienen und die Abstimmung mit den Geschäftszielen sicherstellen. 

 **Typische Anti-Muster:** 
+  Isolierte Analyse von Metriken, ohne deren Auswirkungen auf die Geschäftsergebnisse zu berücksichtigen. 
+  Übermäßiges Vertrauen in technische Metriken, während Geschäftsmetriken ignoriert werden. 
+  Seltene Überprüfung von Metriken, Entscheidungsmöglichkeiten in Echtzeit werden verpasst. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Verbessertes Verständnis des Zusammenhangs zwischen technischer Leistung und Geschäftsergebnissen. 
+  Verbesserter Entscheidungsprozess auf der Grundlage von Echtzeitdaten. 
+  Proaktive Identifizierung und Minderung von Problemen, bevor sie sich auf die Geschäftsergebnisse auswirken. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Nutzen Sie Tools wie Amazon CloudWatch , um metrische Analysen durchzuführen. AWS Dienste wie CloudWatch Anomalieerkennung und Amazon DevOps Guru können zur Erkennung von Anomalien verwendet werden, insbesondere wenn statische Schwellenwerte unbekannt sind oder wenn Verhaltensmuster besser für die Erkennung von Anomalien geeignet sind. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  **Analysieren und überprüfen:** Überprüfen Sie regelmäßig Ihre Workload-Metriken und werten Sie sie aus. 

   1.  Priorisieren Sie Metriken zu Geschäftsergebnissen gegenüber rein technischen. 

   1.  Machen Sie sich mit der Bedeutung von Spitzen, Rückgängen oder Mustern in Ihren Daten vertraut. 

1.  **Nutzen Sie Amazon CloudWatch:** Verwenden Sie Amazon CloudWatch für eine zentrale Ansicht und detaillierte Analysen. 

   1.  Konfigurieren Sie CloudWatch Dashboards, um Ihre Kennzahlen zu visualisieren und sie im Laufe der Zeit zu vergleichen. 

   1.  Verwenden Sie [Perzentile](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/), CloudWatch um sich einen klaren Überblick über die Verteilung der Metriken zu verschaffen. Dies kann dazu beitragen, Ausreißer zu definieren SLAs und zu verstehen. 

   1.  Richten Sie die [Erkennung von CloudWatch Anomalien](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) ein, um ungewöhnliche Muster zu identifizieren, ohne sich auf statische Schwellenwerte verlassen zu müssen. 

   1.  Implementieren Sie [CloudWatch kontenübergreifende Beobachtbarkeit](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html), um Anwendungen zu überwachen und Fehler zu beheben, die sich über mehrere Konten innerhalb einer Region erstrecken. 

   1.  Verwenden Sie [CloudWatch Metric Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html), um Kennzahlen konten- und regionsübergreifend abzufragen und zu analysieren und Trends und Anomalien zu identifizieren. 

   1.  Wenden Sie [CloudWatch Metric Math](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/using-metric-math.html) an, um Ihre Kennzahlen zu transformieren, zu aggregieren oder zu berechnen, um tiefere Einblicke zu erhalten. 

1.  **Nutzen Sie Amazon DevOps Guru:** Integrieren Sie [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) für die durch maschinelles Lernen erweiterte Anomalieerkennung, um frühe Anzeichen von Betriebsproblemen Ihrer serverlosen Anwendungen zu erkennen und diese zu beheben, bevor sie sich auf Ihre Kunden auswirken. 

1.  **Optimieren Sie auf der Grundlage von Erkenntnissen:** Treffen Sie fundierte Entscheidungen auf der Grundlage Ihrer Metrikanalyse, um Ihre Workloads anzupassen und zu verbessern. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS04-BP01 Identifizieren Sie die wichtigsten Leistungsindikatoren](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementieren Sie Anwendungstelemetrie](ops_observability_application_telemetry.md) 

 **Zugehörige Dokumente:** 
+ [ The Wheel Blog – Die Bedeutung der kontinuierlichen Überprüfung von Metriken ](https://aws.amazon.com/blogs/opensource/the-wheel/)
+ [ Perzentile sind wichtig ](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/)
+ [Verwenden AWS Cost Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html)
+ [ CloudWatch kontenübergreifende Beobachtbarkeit](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html)
+ [Fragen Sie Ihre Metriken mit Metrics Insights ab CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html)

 **Zugehörige Videos:** 
+ [Kontoübergreifende Observability in Amazon aktivieren CloudWatch](https://www.youtube.com/watch?v=lUaDO9dqISc)
+ [Einführung in Amazon DevOps Guru](https://www.youtube.com/watch?v=2uA8q-8mTZY)
+ [Analysieren Sie kontinuierlich Metriken mit AWS Cost Anomaly Detection](https://www.youtube.com/watch?v=IpQYBuay5OE)

 **Zugehörige Beispiele:** 
+ [ Workshop zur Beobachtbarkeit ](https://catalog.workshops.aws/observability/en-US/intro)
+ [AIOpsMit Amazon DevOps Guru Einblicke in den Betrieb gewinnen](https://catalog.us-east-1.prod.workshops.aws/workshops/f92df379-6add-4101-8b4b-38b788e1222b/en-US)

# OPS08-BP02 Analysieren Sie Workload-Protokolle
<a name="ops_workload_observability_analyze_workload_logs"></a>

 Die regelmäßige Analyse von Workload-Protokollen ist unerlässlich, um ein tieferes Verständnis der operativen Aspekte Ihrer Anwendung zu erlangen. Durch effizientes Durchsuchen, Visualisieren und Interpretieren von Protokolldaten können Sie die Leistung und Sicherheit von Anwendungen kontinuierlich optimieren. 

 **Gewünschtes Ergebnis:** Umfassende Erkenntnisse zum Anwendungsverhalten und zu Operationen, die aus einer gründlichen Protokollanalyse gewonnen wurden und für eine proaktive Problemerkennung und -behebung sorgen. 

 **Typische Anti-Muster:** 
+  Die Analyse von Protokollen vernachlässigen, bis ein kritisches Problem auftritt. 
+  Die Suite verfügbarer Tools für die Protokollanalyse nicht nutzen und wichtige Erkenntnisse verpassen. 
+  Alleiniges Vertrauen auf die manuelle Überprüfung von Protokollen, ohne Automatisierungs- und Abfragefunktionen zu nutzen. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Proaktive Identifizierung von operativen Engpässen, Sicherheitsbedrohungen und anderen potenziellen Problemen. 
+  Effiziente Nutzung von Protokolldaten für die kontinuierliche Anwendungsoptimierung. 
+  Verbessertes Verständnis des Anwendungsverhaltens, Unterstützung beim Debuggen und bei der Problembehandlung. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 [Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) ist ein leistungsstarkes Tool für die Protokollanalyse. Integrierte Funktionen wie CloudWatch Logs Insights und Contributor Insights machen das Ableiten aussagekräftiger Informationen aus Protokollen intuitiv und effizient. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  ** CloudWatch Protokolle einrichten**: Konfigurieren Sie Anwendungen und Dienste so, dass sie Protokolle an CloudWatch Logs senden. 

1.  **Verwenden Sie die Erkennung von Protokollanomalien:** Verwenden Sie die [Anomalieerkennung von Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/LogsAnomalyDetection.html), um ungewöhnliche Protokollmuster automatisch zu identifizieren und darauf hinzuweisen. Mit diesem Tool können Sie Anomalien in Ihren Protokollen proaktiv verwalten und potenzielle Probleme frühzeitig erkennen. 

1.  ** CloudWatch Logs Insights einrichten**: Verwenden Sie [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html), um Ihre Protokolldaten interaktiv zu suchen und zu analysieren. 

   1.  Erstellen Sie Abfragen, um Muster zu extrahieren, Protokolldaten zu visualisieren und umsetzbare Erkenntnisse abzuleiten. 

   1.  Verwenden Sie die [CloudWatch Logs Insights-Musteranalyse](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Patterns.html), um häufige Protokollmuster zu analysieren und zu visualisieren. Dieses Feature hilft Ihnen, allgemeine Betriebstrends und potenzielle Ausreißer in Ihren Protokolldaten nachzuvollziehen. 

   1.  Verwenden Sie [CloudWatch Logs compare (diff)](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_Compare.html), um eine Differenzanalyse zwischen verschiedenen Zeiträumen oder zwischen verschiedenen Protokollgruppen durchzuführen. Verwenden Sie diese Funktion, um Änderungen zu lokalisieren und deren Auswirkungen auf die Leistung oder das Verhalten Ihres Systems zu bewerten. 

1.  **Überwachen Sie Protokolle in Echtzeit mit Live Tail:** Verwenden Sie [Amazon CloudWatch Logs Live Tail](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CloudWatchLogs_LiveTail.html), um Protokolldaten in Echtzeit anzuzeigen. Sie können die Betriebsaktivitäten Ihrer Anwendung in Echtzeit aktiv überwachen, um sich einen unmittelbaren Einblick in die Systemleistung und potenzielle Probleme zu verschaffen. 

1.  **Nutzen Sie Contributor Insights**: Verwenden Sie [CloudWatchContributor Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html), um Top-Talker in Dimensionen mit hoher Kardinalität wie IP-Adressen oder Benutzeragenten zu identifizieren. 

1.  **Implementieren Sie Metrikfilter für CloudWatch Logs: Konfigurieren Sie Metrikfilter** für [CloudWatch Logs, um Protokolldaten in umsetzbare Metriken](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) umzuwandeln. Auf diese Weise können Sie Alarme einstellen oder Muster näher analysieren. 

1.  **Implementieren Sie [CloudWatchkontenübergreifende Beobachtbarkeit](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html):** Überwachen Sie Anwendungen, die sich über mehrere Konten innerhalb einer Region erstrecken, und beheben Sie Fehler. 

1.  **Regelmäßige Überprüfung und Verfeinerung**: Überprüfen Sie regelmäßig Ihre Protokollanalysestrategien, um alle relevanten Informationen zu erfassen und die Anwendungsleistung kontinuierlich zu optimieren. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS04-BP01 Identifizieren Sie die wichtigsten Leistungsindikatoren](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementieren Sie Anwendungstelemetrie](ops_observability_application_telemetry.md) 
+  [OPS08-BP01 Analysieren Sie Workload-Metriken](ops_workload_observability_analyze_workload_metrics.md) 

 **Zugehörige Dokumente:** 
+  [Analysieren von Protokolldaten mit CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) 
+  [ CloudWatch Contributor Insights verwenden](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) 
+  [ CloudWatch Log-Metrikfilter erstellen und verwalten](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 

 **Zugehörige Videos:** 
+  [Analysieren Sie Protokolldaten mit CloudWatch Logs Insights](https://www.youtube.com/watch?v=2s2xcwm8QrM) 
+  [Verwenden Sie CloudWatch Contributor Insights, um Daten mit hoher Kardinalität zu analysieren](https://www.youtube.com/watch?v=ErWRBLFkjGI) 

 **Zugehörige Beispiele:** 
+  [CloudWatch Protokolliert Beispielabfragen](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_QuerySyntax-examples.html) 
+  [Workshop zur Beobachtbarkeit](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP03 Analysieren Sie Workload-Traces
<a name="ops_workload_observability_analyze_workload_traces"></a>

 Die Analyse von Trace-Daten ist entscheidend, wenn es darum geht, einen umfassenden Überblick über den Betriebsverlauf einer Anwendung zu erhalten. Durch die Visualisierung und das Verständnis der Interaktionen zwischen verschiedenen Komponenten können die Leistung optimiert, Engpässe identifiziert und das Benutzererlebnis verbessert werden. 

 **Gewünschtes Ergebnis:** Sie verschaffen sich einen klaren Überblick über die verteilten Abläufe Ihrer Anwendung und erzielen dadurch eine schnellere Problemlösung und eine verbesserte Benutzererfahrung. 

 **Typische Anti-Muster:** 
+  Trace-Daten werden übersehen und man verlässt sich ausschließlich auf Protokolle und Metriken. 
+  Trace-Daten werden nicht mit zugehörigen Protokollen in Zusammenhang gebracht. 
+  Aus Traces abgeleitete Metriken wie Latenz und Fehlerraten werden ignoriert. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Verbessern Sie die Problembehandlung und reduzieren Sie die durchschnittliche Zeit bis zur Problemlösung (). MTTR 
+  Sie gewinnen Erkenntnisse über Abhängigkeiten und deren Auswirkungen. 
+  Sie können Leistungsprobleme rasch identifizieren und beheben. 
+  Sie nutzen von aus Trace abgeleitete Metriken für fundierte Entscheidungen. 
+  Sie erzielen ein besseres Benutzererlebnis durch optimierte Komponenteninteraktionen. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 [AWS X-Ray](https://www.docs.aws.com/xray/latest/devguide/aws-xray.html) bietet eine umfassende Suite für die Analyse von Trace-Daten, die einen ganzheitlichen Überblick über Serviceinteraktionen, die Überwachung von Benutzeraktivitäten und die Erkennung von Leistungsproblemen bietet. Funktionen wie ServiceLens X-Ray Insights, X-Ray Analytics und Amazon DevOps Guru erweitern die Tiefe verwertbarer Erkenntnisse, die aus Trace-Daten gewonnen werden. 

### Implementierungsschritte
<a name="implementation-steps"></a>

 Die folgenden Schritte bieten einen strukturierten Ansatz zur effektiven Implementierung der Analyse von Spurendaten mithilfe von AWS Services: 

1.  **Integrieren AWS X-Ray**: Stellen Sie sicher, dass X-Ray in Ihre Anwendungen integriert ist, um Trace-Daten zu erfassen. 

1.  **Analyse von X-Ray-Metriken**: Untersuchen Sie anhand von X-Ray-Traces abgeleitete Metriken wie Latenz, Anfrageraten, Fehlerraten und Antwortzeitverteilungen mithilfe der [Service-Übersicht](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-servicemap.html#xray-console-servicemap-view), um den Status der Anwendung zu überwachen. 

1.  **Verwendung ServiceLens**: Nutzen Sie die [ServiceLensKarte](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_service_map.html), um die Sichtbarkeit Ihrer Dienste und Anwendungen zu verbessern. Dies ermöglicht eine integrierte Anzeige von Traces, Metriken, Protokollen, Alarmen und anderen Statusinformationen. 

1.  **Aktivieren von X-Ray-Insights**: 

   1.  Aktivieren Sie [X-Ray-Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) zur automatisierten Erkennung von Anomalien in Traces. 

   1.  Untersuchen Sie Erkenntnisse, um Muster zu identifizieren und die Ursachen zu ermitteln, z. B. erhöhte Fehlerraten oder Latenzen. 

   1.  Eine chronologische Analyse der erkannten Probleme finden Sie in der Insights-Timeline. 

1.  **Verwenden von X-Ray Analytics**: [X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) ermöglicht es Ihnen, Trace-Daten gründlich zu untersuchen, Muster zu lokalisieren und Erkenntnisse zu gewinnen. 

1.  **Verwenden von Gruppen in X-Ray**: Erstellen Sie Gruppen in X-Ray, um Traces nach Kriterien wie hoher Latenz zu filtern und so eine gezieltere Analyse zu ermöglichen. 

1.  **Integrieren Sie Amazon DevOps Guru**: Nutzen Sie [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/), um von Modellen für maschinelles Lernen zu profitieren, mit denen betriebliche Anomalien in Spuren lokalisiert werden können. 

1.  **Verwenden Sie CloudWatch Synthetics**: Verwenden Sie [CloudWatchSynthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries_tracing.html), um Kanarien für die kontinuierliche Überwachung Ihrer Endpunkte und Workflows zu erstellen. Sie können diese Canarys in X-Ray integrieren, um Trace-Daten für eine eingehende Analyse der getesteten Anwendungen bereitzustellen. 

1.  **Verwenden Sie Real User Monitoring (RUM)**: Mit [AWS X-Ray und](https://docs.aws.amazon.com/xray/latest/devguide/xray-services-RUM.html) können Sie den Anforderungspfad analysieren und debuggen CloudWatch RUM, angefangen bei den Endbenutzern Ihrer Anwendung bis hin zu nachgeschalteten Managed Services. AWS Auf diese Weise können Sie Latenztrends und Fehler identifizieren, die sich auf Ihre Endbenutzer auswirken. 

1.  **Korrelieren von Daten mit Protokollen:**: Bringen Sie [Trace-Daten mit zugehörigen Protokollen](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_troubleshooting.html#servicelens_troubleshooting_Nologs) innerhalb der X-Ray-Trace-Ansicht in Zusammenhang, um eine detaillierte Perspektive auf das Anwendungsverhalten zu erhalten. Auf diese Weise können Sie Protokollereignisse anzeigen, die direkt mit verfolgten Transaktionen verknüpft sind. 

1.  **Implementieren Sie [CloudWatchkontenübergreifende Beobachtbarkeit](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html):** Überwachen Sie Anwendungen, die sich über mehrere Konten innerhalb einer Region erstrecken, und beheben Sie Fehler. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS08-BP01 Analysieren Sie Workload-Metriken](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analysieren Sie Workload-Protokolle](ops_workload_observability_analyze_workload_logs.md) 

 **Zugehörige Dokumente:** 
+  [Verwendung ServiceLens zur Überwachung des Anwendungszustands](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ServiceLens.html) 
+  [Erkunden von Trace-Daten mit X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) 
+  [Mit X-Ray-Insights Anomalien in Traces erkennen](https://docs.aws.amazon.com/xray/latest/devguide/xray-insights.html) 
+  [Kontinuierliche Überwachung mit CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 

 **Zugehörige Videos:** 
+  [Analysieren und Debuggen von Anwendungen mit Amazon CloudWatch Synthetics & AWS X-Ray](https://www.youtube.com/watch?v=s2WvaV2eDO4) 
+  [Nutzung von AWS X-Ray -Insights](https://www.youtube.com/watch?v=tl8OWHl6jxw) 

 **Zugehörige Beispiele:** 
+  [Workshop zur Beobachtbarkeit](https://catalog.workshops.aws/observability/en-US/intro) 
+  [Implementierung von X-Ray mit AWS Lambda](https://docs.aws.amazon.com/lambda/latest/dg/services-xray.html) 
+  [CloudWatchSynthetics Canary Schablonen](https://github.com/aws-samples/cloudwatch-synthetics-canary-terraform) 

# OPS08-BP04 Erstellen umsetzbarer Warnmeldungen
<a name="ops_workload_observability_create_alerts"></a>

 Es ist entscheidend, Abweichungen im Verhalten Ihrer Anwendung umgehend zu erkennen und darauf zu reagieren. Besonders wichtig ist es, zu erkennen, wann die auf den wichtigsten Leistungsindikatoren (KPIs) basierenden Ergebnisse gefährdet sind oder unerwartete Anomalien auftreten. Wenn Sie Warnmeldungen auf KPIs basieren, stellen Sie dadurch sicher, dass die Signale, die Sie erhalten, direkt mit geschäftlichen oder betrieblichen Auswirkungen verknüpft sind. Der Ansatz mit umsetzbaren Warnmeldungen fördert proaktive Reaktionen und trägt zur Aufrechterhaltung der Systemleistung und Zuverlässigkeit bei. 

 **Gewünschtes Ergebnis:** Sie erhalten rechtzeitig relevante und umsetzbare Warnmeldungen, um potenzielle Probleme schnell zu erkennen und zu beheben, insbesondere wenn die KPI-Ergebnisse gefährdet sind. 

 **Typische Anti-Muster:** 
+  Es werden zu viele unkritische Warnmeldungen eingerichtet, was zu einer Alarmmüdigkeit führt. 
+  Warnmeldungen werden nicht anhand von KPIs priorisiert, was es schwierig macht, die geschäftlichen Auswirkungen von Problemen zu verstehen. 
+  Die eigentlichen Ursachen werden vernachlässigt, was zu wiederholten Warnmeldungen für dasselbe Problem führt. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Geringere Alarmermüdung durch Fokussierung auf umsetzbare und relevante Warnmeldungen. 
+  Verbesserte Systemverfügbarkeit und -zuverlässigkeit durch proaktive Problemerkennung und -behebung. 
+  Verbesserte Teamzusammenarbeit und schnellere Problemlösung durch die Integration in übliche Alarmierungs- und Kommunikationstools. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Um einen effektiven Warnmechanismus zu schaffen, ist es wichtig, Metriken, Protokolle und Trace-Daten zu verwenden, die darauf hinweisen, wenn auf KPIs basierende Ergebnisse gefährdet sind oder Anomalien erkannt werden. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  **Festlegen der wichtigsten Leistungskennzahlen (KPIs)**: Identifizieren Sie die KPIs Ihrer Anwendung. Warnmeldungen sollten mit diesen KPIs verknüpft werden, damit sie die Auswirkungen auf das Unternehmen genau widerspiegeln. 

1.  **Implementierung der Erkennung von Anomalien**: 
   +  **Verwenden von Amazon CloudWatch-Anomalieerkennung**: Richten Sie die [Amazon CloudWatch-Anomalieerkennung](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) so ein, dass ungewöhnliche Muster automatisch erkannt werden. So werden nur Warnmeldungen für echte Anomalien generiert. 
   +  **Nutzung von AWS X-Ray-Insights**: 

     1.  Richten Sie [X-Ray-Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) ein, um Anomalien in Trace-Daten zu erkennen. 

     1.  Konfigurieren Sie [Benachrichtigungen für X-Ray-Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications), um bei erkannten Problemen gewarnt zu werden. 
   +  **Integration mit Amazon DevOps Guru**: 

     1.  Nutzen Sie [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) für seine Machine-Learning-Funktionen für die Erkennung betrieblicher Anomalien anhand vorhandener Daten. 

     1.  Navigieren Sie zu den [Benachrichtigungseinstellungen](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html#navigate-to-notification-settings) in DevOps Guru, um Warnmeldungen über Anomalien einzurichten. 

1.  **Implementieren umsetzbarer Warnmeldungen**: Entwerfen Sie Warnmeldungen, die angemessene Informationen für sofortige Maßnahmen liefern. 

   1.  Überwachen Sie [AWS Health-Ereignisse mit Amazon-EventBridge-Regeln](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) oder integrieren Sie sie programmatisch mit der AWS Health API, um Aktionen zu automatisieren, wenn Sie AWS Health-Ereignisse empfangen. Dies können allgemeine Aktionen sein, z. B. das Senden aller geplanten Lebenszyklus-Ereignisnachrichten an eine Chat-Oberfläche, oder spezifische Aktionen, wie das Initiieren eines Workflows in einem IT-Servicemanagement-Tool. 

1.  **Verringern der Alarmmüdigkeit**: Minimieren Sie die Zahl der Warnmeldungen, die nicht kritisch sind. Wenn Teams mit zahllosen unbedeutenden Warnmeldungen überfordert werden, können sie den Überblick über kritische Probleme verlieren, was die Gesamteffektivität des Warnmechanismus beeinträchtigt. 

1.  **Einrichten zusammengesetzter Alarme**: Verwenden Sie [zusammengesetzte Alarme in Amazon CloudWatch](https://aws.amazon.com/bloprove-monitoring-efficiency-using-amazon-cloudwatch-composite-alarms-2/), um mehrere Alarme zu konsolidieren. 

1.  **Integration mit Warnmeldungs-Tools**: Integrieren Sie Tools wie [Ops Genie](https://www.atlassian.com/software/opsgenie) und [PagerDuty](https://www.pagerduty.com/). 

1.  **Einbinden von Amazon Q Developer in Chat-Anwendungen**: Integration von [Amazon Q Developer in Chat-Anwendungen](https://aws.amazon.com/chatbot/) zur Weiterleitung von Warnungen an Amazon Chime, Microsoft Teams und Slack. 

1.  **Auf Protokollen basierende Warnungen**: Verwenden Sie [metrische Protokollfilter](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) in CloudWatch, um Alarme auf der Grundlage bestimmter Protokollereignisse zu erstellen. 

1.  **Überprüfen und wiederholen**: Überprüfen und verfeinern Sie die Warnkonfigurationen regelmäßig. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS04-BP01 Identifizieren Sie die wichtigsten Leistungsindikatoren](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementieren Sie Anwendungstelemetrie](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 Implementieren Sie Benutzererlebnis-Telemetrie](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 Implementieren einer Abhängigkeitstelemetrie](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 Implementieren Sie verteiltes Tracing](ops_observability_dist_trace.md) 
+  [OPS08-BP01 Analysieren Sie Workload-Metriken](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analysieren Sie Workload-Protokolle](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Analysieren Sie Workload-Traces](ops_workload_observability_analyze_workload_traces.md) 

 **Zugehörige Dokumente:** 
+  [Verwenden von Amazon-CloudWatch-Alarmen](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Erstellen eines zusammengesetzten Alarms](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) 
+  [Erstellen eines CloudWatch-Alarms basierend auf Anomalieerkennung](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) 
+  [DevOps Guru Notifications](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html) 
+  [X-ray insights notifications](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) 
+  [Überwachung, Betrieb und Fehlerbehebung Ihrer AWS-Ressourcen mit interaktiven ChatOps](https://aws.amazon.com/chatbot/) 
+  [Amazon CloudWatch Integration Guide \$1 PagerDuty](https://support.pagerduty.com/docs/amazon-cloudwatch-integration-guide) 
+  [Integrate Opsgenie with Amazon CloudWatch](https://support.atlassian.com/opsgenie/docs/integrate-opsgenie-with-amazon-cloudwatch/) 

 **Zugehörige Videos:** 
+  [Create Composite Alarms in Amazon CloudWatch](https://www.youtube.com/watch?v=0LMQ-Mu-ZCY) 
+  [Überblick über Amazon Q Developer in Chat-Anwendungen](https://www.youtube.com/watch?v=0jUSEfHbTYk) 
+  [AWS On Air ft. Mutative Befehle in Amazon Q Developer in Chat-Anwendungen](https://www.youtube.com/watch?v=u2pkw2vxrtk) 

 **Zugehörige Beispiele:** 
+  [Alarme, Vorfallmanagement und Problembehebung in der Cloud mit Amazon CloudWatch](https://aws.amazon.com/bloarms-incident-management-and-remediation-in-the-cloud-with-amazon-cloudwatch/) 
+  [Tutorial: Erstellen einer Amazon-EventBridge-Regel, die Benachrichtigungen an Amazon Q Developer in Chat-Anwendungen sendet](https://docs.aws.amazon.com/chatbot/latest/adminguide/create-eventbridge-rule.html) 
+  [Workshop zur Beobachtbarkeit](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP05 Erstellen von Dashboards
<a name="ops_workload_observability_create_dashboards"></a>

 Dashboards sind die anwenderorientierte Sicht auf die Telemetriedaten Ihrer Workloads. Sie stellen zwar eine wichtige visuelle Schnittstelle dar, sollten aber nicht als Ersatz, sondern als Ergänzung für Warnmechanismen dienen. Wenn sie sorgfältig zusammengestellt werden, liefern sie nicht nur schnelle Erkenntnisse zum Status und zur Leistung des Systems, sondern bieten Stakeholdern auch Echtzeitinformationen über Geschäftsergebnisse und die Auswirkungen von Problemen. 

 **Gewünschtes Ergebnis:** 

 Klare, umsetzbare Erkenntnisse zur System- und Geschäftsstabilität mithilfe visueller Darstellungen. 

 **Typische Anti-Muster:** 
+  Überkomplizierte Dashboards mit zu vielen Metriken. 
+  Sich auf Dashboards verlassen, ohne Warnmeldungen zur Erkennung von Anomalien zu nutzen. 
+  Fehlende Aktualisierung der Dashboards im Laufe des Workload-Fortschritts. 

 **Vorteile dieser bewährten Methode:** 
+  Sofortiger Einblick in wichtige Systemmetriken und KPIs. 
+  Verbesserte Kommunikation und mehr Verständnis unter den Stakeholdern. 
+  Rasche Erkenntnisse zu den Auswirkungen operativer Probleme. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 **Geschäftsorientierte Dashboards** 

 Dashboards, die auf Geschäfts-KPIs zugeschnitten sind, sprechen ein breiteres Spektrum von Stakeholdern an. Auch wenn diese Personen vielleicht nicht an Systemmetriken interessiert sind, haben sie dennoch großes Interesse daran, die geschäftlichen Auswirkungen dieser Zahlen zu verstehen. Ein geschäftsorientiertes Dashboard stellt sicher, dass alle technischen und betrieblichen Metriken, die überwacht und analysiert werden, auf die übergeordneten Geschäftsziele ausgerichtet sind. Diese Ausrichtung sorgt für Klarheit und stellt sicher, dass alle gleich darüber informiert sind, was wichtig ist und was nicht. Darüber hinaus sind Dashboards, die Geschäfts-KPIs hervorheben, in der Regel leichter umzusetzen. Sie bieten Stakeholdern die Möglichkeit, in kürzester Zeit den Status der Abläufe, die Bereiche, die Aufmerksamkeit erfordern, und die potenziellen Auswirkungen auf die Geschäftsergebnisse zu verstehen. 

 Vor diesem Hintergrund sollten Sie bei der Erstellung Ihrer Dashboards sicherstellen, dass ein Gleichgewicht zwischen technischen Metriken und Geschäfts-KPIs besteht. Beide sind wichtig, richten sich aber an unterschiedliche Zielgruppen. Idealerweise sollten Sie über Dashboards verfügen, die einen ganzheitlichen Überblick über den Status und die Leistung des Systems bieten und gleichzeitig wichtige Geschäftsergebnisse und deren Auswirkungen hervorheben. 

 Amazon-CloudWatch-Dashboards sind anpassbare Startseiten in der CloudWatch-Konsole, mit denen Sie Ihre Ressourcen in einer einzigen Ansicht überwachen können, auch solche, die über verschiedene AWS-Regionen und Konten verteilt sind. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  **Erstellen eines grundlegenden Dashboards:** [Erstellen Sie ein neues Dashboard in CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create_dashboard.html) und geben Sie ihm einen aussagekräftigen Namen. 

1.  **Verwenden von Markdown-Widgets:** Bevor Sie sich mit den Metriken befassen, [verwenden Sie Markdown-Widgets](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_text_dashboard.html), um Ihr Dashboard oben mit Kontext zu versehen. Dieser sollte den Inhalt des Dashboards beschreiben und angeben, welche Bedeutung den dargestellten Metriken zukommt. Er kann auch Links zu anderen Dashboards und Tools zur Fehlerbehebung enthalten. 

1.  **Erstellen von Dashboard-Variablen:** [Integrieren Sie gegebenenfalls Dashboard-Variablen](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html), um dynamische und flexible Dashboard-Ansichten zu ermöglichen. 

1.  **Erstellen von Metrik-Widgets:** [Fügen Sie Metrik-Widgets hinzu](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create-and-work-with-widgets.html), um verschiedene Metriken zu visualisieren, die Ihre Anwendung ausgibt, und passen Sie diese Widgets so an, dass sie den Systemstatus und die Geschäftsergebnisse effektiv darstellen. 

1.  **Verwenden von Log-Insights-Abfragen:** Verwenden Sie [CloudWatch Log Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_ExportQueryResults.html), um umsetzbare Metriken aus Ihren Protokollen abzurufen und diese Erkenntnisse auf Ihrem Dashboard anzuzeigen. 

1.  **Einrichten von Alarmen:** Integrieren Sie [CloudWatch-Alarme](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_alarm_dashboard.html) in Ihr Dashboard, um einen raschen Überblick über alle Metriken zu erhalten, die ihre Schwellenwerte überschreiten. 

1.  **Verwenden von Contributor Insights:** Integrieren Sie [CloudWatch Contributor Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights-ViewReports.html), um Felder mit hoher Kardinalität zu analysieren und ein besseres Verständnis der wichtigsten Mitwirkenden Ihrer Ressource zu erhalten. 

1.  **Entwerfen benutzerdefinierter Widgets:** Für spezielle Anforderungen, die von Standard-Widgets nicht erfüllt werden, sollten Sie es in Betracht ziehen, [benutzerdefinierte Widgets](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html) zu erstellen. Diese können Daten aus verschiedenen Datenquellen abrufen oder sie auf spezifische Weise darstellen. 

1.  **Verwenden von AWS Health:** AWS Health ist die autoritative Informationsquelle für den Zustand Ihrer AWS Cloud-Ressourcen. Verwenden Sie [AWS Health Dashboard](https://health.aws.amazon.com/health/status) unverändert oder verwenden Sie AWS Health-Daten in Ihren eigenen Dashboards und Tools, damit Sie die richtigen Informationen zur Verfügung haben, um fundierte Entscheidungen zu treffen. 

1.  **Wiederholen und optimieren:** Im Laufe der Entwicklung Ihrer Anwendung sollten Sie Ihr Dashboard regelmäßig überprüfen, um sicherzustellen, dass es weiterhin relevant ist. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS04-BP01 Identifizieren Sie die wichtigsten Leistungsindikatoren](ops_observability_identify_kpis.md) 
+  [OPS08-BP01 Analysieren Sie Workload-Metriken](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analysieren Sie Workload-Protokolle](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Analysieren Sie Workload-Traces](ops_workload_observability_analyze_workload_traces.md) 
+  [OPS08-BP04 Erstellen umsetzbarer Warnmeldungen](ops_workload_observability_create_alerts.md) 

 **Zugehörige Dokumente:** 
+  [Erstellung von Dashboards für operative Sichtbarkeit](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/) 
+  [Amazon CloudWatch Dashboards verwenden](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 

 **Zugehörige Videos:** 
+  [Konto- und regionenübergreifende CloudWatch-Dashboards erstellen](https://www.youtube.com/watch?v=eIUZdaqColg) 
+  [AWS re:Invent 2021 - Gain enterprise visibility with AWS Cloud operation dashboards)](https://www.youtube.com/watch?v=NfMpYiGwPGo) 

 **Zugehörige Beispiele:** 
+  [Workshop zur Beobachtbarkeit](https://catalog.workshops.aws/observability/en-US/intro) 
+  [Anwendungsüberwachung mit Amazon CloudWatch](https://aws.amazon.com/solutions/implementations/application-monitoring-with-cloudwatch/) 
+  [Dashboards und Einblicke zu AWS Health Events Intelligence](https://aws.amazon.com/blogs/mt/aws-health-events-intelligence-dashboards-insights/) 
+  [Visualisieren von AWS Health-Ereignissen mit Amazon Managed Grafana](https://aws.amazon.com/blogs/mt/visualize-aws-health-events-using-amazon-managed-grafana/) 

# OPS 9. Wie können Sie den Zustand Ihrer Operationen beurteilen?
<a name="ops-09"></a>

 Definieren, erfassen und analysieren Sie Metriken für Operationen, um einen Einblick in Ereignisse rund um Ihre Betriebsabläufe zu erhalten. Dies ist wichtig, damit Sie bei Bedarf entsprechende Maßnahmen ergreifen können. 

**Topics**
+ [

# OPS09-BP01 Messen operativer Ziele und KPIs mit Metriken
](ops_operations_health_measure_ops_goals_kpis.md)
+ [

# OPS09-BP02 Kommunizieren von Status und Trends zur Sicherung der operativen Transparenz
](ops_operations_health_communicate_status_trends.md)
+ [

# OPS09-BP03 Überprüfen der Betriebsmetriken und Priorisieren von Verbesserungen
](ops_operations_health_review_ops_metrics_prioritize_improvement.md)

# OPS09-BP01 Messen operativer Ziele und KPIs mit Metriken
<a name="ops_operations_health_measure_ops_goals_kpis"></a>

 Ermitteln Sie Ziele und KPIs in Ihrem Unternehmen, die operativen Erfolg definieren, und legen Sie Metriken fest, die diese Werte widerspiegeln. Legen Sie Baselines als Bezugspunkt fest und bewerten Sie diese regelmäßig neu. Entwickeln Sie Mechanismen, um diese Metriken von Teams zur Bewertung zu erfassen. Die Metriken von [DevOps Research and Assessment (DORA)](https://dora.dev/guides/dora-metrics-four-keys/) stellen eine verbreitete Methode zur Messung der Fortschritte bei DevOps-Verfahren für die Softwarebereitstellung dar. 

 **Gewünschtes Ergebnis:** 
+ Die Organisation veröffentlicht und teilt die Ziele und KPIs für die Operations-Teams.
+ Sie richten Metriken ein, die diese KPIs widerspiegeln. Mögliche Beispiele:
  +  Tiefe der Ticket-Warteschlange oder Durchschnittsalter der Tickets 
  +  Anzahl der Tickets, gruppiert nach Art des Problems 
  +  Aufgewendete Zeit für die Bearbeitung von Problemen mit oder ohne standardisierte Betriebsverfahren (SOP) 
  +  Zeit, die zur Wiederherstellung nach einem fehlgeschlagenen Code-Push aufgewendet wurde 
  +  Anruflautstärke 

 **Typische Anti-Muster:** 
+  Bereitstellungsfristen werden nicht eingehalten, weil Entwickler mit der Lösung von Problemen beauftragt werden. Entwicklerteams fordern mehr Personal, können aber nicht einschätzen, wie viele Personen benötigt werden, da der Zeitaufwand nicht gemessen werden kann. 
+  Für die Abwicklung von Kundenanrufen wurde ein Problem-Desk Stufe 1 eingerichtet. Im Laufe der Zeit kamen weitere Workloads hinzu, aber dem Problem-Desk Stufe 1 wurde kein zusätzliches Personal zugewiesen. Die Kundenzufriedenheit leidet, da immer mehr Anrufe nötig sind und Probleme länger ungelöst bleiben. Das Management sieht diese Anzeichen jedoch nicht und ermöglicht keine Gegenmaßnahmen. 
+  Eine problematische Workload wurde zur Bearbeitung an ein separates Operations-Team übergeben. Im Gegensatz zu anderen Workloads wurde diese neue Workload nicht mit ordnungsgemäßer Dokumentation und Runbooks geliefert. Daher verbringen Teams mehr Zeit damit, Fehler zu suchen und zu beheben. Es gibt jedoch keine Metriken, die dies dokumentieren, was die Rechenschaftspflicht erschwert. 

 **Vorteile der Nutzung dieser bewährten Methode:** Während die Workload-Überwachung den Status unserer Anwendungen und Services anzeigt, liefert die Überwachung von Operations-Teams den Verantwortlichen Erkenntnisse hinsichtlich Veränderungen bei den Benutzern dieser Workloads, z. B. geänderte Geschäftsanforderungen. Messen Sie die Effektivität dieser Teams und bewerten Sie sie im Hinblick auf Ihre operativen Ziele, indem Sie Metriken erstellen, die den operativen Status widerspiegeln können. Anhand von Metriken können Supportprobleme aufgezeigt oder Abweichungen von einem angestrebten Servicelevel erkannt werden. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

Planen Sie Besprechungen mit der Geschäftsleitung und Stakeholdern, um die allgemeinen Ziele des Services festzulegen. Ermitteln Sie, worin die Aufgaben der verschiedenen Operations-Teams bestehen sollten und mit welchen Herausforderungen sie beauftragt werden könnten. Führen Sie anhand dieser Daten ein Brainstorming der wichtigsten Leistungsindikatoren (KPIs) durch, die diese operativen Ziele widerspiegeln könnten. Dies können Faktoren wie Kundenzufriedenheit, die Zeitspanne zwischen Entwurf und Bereitstellung von Features, der durchschnittliche Zeitaufwand für die Problemlösung und andere sein.

 Identifizieren Sie anhand der KPIs die Metriken und Datenquellen, die diese Ziele am besten widerspiegeln könnten. Kundenzufriedenheit kann eine Kombination aus verschiedenen Metriken wie Warte- oder Reaktionszeiten bei Anrufen, Zufriedenheitswerte und Art der dargelegten Probleme sein. Die Bereitstellungszeiten können die Summe des Zeitaufwands sein, der für Tests und Bereitstellungen benötigt wird, zuzüglich aller Korrekturen nach der Bereitstellung, die hinzugefügt werden mussten. Statistiken, aus denen hervorgeht, wie viel Zeit für verschiedene Arten von Problemen aufgewendet wurde (oder wie viele dieser Probleme auftraten), können Aufschluss darüber geben, wo gezielte Anstrengungen erforderlich sind. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige Dokumente:** 
+ [ Quick – KPIs verwenden](https://docs.aws.amazon.com/quicksight/latest/user/kpi.html)
+ [ Amazon CloudWatch – Verwenden von Metriken ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)
+ [ Erstellung von Dashboards ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Wie Sie mit dem KPI-Dashboard Ihre KPIs zur Kostenoptimierung nachverfolgen ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [AWS-DevOps-Anleitung](https://docs.aws.amazon.com/wellarchitected/latest/devops-guidance/devops-guidance.html)

 **Zugehörige Beispiele:** 
+ [ Überwachen Sie die Leistung Ihrer Softwarebereitstellung mithilfe systemeigener AWS-Tools für Überwachung und Beobachtbarkeit](https://catalog.us-east-1.prod.workshops.aws/workshops/3b7f3d77-c6ef-44b2-aa29-d2719b8be897/en-US)
+ [ Stellen Sie mit DORA-Metriken ein Gleichgewicht zwischen Geschwindigkeit und Stabilität bei der Bereitstellung her ](https://aws.amazon.com/blogs/devops/balance-deployment-speed-and-stability-with-dora-metrics/)
+ [ Beispiel für operative MLOps-Metriken in der Finanzdienstleistungsbranche ](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-unlock-value-data-financial-services/operational-metrics.html)
+ [ Wie Sie mit dem KPI-Dashboard Ihre KPIs für die Kostenoptimierung nachverfolgen ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)

# OPS09-BP02 Kommunizieren von Status und Trends zur Sicherung der operativen Transparenz
<a name="ops_operations_health_communicate_status_trends"></a>

 Wenn Sie in Erfahrung bringen wollen, wann Ergebnisse gefährdet sein könnten, ob zusätzliche Workloads unterstützt werden können oder nicht oder welche Auswirkungen Änderungen auf Ihre Teams hatten, müssen Sie unbedingt den Status Ihrer Betriebsabläufe und deren Trendrichtung kennen. Bei Betriebsereignissen können Statusseiten, auf denen Benutzer und Operations-Teams Informationen abrufen können, den Druck auf die Kommunikationskanäle verringern und Informationen proaktiv verbreiten. 

 **Gewünschtes Ergebnis:** 
+  Betriebsleiter erhalten auf einen Blick Erkenntnisse darüber, welches Anrufvolumen ihre Teams bewältigen müssen und welche Maßnahmen möglicherweise im Gange sind, z. B. Bereitstellungen. 
+  Wenn Auswirkungen auf den normalen Betrieb auftreten, werden Warnmeldungen an Stakeholder und Benutzergemeinschaften versendet. 
+  Unternehmensleitung und Stakeholder können als Reaktion auf eine Warnung oder Auswirkung eine Statusseite aufrufen und Informationen zu einem betrieblichen Ereignis abrufen, z. B. Kontaktstellen, Ticketinformationen und erwartete Wiederherstellungszeiten. 
+  Führungskräften und anderen Stakeholdern werden Berichte zur Verfügung gestellt, damit sie über Betriebsstatistiken wie das Anrufvolumen über einen bestimmten Zeitraum, Benutzerzufriedenheitswerte, Anzahl ausstehender Tickets und deren Alter informiert sind. 

 **Typische Anti-Muster:** 
+  Eine Workload fällt aus und ein Dienst wird nicht verfügbar. Das Anrufvolumen steigt, da Benutzer wissen möchten, was vor sich geht. Manager erhöhen dieses Volumen, da sie nachfragen, wer an dem Problem arbeitet. Verschiedene Operations-Teams bemühen sich doppelt, Untersuchungen durchzuführen. 
+  Der Wunsch nach neuen Funktionen führt dazu, dass mehrere Mitarbeiter umpositioniert werden, um an einem speziellen technischen Vorhaben zu arbeiten. Dadurch entstehende Lücken werden nicht aufgefüllt und die Problemlösungszeiten steigen. Diese Informationen werden nicht erfasst, und erst nach mehreren Wochen und viel negativem Feedback unzufriedener Benutzer wird die Unternehmensleitung auf das Problem aufmerksam. 

 **Vorteile der Nutzung dieser bewährten Methode:** Bei betrieblichen Ereignissen, die das Geschäft beeinträchtigen, wird manchmal viel Zeit und Energie damit verschwendet, Informationen von verschiedenen Teams abzufragen, die versuchen, die Situation zu verstehen. Durch die Einrichtung und Verbreitung von Statusseiten und Dashboards können Stakeholder rasch Informationen darüber abrufen, ob ein Problem festgestellt wurde oder nicht, wer mit der Lösung des Problems beschäftigt ist oder wann mit einer Rückkehr zum normalen Betrieb zu rechnen ist. Dadurch müssen die Teammitglieder nicht zu viel Zeit damit verbringen, anderen den Status mitzuteilen und haben mehr Zeit, Probleme zu lösen. 

 Darüber hinaus können Dashboards und Berichte Entscheidungsträgern und Stakeholdern Einblicke bieten, um zu sehen, wie Operations-Teams auf Geschäftsanforderungen reagieren können und wie ihre Ressourcen zugewiesen werden. Dies ist entscheidend, um festzustellen, ob angemessene Ressourcen zur Unterstützung des Unternehmens vorhanden sind. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Erstellen Sie Dashboards, die die aktuellen Schlüsselmetriken für Ihre Operations-Teams anzeigen, und machen Sie sie sowohl für die Betriebsleitung als auch für das Management leicht zugänglich. 

 Erstellen Sie Statusseiten, die schnell aktualisiert werden können, um zu zeigen, wann sich ein Vorfall oder ein Ereignis abspielt, wer dafür verantwortlich ist und wer die Reaktion darauf koordiniert. Kommunizieren Sie auf dieser Seite alle Schritte oder Problemumgehungen, die Benutzer in Betracht ziehen sollten, und machen Sie sie für alle Beteiligten verfügbar. Bitten Sie Benutzer, zuerst diese Seite zu überprüfen, wenn sie mit einem unbekannten Problem konfrontiert werden. 

 Erfassen Sie Daten und stellen Sie Berichte bereit, die den Zustand der Betriebsabläufe im Zeitverlauf aufzeigen, und verteilen Sie diese an Führungskräfte und Entscheidungsträger, um die Arbeit des Betriebs sowie die Herausforderungen und Bedürfnisse zu veranschaulichen. 

 Teilen Sie die Metriken und Berichte, die die Ziele und KPIs am besten widerspiegeln, mit den Teams, und zeigen Sie ihnen, wo sie besonders deutlich einen Wandel vorangetrieben haben. Nehmen Sie sich Zeit für diese Aktivitäten, um den Abläufen innerhalb und zwischen Teams mehr Bedeutung beizumessen. 

 Verwenden Sie [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) zusammen mit Ihren eigenen Dashboards oder integrieren Sie AWS Health-Ereignisse, sodass Ihre Teams Anwendungsprobleme mit dem Status des AWS-Service korrelieren können. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+ [ OPS09-BP01 Messen operativer Ziele und KPIs mit Metriken ](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_measure_ops_goals_kpis.html)

 **Zugehörige Dokumente:** 
+ [ Fortschritt messen ](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-cloud-operating-model/measure-progress.html)
+ [ Erstellung von Dashboards für operative Sichtbarkeit ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)

 **Zugehörige Beispiele:** 
+ [ Datenoperationen ](https://aws.amazon.com/solutions/app-development/data-operations)
+ [ Wie Sie mit dem KPI-Dashboard Ihre KPIs zur Kostenoptimierung nachverfolgen ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+ [ The Importance of Key Performance Indicators (KPIs) for Large-Scale Cloud Migrations ](https://aws.amazon.com/blogs/mt/the-importance-of-key-performance-indicators-kpis-for-large-scale-cloud-migrations/)

# OPS09-BP03 Überprüfen der Betriebsmetriken und Priorisieren von Verbesserungen
<a name="ops_operations_health_review_ops_metrics_prioritize_improvement"></a>

 Durch die Bereitstellung von Zeit und Ressourcen für die Überprüfung des Betriebsstatus wird sichergestellt, dass die Betreuung der täglichen Geschäftstätigkeit weiterhin Priorität hat. Bringen Sie Betriebsleiter und Stakeholder an einen Tisch, um regelmäßig Metriken zu überprüfen, Ziele und Vorgaben zu bestätigen oder zu ändern und Verbesserungen zu priorisieren. 

 **Gewünschtes Ergebnis:** 
+  Betriebsleiter und Mitarbeiter treffen sich regelmäßig, um die Metriken für einen bestimmten Berichtszeitraum zu überprüfen. Herausforderungen werden kommuniziert, Erfolge gefeiert und gewonnene Erkenntnisse geteilt. 
+  Stakeholder und Unternehmensleiter werden regelmäßig über den Stand der laufenden Operationen informiert und um ihre Meinung gebeten, was Ziele, KPIs und zukünftige Initiativen angeht. Kompromisse zwischen Servicebereitstellung, Betrieb und Wartung werden erörtert und in Zusammenhang gebracht. 

 **Typische Anti-Muster:** 
+  Ein neues Produkt wird auf den Markt gebracht, aber die Operations-Teams der Stufe 1 und 2 sind nicht ausreichend geschult, um Support zu leisten, oder bräuchten zusätzliches Personal. Metriken, die den Anstieg der Bearbeitungsdauer von Tickets und der Anzahl der Vorfälle belegen, werden von Führungskräften nicht berücksichtigt. Erst Wochen später werden Maßnahmen ergriffen, weil die Zahl der Abonnements zu sinken beginnt, da unzufriedene Benutzer die Plattform verlassen. 
+  Ein manuelles Verfahren zur Durchführung von Wartungsarbeiten an einer Workload gibt es schon lange. Der Wunsch nach Automatisierung war zwar vorhanden, hatte aber angesichts der geringen Bedeutung des Systems nur geringe Priorität. Im Laufe der Zeit hat das System jedoch an Bedeutung gewonnen und heute nehmen diese manuellen Prozesse einen Großteil der Betriebszeit in Anspruch. Es sind keine Ressourcen für die Bereitstellung von mehr Tools für den Betrieb vorgesehen, was zu einer Überlastung der Mitarbeiter führt, wenn die Workload zunimmt. Die Unternehmensleitung wird sich der Probleme bewusst, als sie erfährt, dass Mitarbeiter zu anderen Wettbewerbern wechseln. 

 **Vorteile der Nutzung dieser bewährten Methode:** In einigen Unternehmen kann es zu einer Herausforderung werden, für die Servicebereitstellung die gleiche Zeit und Aufmerksamkeit aufzuwenden, die neuen Produkten oder Angeboten entgegengebracht wird. Wenn dies zutrifft, kann der Geschäftsbereich darunter leiden und das erwartete Serviceniveau verschlechtert sich nach und nach. Dies liegt daran, dass sich der Betrieb nicht mit dem wachsenden Geschäft ändert und weiterentwickelt, wodurch er bald ins Hintertreffen gerät. Ohne eine regelmäßige Überprüfung der Erkenntnisse, die Operations erfasst, wird das Risiko für das Unternehmen möglicherweise erst sichtbar, wenn es zu spät ist. Wenn jedoch sowohl dem Betriebspersonal als auch den Führungskräften Zeit für die Überprüfung von Metriken und Verfahren eingeräumt wird, bleibt die entscheidende Rolle, die der Betrieb spielt, sichtbar und Risiken können erkannt werden, lange bevor sie ein kritisches Niveau erreichen. Operations-Teams erhalten einen besseren Überblick über bevorstehende Geschäftsänderungen und Initiativen, sodass proaktive Maßnahmen ergriffen werden können. Wenn Führungskräfte die Gelegenheit haben, die Betriebsmetriken zu prüfen, erkennen sie, welche Rolle diese Teams für die Kundenzufriedenheit spielen –sowohl intern als auch extern. So können sie Operations die Möglichkeit geben, Entscheidungen im Hinblick auf Prioritäten besser abzuwägen oder sicherzustellen, dass die Teams über die Zeit und die Ressourcen verfügen, um mit neuen Geschäfts- und Workload-Initiativen zu wachsen und sich weiterzuentwickeln. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Nehmen Sie sich Zeit, um die Betriebsmetriken gemeinsam mit Stakeholdern und Operations-Teams zu überprüfen und die Berichtsdaten zu lesen. Stellen Sie diese Berichte in den Kontext der Ziele und Vorgaben der Organisation, um festzustellen, ob sie erreicht werden. Identifizieren Sie Unklarheiten, bei denen die Ziele nicht eindeutig sind oder wo Konflikte bestehen zwischen dem, was verlangt wird, und dem, was gegeben wird. 

 Identifizieren Sie, wo Zeit, Mitarbeiter und Tools zu Betriebsergebnissen beitragen können. Ermitteln Sie, auf welche KPIs sich dies auswirken würde und welche Erfolgsziele verfolgt werden sollten. Greifen Sie Ihre Überlegungen regelmäßig wieder auf, um sicherzustellen, dass der Betrieb über ausreichende Ressourcen verfügt, um den Geschäftsbereich zu unterstützen. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige Dokumente:** 
+ [ Amazon Athena ](https://aws.amazon.com/athena/)
+ [ Referenzinformationen zu Metriken und Dimensionen von Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html)
+ [ Amazon Quick](https://aws.amazon.com/quicksight/)
+ [AWS Glue](https://aws.amazon.com/glue/)
+ [AWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html)
+ [Sammeln von Metriken und Protokollen von Amazon-EC2-Instances und On-Premises-Servern mit dem Amazon-CloudWatch-Agenten](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html)
+ [ Verwenden von Amazon-CloudWatch-Metriken ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)

# OPS 10. Wie bewältigen Sie Workload- und operationsspezifische Ereignisse?
<a name="ops-10"></a>

 Erarbeiten und prüfen Sie Verfahren für die Reaktion auf Ereignisse, um Beeinträchtigungen für Ihre Workload zu minimieren. 

**Topics**
+ [

# OPS10-BP01 Verwenden eines Prozesses für die Bewältigung von Ereignissen, Vorfällen und Problemen
](ops_event_response_event_incident_problem_process.md)
+ [

# OPS10-BP02 Implementieren eines Prozesses für jede Warnmeldung
](ops_event_response_process_per_alert.md)
+ [

# OPS10-BP03 Priorisieren von betrieblichen Ereignissen auf Basis der Auswirkung auf das Unternehmen
](ops_event_response_prioritize_events.md)
+ [

# OPS10-BP04 Definieren von Eskalationspfaden
](ops_event_response_define_escalation_paths.md)
+ [

# OPS10-BP05 Definieren eines Kundenkommunikationsplans für Ereignisse, die sich auf den Service auswirken
](ops_event_response_push_notify.md)
+ [

# OPS10-BP06 Bekanntgeben des Status über Dashboards
](ops_event_response_dashboards.md)
+ [

# OPS10-BP07 Automatisieren Sie Reaktionen auf Ereignisse
](ops_event_response_auto_event_response.md)

# OPS10-BP01 Verwenden eines Prozesses für die Bewältigung von Ereignissen, Vorfällen und Problemen
<a name="ops_event_response_event_incident_problem_process"></a>

Die Fähigkeit, Ereignisse, Vorfälle und Probleme effizient zu verwalten, ist der Schlüssel zur Aufrechterhaltung der Workload und der Leistung. Es ist wichtig, die Unterschiede zwischen diesen Elementen zu erkennen und zu verstehen, um eine effektive Reaktions- und Lösungsstrategie zu entwickeln. Die Einrichtung und Einhaltung eines klar definierten Prozesses für jeden Aspekt hilft Ihrem Team, alle auftretenden betrieblichen Herausforderungen schnell und effektiv zu bewältigen.

 **Gewünschtes Ergebnis:** Ihr Unternehmen verwaltet betriebliche Ereignisse, Vorfälle und Probleme effektiv durch gut dokumentierte und zentral gespeicherte Prozesse. Diese Prozesse werden ständig aktualisiert, um Änderungen zu berücksichtigen, die Handhabung zu optimieren und eine hohe Servicezuverlässlichkeit und Workload-Leistung aufrechtzuerhalten. 

 **Typische Anti-Muster:** 
+  Sie reagieren eher reaktiv als proaktiv auf Ereignisse. 
+  Bei verschiedenen Arten von Ereignissen oder Vorfällen werden inkonsistente Ansätze verfolgt. 
+ Ihr Unternehmen analysiert keine Vorfälle und lernt nicht aus ihnen, um zukünftige Vorfälle zu verhindern.

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  optimierte und standardisierte Reaktionsprozesse 
+  geringere Auswirkungen von Vorfällen auf Services und Kunden 
+  beschleunigte Problemlösung 
+  kontinuierliche Verbesserung der betrieblichen Abläufe 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Wenn Sie diese bewährte Methode implementieren, bedeutet dies, dass Sie Workload-Ereignisse nachverfolgen. Sie haben Prozesse für den Umgang mit Vorfällen und Problemen. Die Prozesse werden dokumentiert, geteilt und oft aktualisiert. Die Probleme werden identifiziert, priorisiert und behoben. 

 **Verstehen von Ereignissen, Vorfällen und Problemen** 
+  **Ereignisse:** Bei einem *Ereignis* handelt es sich um eine Beobachtung einer Aktion, eines Vorkommens oder einer Statusänderung. Ereignisse können geplant oder ungeplant sein und sie können intern oder extern zur Workload entstehen. 
+  **Vorfälle:** *Vorfälle* sind Ereignisse, die eine Reaktion erfordern, wie ungeplante Unterbrechungen oder Beeinträchtigungen der Servicequalität. Sie stellen Störungen dar, die sofortige Aufmerksamkeit erfordern, um den normalen Workload-Betrieb wiederherzustellen. 
+  **Probleme:** *Probleme* sind die zugrundeliegenden Ursachen für einen oder mehrere Vorfälle. Bei der Identifizierung und Lösung von Problemen geht es darum, den Vorfällen auf den Grund zu gehen, um zukünftige Vorfälle zu verhindern. 

### Implementierungsschritte
<a name="implementation-steps"></a>

 **Ereignisse** 

1.  **Überwachen von Ereignissen:** 
   +  [Implementieren Sie Beobachtbarkeit](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html) und [nutzen Sie Workload-Beobachtbarkeit](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html). 
   +  Monitor-Aktionen, die von einem Benutzer, einer Rolle oder einem AWS-Service ausgeführt werden, werden als Ereignisse in [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) aufgezeichnet. 
   +  Reagieren Sie auf betriebliche Änderungen in Ihren Anwendungen in Echtzeit mit [Amazon EventBridge](https://aws.amazon.com/eventbridge/). 
   +  Bewerten, überwachen und zeichnen Sie Änderungen der Ressourcenkonfiguration mit [AWS Config](https://aws.amazon.com/config/) kontinuierlich auf. 

1.  **Erstellen von Prozessen:** 
   +  Entwickeln Sie ein Verfahren zur Bewertung, welche Ereignisse signifikant sind und überwacht werden müssen. Dies beinhaltet die Festlegung von Schwellenwerten und Parametern für normale und abnormale Aktivitäten. 
   +  Legen Sie Kriterien für die Eskalation eines Ereignisses in Bezug auf einen Vorfall fest. Dies kann auf Grundlage des Schweregrads, der Auswirkungen auf die Benutzer oder der Abweichung vom erwarteten Verhalten erfolgen. 
   +  Überprüfen Sie regelmäßig die Prozesse zur Überwachung und Reaktion auf Ereignisse. Dazu gehören die Analyse früherer Vorfälle, die Anpassung von Schwellenwerten und die Verfeinerung von Warnmechanismen. 

 **Vorfälle** 

1.  **Reaktion auf Vorfälle:** 
   +  Nutzen Sie die Erkenntnisse aus den Tools zur Beobachtbarkeit, um Vorfälle schnell zu erkennen und darauf zu reagieren. 
   +  Implementieren Sie [AWS Systems Manager Ops Center](https://aws.amazon.com/systems-manager/features/#OpsCenter), um betriebliche Aufgaben und Vorfälle zu sammeln, zu organisieren und zu priorisieren. 
   +  Nutzen Sie Services wie [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) und [AWS X-Ray](https://aws.amazon.com/xray/) für eingehendere Analysen und Problembehebungen. 
   +  Ziehen Sie [AWS Managed Services (AMS)](https://aws.amazon.com/managed-services/) für ein verbessertes Vorfallmanagement in Betracht, indem Sie die proaktiven, präventiven und detektivischen Fähigkeiten nutzen. AMS erweitert den betrieblichen Support um Services wie Überwachung, Vorfallserkennung und -reaktion sowie Sicherheitsmanagement. 
   +  Kunden von Enterprise Support können [AWS-Vorfallerkennung und -reaktion](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/) verwenden, wodurch eine kontinuierliche proaktive Überwachung und ein Vorfallmanagement für Produktions-Workloads ermöglicht wird. 

1.  **Erstellen eines Vorfallmanagementprozesses:** 
   +  Richten Sie einen strukturierten Vorfallmanagementprozess ein, der klare Rollen, Kommunikationsprotokolle und Lösungsschritte umfasst. 
   +  Integrieren Sie das Vorfallmanagement mit Tools wie [Amazon Q Developer in Chat-Anwendungen](https://aws.amazon.com/chatbot/) für eine effiziente Reaktion und Koordination. 
   +  Kategorisieren Sie Vorfälle nach Schweregrad mit vordefinierten [Vorfallreaktionsplänen](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) für jede Kategorie. 

1.  **Lernen und Verbessern:** 
   +  Führen Sie [Analysen nach Vorfällen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) aus, um die Grundursachen und die Effektivität der Lösung zu verstehen. 
   +  Aktualisieren und verbessern Sie die Reaktionspläne kontinuierlich auf Grundlage von Überprüfungen und sich entwickelnden Praktiken. 
   +  Dokumentieren Sie die gewonnenen Erkenntnisse und geben Sie sie an andere Teams weiter, um die betriebliche Widerstandsfähigkeit zu verbessern. 
   +  Kunden mit Enterprise Support können den [Workshop zum Vorfallmanagement](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) bei ihrem Technical Account Manager anfordern. Dieser angeleitete Workshop testet Ihren vorhandenen Reaktionsplan für Vorfälle und hilft Ihnen, Verbesserungsmöglichkeiten zu identifizieren. 

 **Problems (Probleme** 

1.  **Identifizieren von Problemen:** 
   +  Verwenden Sie Daten aus früheren Vorfällen, um wiederkehrende Muster zu erkennen, die auf tiefere systemische Probleme hinweisen könnten. 
   +  Nutzen Sie Tools wie [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) und [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/), um Trends zu analysieren und grundlegende Probleme aufzudecken. 
   +  Binden Sie funktionsübergreifende Teams ein, einschließlich Betriebs-, Entwicklungs- und Geschäftsbereiche, um unterschiedliche Sichtweisen auf die Grundursachen zu gewinnen. 

1.  **Erstellen eines Problemmanagementprozesses:** 
   +  Entwickeln Sie einen strukturierten Prozess für das Problemmanagement, der sich auf langfristige Lösungen statt auf schnelle Lösungen konzentriert. 
   +  Integrieren Sie Techniken zur Ursachenanalyse, um die zugrunde liegenden Ursachen von Vorfällen zu untersuchen und zu verstehen. 
   +  Aktualisieren Sie Betriebsrichtlinien, Verfahren und Infrastruktur auf Grundlage der Erkenntnisse, um Wiederholungen zu verhindern. 

1.  **Kontinuierliche Verbesserungen:** 
   +  Fördern Sie eine Kultur des ständigen Lernens und der Verbesserung und ermutigen Sie Ihre Teams, potenzielle Probleme proaktiv zu erkennen und anzugehen. 
   +  Überprüfen und überarbeiten Sie regelmäßig die Problemmanagementprozesse und -tools, um sie an die sich entwickelnde Geschäfts- und Technologielandschaft anzupassen. 
   +  Tauschen Sie Erkenntnisse und bewährte Methoden innerhalb des Unternehmens aus, um eine widerstandsfähigere und effizientere Betriebsumgebung zu schaffen. 

1.  **Einsatz von AWS Support:** 
   +  Nutzen Sie AWS-Support-Ressourcen, z. B. [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/), für proaktive Anleitungen und Optimierungsempfehlungen. 
   +  Kunden von Enterprise Support können auf spezielle Programme wie [AWS Countdown](https://aws.amazon.com/premiumsupport/aws-countdown/) zugreifen, um bei kritischen Ereignissen Unterstützung zu erhalten. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS04-BP01 Identifizieren Sie die wichtigsten Leistungsindikatoren](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementieren Sie Anwendungstelemetrie](ops_observability_application_telemetry.md) 
+  [OPS07-BP03 Verwenden von Runbooks zur Durchführung von Verfahren](ops_ready_to_support_use_runbooks.md)
+  [OPS07-BP04 Verwenden von Playbooks zum Untersuchen von Problemen](ops_ready_to_support_use_playbooks.md) 
+  [OPS08-BP01 Analysieren Sie Workload-Metriken](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS11-BP02 Führen Sie eine Analyse nach dem Vorfall durch](ops_evolve_ops_perform_rca_process.md) 

 **Zugehörige Dokumente:** 
+  [AWS Security Incident Response Guide](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+ [AWS-Vorfallerkennung und -reaktion ](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)
+ [AWS Cloud Adoption Framework: Betriebsperspektive – Vorfall- und Problemmanagement ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+  [Vorfallmanagement im Zeitalter von DevOps und SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty – What is Incident Management?](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Zugehörige Videos:** 
+ [ Die besten Tipps zur Reaktion auf Vorfälle in AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [AWS re:Invent 2022 – Die Amazon Builders' Library: 25 Jahre operative Exzellenz von Amazon ](https://www.youtube.com/watch?v=DSRhgBd_gtw)
+ [AWS re:Invent 2022 – AWS-Vorfallerkennung und -reaktion (SUP201) ](https://www.youtube.com/watch?v=IbSgM4IP9IE)
+ [ Introducing Incident Manager from AWS Systems Manager](https://www.youtube.com/watch?v=I6lScgh4qds)

 **Zugehörige Beispiele:** 
+  [AWS Proactive Services – Workshop zum Vorfallmanagement](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+ [ Automatisierung der Vorfallbehandlung mit PagerDuty und AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/how-to-automate-incident-response-with-pagerduty-and-aws-systems-manager-incident-manager/)
+ [ Einbeziehung des Notfallteams in die Bereitschaftsdienstpläne in AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/engage-incident-responders-with-the-on-call-schedules-in-aws-systems-manager-incident-manager/)
+ [ Verbesserung der Sichtbarkeit und Zusammenarbeit bei der Bearbeitung von Vorfällen in AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/improve-the-visibility-and-collaboration-during-incident-handling-in-aws-systems-manager-incident-manager/)
+ [ Vorfallberichte und Serviceanfragen in AMS ](https://docs.aws.amazon.com/managedservices/latest/userguide/support-experience.html)

 **Zugehörige Services:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 

# OPS10-BP02 Implementieren eines Prozesses für jede Warnmeldung
<a name="ops_event_response_process_per_alert"></a>

 Die Einrichtung eines klaren und definierten Prozesses für jede Warnmeldung in Ihrem System ist für ein effektives und effizientes Vorfallmanagement unerlässlich. Diese Vorgehensweise stellt sicher, dass jede Warnmeldung zu einer spezifischen, umsetzbaren Reaktion führt, wodurch die Zuverlässigkeit und Reaktionsfähigkeit Ihrer Abläufe verbessert wird. 

 **Gewünschtes Ergebnis:** Jede Warnmeldung leitet einen bestimmten, genau definierten Reaktionsplan ein. Wenn möglich, werden die Antworten automatisiert, mit klaren Zuständigkeiten und einem definierten Eskalationspfad. Warnmeldungen sind mit einer aktuellen Wissensdatenbank verknüpft, sodass jeder Bediener konsistent und effektiv reagieren kann. Die Antworten sind schnell und einheitlich, was die betriebliche Effizienz und Zuverlässigkeit erhöht. 

 **Typische Anti-Muster:** 
+  Für Warnmeldungen gibt es keinen vordefinierten Reaktionsprozess, was zu provisorischen und verzögerten Lösungen führt. 
+  Eine Überlastung mit Warnmeldungen führt dazu, dass wichtige Warnmeldungen übersehen werden. 
+  Warnmeldungen werden uneinheitlich gehandhabt, da es an klaren Zuständigkeiten und Verantwortlichkeiten mangelt. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Weniger Ermüdungserscheinungen, da nur umsetzbare Warnmeldungen ausgelöst werden. 
+  Geringere durchschnittliche Zeit bis zur Behebung (MTTR) von Betriebsproblemen. 
+  Geringere durchschnittliche Zeit bis zur Untersuchung, was zur Verringerung der MTTR beiträgt. 
+  Verbesserte Fähigkeit, operative Reaktionen zu skalieren. 
+  Verbesserte Konsistenz und Zuverlässigkeit beim Umgang mit Betriebsereignissen. 

 Sie haben beispielsweise einen definierten Prozess für AWS Health-Ereignisse für kritische Konten eingerichtet, einschließlich Anwendungsalarmen, operationaler Probleme und geplanter Lebenszyklusereignisse (z. B. die Aktualisierung von Amazon-EKS-Versionen vor der automatischen Aktualisierung von Clustern), und stellen Ihren Teams die Möglichkeit bereit, diese Ereignisse aktiv zu überwachen, zu kommunizieren und auf sie zu reagieren. Diese Maßnahmen helfen Ihnen, Serviceunterbrechungen aufgrund AWS-seitiger Änderungen zu verhindern oder diese schneller zu beheben, wenn unerwartete Probleme auftreten. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Ein Prozess pro Warnmeldung beinhaltet die Erstellung eines klaren Reaktionsplans für jede Warnmeldung, die Automatisierung von Reaktionen (soweit dies möglich ist) und die kontinuierliche Optimierung dieser Prozesse auf Grundlage des betrieblichen Feedbacks und der sich entwickelnden Anforderungen. 

### Implementierungsschritte
<a name="implementation-steps"></a>

 Das folgende Diagramm veranschaulicht den Arbeitsablauf für das Vorfallmanagement in [AWS Systems Manager Incident Manager](https://aws.amazon.com/systems-manager/features/incident-manager/). Es ist so konzipiert, dass es schnell auf betriebliche Probleme reagiert, indem es automatisch Vorfälle als Reaktion auf bestimmte Ereignisse von [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) oder [Amazon EventBridge](https://aws.amazon.com/eventbridge/) erstellt. Wenn ein Vorfall entweder automatisch oder manuell erstellt wird, zentralisiert Incident Manager die Verwaltung des Vorfalls, organisiert relevante Informationen über AWS-Ressourcen und initiiert vordefinierte Reaktionspläne. Dazu gehört das Ausführen von Systems-Manager-Automation-Runbooks für sofortige Maßnahmen sowie das Erstellen eines übergeordneten betrieblichen Arbeitselements in OpsCenter, um verwandte Aufgaben und Analysen zu verfolgen. Dieser optimierte Prozess beschleunigt und koordiniert die Reaktion auf Vorfälle in Ihrer gesamten AWS-Umgebung. 

![\[Flussdiagramm, das zeigt, wie Incident Manager funktioniert: – Amazon Q Developer in Chat-Anwendungen, Eskalationspläne und Kontakte sowie Runbooks fließen in die Reaktionspläne ein, die ihrerseits in Vorfälle und Analysen einfließen. Amazon CloudWatch fließt ebenfalls in die Reaktionspläne ein.\]](http://docs.aws.amazon.com/de_de/wellarchitected/latest/framework/images/incident-manager-how-it-works.png)


 

1.  **Verwendung zusammengesetzter Alarme:** Erstellen Sie [zusammengesetzte Alarme](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) in CloudWatch, um zusammenhängende Alarme zu gruppieren, das Rauschen zu reduzieren und sinnvollere Reaktionen zu ermöglichen. 

1.  **Bleiben Sie mit [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) auf dem Laufenden:** AWS Health ist die maßgebliche Informationsquelle für den Zustand Ihrer AWS Cloud-Ressourcen. Ermöglicht AWS Health die Visualisierung und den Erhalt von Benachrichtigungen über aktuelle Serviceereignisse und bevorstehende Änderungen, z. B. geplante Lebenszyklusereignisse. So können Sie Maßnahmen ergreifen, um die Auswirkungen zu minimieren. 

   1.  [Erstellen Sie angepasste AWS Health-Ereignisbenachrichtigungen](https://docs.aws.amazon.com/health/latest/ug/user-notifications.html) für E-Mail- und Chat-Kanäle über [AWS-Benutzerbenachrichtigungen](https://docs.aws.amazon.com/notifications/latest/userguide/what-is-service.html) und integrieren Sie diese programmgesteuert mit [Ihren Überwachungs- und Warnungstools über Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) oder die [AWS Health-API](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html). 

   1.  Planen und verfolgen Sie den Fortschritt bei Gesundheitsereignissen, die Maßnahmen erfordern, indem Sie diese in Änderungsmanagement- oder ITSM-Tools (wie [Jira](https://docs.aws.amazon.com/smc/latest/ag/cloud-sys-health.html) oder [ServiceNow](https://docs.aws.amazon.com/smc/latest/ag/sn-aws-health.html)) integrieren, die Sie möglicherweise bereits über Amazon EventBridge oder die AWS Health-API verwenden. 

   1.  Wenn Sie AWS Organizations verwenden, aktivieren Sie die [Organisationsansicht für AWS Health](https://docs.aws.amazon.com/health/latest/ug/aggregate-events.html), um AWS Health-Ereignisse über Konten hinweg zu aggregieren. 

1.  **Integration von Amazon-CloudWatch-Alarmen in Incident Manager:** Konfigurieren Sie CloudWatch-Alarme für die automatische Erstellung von Vorfällen in [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html). 

1.  **Integration von Amazon EventBridge in Incident Manager:** Erstellen Sie [EventBridge-Regeln](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule.html), um auf Ereignisse zu reagieren und Vorfälle mithilfe definierter Reaktionspläne zu erstellen. 

1.  **Vorbereitung auf Vorfälle in Incident Manager:** 
   +  Richten Sie in Incident Manager detaillierte [Reaktionspläne](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) für jede Art von Warnmeldung ein. 
   +  Richten Sie über [Amazon Q Developer in Chat-Anwendungen](https://docs.aws.amazon.com/incident-manager/latest/userguide/chat.html) Chat-Kanäle ein, die mit Reaktionsplänen in Incident Manager verknüpft sind und die Echtzeitkommunikation bei Vorfällen über Plattformen wie Slack, Microsoft Teams und Amazon Chime ermöglichen. 
   +  Integrieren Sie [Systems-Manager-Automation-Runbooks](https://docs.aws.amazon.com/incident-manager/latest/userguide/runbooks.html) in Incident Manager, um automatisierte Reaktionen auf Vorfälle zu ermöglichen. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS04-BP01 Identifizieren Sie die wichtigsten Leistungsindikatoren](ops_observability_identify_kpis.md) 
+  [OPS08-BP04 Erstellen umsetzbarer Warnmeldungen](ops_workload_observability_create_alerts.md) 

 **Zugehörige Dokumente:** 
+ [AWS Cloud Adoption Framework: Betriebsperspektive – Vorfall- und Problemmanagement ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+ [Verwenden von Amazon-CloudWatch-Alarmen](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)
+ [ Einrichten von AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/setting-up.html)
+ [ Preparing for incidents in Incident Manager ](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-response.html)

 **Zugehörige Videos:** 
+ [ Die besten Tipps zur Reaktion auf Vorfälle von AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [ re:Invent 2023 \$1 Manage resource lifecycle events at scale with AWS Health](https://www.youtube.com/watch?v=VoLLNL5j9NA)

 **Zugehörige Beispiele:** 
+ [AWS-Workshops – AWS Systems Manager Incident Manager – Automatisierung der Reaktion auf Sicherheitsvorfälle ](https://catalog.workshops.aws/automate-incident-response/en-US/settingupim/onboarding)

# OPS10-BP03 Priorisieren von betrieblichen Ereignissen auf Basis der Auswirkung auf das Unternehmen
<a name="ops_event_response_prioritize_events"></a>

 Eine schnelle Reaktion auf Betriebsereignisse ist von entscheidender Bedeutung, aber nicht alle Ereignisse sind gleich. Wenn Sie Ihre Prioritäten auf Grundlage der geschäftlichen Auswirkungen festlegen, müssen Sie sich auch vorrangig mit Ereignissen befassen, die erhebliche Folgen haben könnten, wie z. B. Sicherheit, finanzielle Verluste, Verstöße gegen Vorschriften oder Rufschädigung. 

 **Gewünschtes Ergebnis:** Die Reaktionen auf betriebliche Ereignisse werden auf Grundlage der potenziellen Auswirkungen auf die Geschäftsabläufe und -ziele priorisiert. Dadurch werden die Reaktionen effizient und effektiv. 

 **Typische Anti-Muster:** 
+  Jedes Ereignis wird mit der gleichen Dringlichkeit behandelt, was zu Verwirrung und Verzögerungen bei der Behandlung kritischer Probleme führt. 
+  Sie unterscheiden nicht zwischen Ereignissen mit hoher und geringer Auswirkung, was zu einer Fehlallokation von Ressourcen führt. 
+  Ihrem Unternehmen fehlt ein klarer Rahmen für die Priorisierung, was zu inkonsistenten Reaktionen auf Betriebsereignisse führt. 
+  Ereignisse werden in der Reihenfolge ihrer Meldung priorisiert und nicht nach ihrer Auswirkung auf die Geschäftsergebnisse. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Stellt sicher, dass wichtige Geschäftsfunktionen zuerst berücksichtigt werden, um mögliche Schäden zu minimieren. 
+  Verbessert die Ressourcenzuweisung bei mehreren gleichzeitigen Ereignissen. 
+  Verbessert die Fähigkeit der Organisation, das Vertrauen zu erhalten und die gesetzlichen Anforderungen zu erfüllen. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Wenn Sie mit mehreren betrieblichen Ereignissen konfrontiert sind, ist ein strukturierter Ansatz zur Priorisierung auf Grundlage von Auswirkungen und Dringlichkeit unerlässlich. Dieser Ansatz hilft Ihnen, fundierte Entscheidungen zu treffen, Ihre Maßnahmen auf die Bereiche zu lenken, wo sie am dringendsten benötigt werden, und das Risiko für die Geschäftskontinuität zu mindern. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  **Bewertung von Auswirkungen:** Entwickeln Sie ein Klassifizierungssystem, um den Schweregrad von Ereignissen im Hinblick auf ihre potenziellen Auswirkungen auf den Geschäftsbetrieb und die Ziele zu bewerten. Das folgende Beispiel zeigt die Wirkungskategorien:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Bewertung der Dringlichkeit:** Definieren Sie Dringlichkeitsstufen danach, wie schnell auf ein Ereignis reagiert werden muss, und berücksichtigen Sie dabei Faktoren wie Sicherheit, finanzielle Auswirkungen und Service Level Agreements (SLAs). Das folgende Beispiel zeigt die Dringlichkeitskategorien:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Erstellen einer Priorisierungsmatrix:** 
   +  Verwenden Sie eine Matrix, um Auswirkungen und Dringlichkeit miteinander zu vergleichen, und weisen Sie verschiedenen Kombinationen Prioritätsstufen zu. 
   +  Machen Sie die Matrix allen Teammitgliedern, die für die Reaktion auf betriebliche Ereignisse verantwortlich sind, zugänglich und verständlich. 
   +  Die folgende Beispielmatrix zeigt den Schweregrad eines Vorfalls nach Dringlichkeit und Auswirkung an:     
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/wellarchitected/latest/framework/ops_event_response_prioritize_events.html)

1.  **Trainieren und Kommunizieren:** Schulen Sie die Response-Teams im Umgang mit der Prioritätenmatrix und der Wichtigkeit, diese während eines Ereignisses zu befolgen. Kommunizieren Sie den Priorisierungsprozess an alle Stakeholder, um klare Erwartungen zu schaffen. 

1.  **Integration der Vorfallreaktion:** 
   +  Integrieren Sie die Priorisierungsmatrix in Ihre Pläne und Tools zur Reaktion auf Vorfälle. 
   +  Automatisieren Sie nach Möglichkeit die Klassifizierung und Priorisierung von Ereignissen, um die Reaktionszeiten zu verkürzen. 
   +  Kunden von Enterprise Support können [AWS-Vorfallerkennung und -reaktion](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/) nutzen, wodurch eine proaktive Überwachung rund um die Uhr und ein Vorfallmanagement für Produktions-Workloads ermöglicht wird. 

1.  **Überprüfen und Anpassen:** Überprüfen Sie regelmäßig die Effektivität des Priorisierungsprozesses und nehmen Sie Anpassungen auf der Grundlage von Rückmeldungen und Änderungen im Geschäftsumfeld vor. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS03-BP03 Eskalation wird gefördert](ops_org_culture_team_enc_escalation.md) 
+  [OPS08-BP04 Erstellen umsetzbarer Warnmeldungen](ops_workload_observability_create_alerts.md) 
+  [OPS09-BP01 Messen operativer Ziele und KPIs mit Metriken](ops_operations_health_measure_ops_goals_kpis.md) 

 **Zugehörige Dokumente:** 
+ [ Atlassian – Verständnis der Schweregrade von Vorfällen ](https://www.atlassian.com/incident-management/kpis/severity-levels)
+ [ IT-Prozessplan – Checkliste der Vorfallpriorität ](https://wiki.en.it-processmaps.com/index.php/Checklist_Incident_Priority)

# OPS10-BP04 Definieren von Eskalationspfaden
<a name="ops_event_response_define_escalation_paths"></a>

Legen Sie in Ihren Protokollen zur Vorfallreaktion klare Eskalationspfade fest, um rechtzeitige und effektive Maßnahmen zu ermöglichen. Dazu gehören die Festlegung von Aufforderungen zur Eskalation, die detaillierte Beschreibung des Eskalationsprozesses und die vorherige Genehmigung von Maßnahmen, um die Entscheidungsfindung zu beschleunigen und die durchschnittliche Zeit für die Behebung zu verkürzen.

 **Gewünschtes Ergebnis:** Ein strukturierter und effizienter Prozess, der Vorfälle an das entsprechende Personal weiterleitet und so die Reaktionszeiten und Auswirkungen minimiert. 

 **Typische Anti-Muster:** 
+ Mangelnde Klarheit über die Wiederherstellungsverfahren führt zu provisorischen Maßnahmen bei kritischen Vorfällen.
+ Das Fehlen von definierten Berechtigungen und Zuständigkeiten führt zu Verzögerungen, wenn dringende Maßnahmen erforderlich sind.
+  Stakeholder und Kunden werden nicht erwartungsgemäß informiert. 
+  Wichtige Entscheidungen verzögern sich. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Optimierte Reaktion auf Vorfälle durch vordefinierte Eskalationsverfahren. 
+  Reduzierte Ausfallzeiten durch vorab genehmigte Maßnahmen und klare Zuständigkeiten. 
+  Verbesserte Ressourcenzuweisung und Anpassung der Support-Ebene an den Schweregrad des Vorfalls. 
+  Verbesserte Kommunikation mit Stakeholdern und Kunden. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Richtig definierte Eskalationspfade sind entscheidend für eine schnelle Reaktion auf Vorfälle. AWS Systems Manager Incident Manager unterstützt die Einrichtung strukturierter Eskalations- und Bereitschaftspläne, die die richtigen Mitarbeiter alarmieren, damit sie bei Vorfällen handlungsbereit sind. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  **Einrichtung von Eskalationsaufforderungen:** Richten Sie [CloudWatch-Alarme](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) ein, um einen Vorfall in [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com//incident-manager/latest/userguide/incident-creation.html) zu erstellen. 

1.  ** Erstellen von Bereitschaftsplänen:** Erstellen Sie [Bereitschaftspläne](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule-create.html) in Incident Manager, die auf Ihre Eskalationspfade abgestimmt sind. Statten Sie das Bereitschaftspersonal mit den erforderlichen Berechtigungen und Tools aus, um schnell handeln zu können. 

1.  ** Detaillierte Eskalationsverfahren: ** 
   +  Legen Sie bestimmte Bedingungen fest, unter denen ein Vorfall eskaliert werden sollte. 
   +  Erstellen Sie [Eskalationspläne](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html) in Incident Manager. 
   +  Eskalationskanäle sollten aus einem Ansprechpartner oder einem Bereitschaftsplan bestehen. 
   +  Definieren Sie die Rollen und Verantwortlichkeiten des Teams auf jeder Eskalationsstufe. 

1.  **Genehmigung von Schadensbegrenzungsmaßnahmen im Voraus:** Arbeiten Sie mit Entscheidungsträgern zusammen, um Maßnahmen für erwartete Szenarien vorab zu genehmigen. Verwenden Sie die in Incident Manager integrierten [Systems-Manager-Automation-Runbooks](https://docs.aws.amazon.com//incident-manager/latest/userguide/tutorials-runbooks.html), um die Behebung von Vorfällen zu beschleunigen. 

1.  **Angabe der Zuständigkeit:** Identifizieren Sie eindeutig die internen Besitzer für jeden Schritt des Eskalationspfads. 

1.  **Details zu Eskalationen mit Drittanbietern:** 
   +  Dokumentieren Sie Service Level Agreements (SLAs) von Drittanbietern und richten Sie sie an internen Zielen aus. 
   +  Legen Sie klare Protokolle für die Lieferantenkommunikation bei Vorfällen fest. 
   +  Integrieren Sie Lieferantenkontakte in die Tools zum Vorfallmanagement, um direkten Zugriff zu erhalten. 
   +  Führen Sie regelmäßige Übungen durch, die Reaktionsszenarien von Drittanbietern beinhalten. 
   +  Sorgen Sie dafür, dass die Informationen zur Lieferanteneskalation gut dokumentiert und leicht zugänglich sind. 

1.  **Trainieren und Testen von Eskalationsplänen:** Schulen Sie Ihr Team im Eskalationsprozess und führen Sie regelmäßig Übungen zur Reaktion auf Vorfälle oder den Ernstfall durch. Kunden mit Enterprise Support können einen [Workshop zum Vorfallmanagement](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/) anfordern. 

1.  **Weitere Verbesserung:** Überprüfen Sie regelmäßig die Wirksamkeit Ihrer Eskalationspfade. Aktualisieren Sie Ihre Prozesse auf Grundlage der Erkenntnisse aus den Nachuntersuchungen von Vorfällen und dem kontinuierlichen Feedback. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS08-BP04 Erstellen umsetzbarer Warnmeldungen](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Implementieren eines Prozesses für jede Warnmeldung](ops_event_response_process_per_alert.md) 
+  [OPS11-BP02 Führen Sie eine Analyse nach dem Vorfall durch](ops_evolve_ops_perform_rca_process.md) 

 **Zugehörige Dokumente:** 
+ [AWS Systems Manager Incident Manager-Eskalationspläne ](https://docs.aws.amazon.com/incident-manager/latest/userguide/escalation.html)
+ [ Working with on-call schedules in Incident Manager ](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-manager-on-call-schedule.html)
+ [ Erstellen und Verwalten von Runbooks ](https://docs.aws.amazon.com/systems-manager/latest/userguide/automation-documents.html)
+ [ Temporäre erweiterte Zugriffsverwaltung mit AWS IAM Identity Center](https://aws.amazon.com/blogs/security/temporary-elevated-access-management-with-iam-identity-center/)
+ [ Atlassian – Eskalationsrichtlinien für effektives Vorfallmanagement ](https://www.atlassian.com/incident-management/on-call/escalation-policies)

# OPS10-BP05 Definieren eines Kundenkommunikationsplans für Ereignisse, die sich auf den Service auswirken
<a name="ops_event_response_push_notify"></a>

 Eine effektive Kommunikation bei Ereignissen, die sich auf den Service auswirken, ist entscheidend, um das Vertrauen und die Transparenz gegenüber den Kunden aufrechtzuerhalten. Ein klar definierter Kommunikationsplan hilft Ihrem Unternehmen, bei Vorfällen schnell und klar Informationen sowohl intern als auch extern auszutauschen. 

 **Gewünschtes Ergebnis:** 
+  Ein robuster Kommunikationsplan, der Kunden und Stakeholder bei Ereignissen, die sich auf den Service auswirken, effektiv informiert. 
+  Transparenz in der Kommunikation, um Vertrauen aufzubauen und Ängste der Kunden abzubauen. 
+  Minimierung der Auswirkungen von Ereignissen, die sich auf den Service in Bezug auf das Kundenerlebnis und den Geschäftsbetrieb auswirken. 

 **Typische Anti-Muster:** 
+  Eine unzureichende oder verzögerte Kommunikation führt zu Verwirrung und Unzufriedenheit der Kunden. 
+  Allzu technische oder vage Nachrichten vermitteln nicht die tatsächlichen Auswirkungen auf die Benutzer. 
+  Es gibt keine vordefinierte Kommunikationsstrategie, was zu inkonsistenten und reaktiven Nachrichten führt. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Mehr Vertrauen und Zufriedenheit bei den Kunden durch proaktive und klare Kommunikation. 
+  Entlastung der Support-Teams durch präventive Behandlung von Kundenanliegen. 
+  Verbesserte Fähigkeit, Vorfälle effektiv zu verwalten und zu bewältigen. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Die Erstellung eines umfassenden Kommunikationsplans für Ereignisse, die sich auf den Service auswirken, umfasst mehrere Facetten, von der Auswahl der richtigen Kanäle bis hin zur Formulierung der Botschaft und des Tonfalls. Der Plan sollte anpassungsfähig und skalierbar sein und verschiedene Ausfallszenarien berücksichtigen. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  **Definieren von Rollen und Zuständigkeiten:** 
   +  Beauftragen Sie einen Hauptzuständigen für die Vorfallreaktion mit der Überwachung der Maßnahmen. 
   +  Benennen Sie einen Kommunikationsmanager, der für die Koordination der gesamten externen und internen Kommunikation verantwortlich ist. 
   +  Beziehen Sie den Support-Manager ein, um eine konsistente Kommunikation über Support-Tickets zu gewährleisten. 

1.  **Identifizieren von Kommunikationskanälen:** Wählen Sie Kanäle wie Arbeitsplatz-Chat, E-Mail, SMS, soziale Medien, In-App-Benachrichtigungen und Statusseiten aus. Diese Kanäle sollten robust und in der Lage sein, bei Ereignissen, die den Service beeinträchtigen, unabhängig zu arbeiten. 

1.  ** Schnelle, klare und regelmäßige Kommunikation mit Kunden: ** 
   +  Entwickeln Sie Vorlagen für verschiedene Szenarien, bei denen Beeinträchtigungen des Serviceangebots vorliegen, und achten Sie dabei auf Einfachheit und wichtige Details. Fügen Sie Informationen über die Beeinträchtigung des Services, die erwartete Lösungszeit und die Auswirkungen hinzu. 
   +  Verwenden Sie Amazon Pinpoint, um Kunden mithilfe von Push-Benachrichtigungen, In-App-Benachrichtigungen, E-Mails, Textnachrichten, Sprachnachrichten und Nachrichten über benutzerdefinierte Kanäle zu informieren. 
   +  Verwenden Sie Amazon Simple Notiﬁcation Service (Amazon SNS), um Subscriber programmgesteuert oder per E-Mail, mobilen Push-Benachrichtigungen und Textnachrichten zu benachrichtigen. 
   +  Kommunizieren Sie den Status über Dashboards, indem Sie ein Amazon-CloudWatch-Dashboard öffentlich teilen. 
   +  Förderung des Engagements in den sozialen Medien: 
     +  Verfolgen Sie aktiv die sozialen Medien, um die Stimmung der Kunden zu verstehen. 
     +  Posten Sie auf Social-Media-Plattformen, um die Öffentlichkeit auf dem Laufenden zu halten und die Community einzubeziehen. 
     +  Bereiten Sie Vorlagen für eine konsistente und klare Kommunikation in sozialen Medien vor. 

1.  **Koordination der internen Kommunikation:** Implementieren Sie interne Protokolle mithilfe von Tools wie Amazon Q Developer in Chat-Anwendungen für die Teamkoordination und Kommunikation. Verwenden Sie CloudWatch-Dashboards, um den Status zu kommunizieren. 

1.  ** Orchestrierung der Kommunikation mit speziellen Tools und Services: ** 
   +  Verwenden Sie AWS Systems Manager Incident Manager mit Amazon Q Developer in Chat-Anwendungen, um spezielle Chat-Kanäle für die interne Kommunikation und Koordination in Echtzeit bei Vorfällen einzurichten. 
   +  Verwenden Sie AWS Systems Manager Incident Manager-Runbooks, um Kundenbenachrichtigungen über Amazon Pinpoint, Amazon SNS oder Tools von Drittanbietern wie Social-Media-Plattformen bei Vorfällen zu automatisieren. 
   +  Integrieren Sie Genehmigungs-Workflows in Runbooks, um optional die gesamte externe Kommunikation vor dem Versand zu überprüfen und zu autorisieren. 

1.  ** Praktizieren und verbessern: ** 
   +  Führen Sie Trainingkurse zum Einsatz von Kommunikationsmitteln und -strategien durch. Ermöglichen Sie es Teams, bei Vorfällen rechtzeitig Entscheidungen zu treffen. 
   +  Testen Sie den Kommunikationsplan durch regelmäßige Übungen oder Ernstfallübungen. Mithilfe dieser Tests können Sie Ihre Botschaften präzisieren und die Effektivität der Kanäle bewerten. 
   +  Implementieren Sie Feedback-Mechanismen, um die Effektivität der Kommunikation bei Vorfällen zu bewerten. Entwickeln Sie den Kommunikationsplan auf Grundlage des Feedbacks und der sich ändernden Bedürfnisse kontinuierlich weiter. 

 **Aufwand für den Implementierungsplan:** Hoch 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS07-BP03 Verwenden von Runbooks zur Durchführung von Verfahren](ops_ready_to_support_use_runbooks.md) 
+  [OPS10-BP06 Bekanntgeben des Status über Dashboards](ops_event_response_dashboards.md) 
+  [OPS11-BP02 Führen Sie eine Analyse nach dem Vorfall durch](ops_evolve_ops_perform_rca_process.md) 

 **Zugehörige Dokumente:** 
+ [ Atlassian – Bewährte Methoden der Kommunikation bei Vorfällen ](https://www.atlassian.com/incident-management/incident-communication)
+ [ Atlassian – Verfassen eines guten Status-Updates ](https://www.atlassian.com/blog/statuspage/how-to-write-a-good-status-update)
+ [ PagerDuty – Leitfaden für die Kommunikation bei Vorfällen ](https://www.pagerduty.com/resources/learn/a-guide-to-incident-communications/)

 **Zugehörige Videos:** 
+ [ Atlassian – Erstellung eines eigenen Kommunikationsplans für Vorfälle: Vorlagen für Zwischenfälle ](https://www.youtube.com/watch?v=ZROVn6-K2qU)

 **Zugehörige Beispiele:** 
+  [AWS Health-Dashboard ](https://aws.amazon.com/premiumsupport/technology/aws-health-dashboard/) 

# OPS10-BP06 Bekanntgeben des Status über Dashboards
<a name="ops_event_response_dashboards"></a>

 Verwenden Sie Dashboards als strategisches Werkzeug, um den Betriebsstatus und wichtige Metriken in Echtzeit an verschiedene Zielgruppen zu vermitteln, darunter interne technische Teams, Führungskräfte und Kunden. Diese Dashboards bieten eine zentrale, visuelle Darstellung des Systemzustands und der Geschäftsleistung und erhöhen so die Transparenz und die Effizienz der Entscheidungsfindung. 

 **Gewünschtes Ergebnis:** 
+  Ihre Dashboards bieten einen umfassenden Überblick über das System und die Geschäftskennzahlen, die für verschiedene Stakeholder relevant sind. 
+  Stakeholder können proaktiv auf Betriebsinformationen zugreifen, sodass keine häufigen Statusanfragen mehr erforderlich sind. 
+  Die Entscheidungsfindung in Echtzeit wird während des normalen Betriebs und bei Vorfällen verbessert. 

 **Typische Anti-Muster:** 
+ Techniker, die an einem Vorfallmanagementgespräch teilnehmen, benötigen Statusaktualisierungen, um sich auf dem Laufenden zu halten.
+ Sie verlassen sich auf die manuelle Berichterstattung für das Management, was zu Verzögerungen und möglichen Ungenauigkeiten führt.
+  Die Arbeit der Operations-Teams wird bei Vorfällen häufig für Statusaktualisierungen unterbrochen. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Ermöglicht Stakeholdern den sofortigen Zugriff auf wichtige Informationen und fördert so fundierte Entscheidungen. 
+  Reduziert betriebliche Ineffizienzen, indem manuelle Berichte und häufige Statusabfragen minimiert werden. 
+  Erhöht die Transparenz und das Vertrauen durch Echtzeiteinblicke in die Systemleistung und Geschäftskennzahlen. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Dashboards vermitteln effektiv den Status Ihres Systems und Ihrer Geschäftskennzahlen und können an die Anforderungen verschiedener Zielgruppen angepasst werden. Mit Tools wie Amazon-CloudWatch-Dashboards und Amazon Quick können Sie interaktive Echtzeit-Dashboards für die Systemüberwachung und Business Intelligence erstellen. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  **Ermittlung der Bedürfnisse der Stakeholder:** Ermitteln Sie den spezifischen Informationsbedarf verschiedener Zielgruppen, z. B. technische Teams, Führungskräfte und Kunden. 

1.  **Auswahl der richtigen Tools:** Wählen Sie geeignete Tools wie [Amazon CloudWatch-Dashboards](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) für die Systemüberwachung und [Amazon Quick](https://aws.amazon.com/quicksight/) für interaktive Business Intelligence aus. [AWS Health](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) stellt eine sofort einsatzbereite Erfahrung in der [AWS Health Dashboard](https://health.aws.amazon.com/health/home) bereit. Sie können auch Integritätsereignisse in Amazon EventBridge oder über die AWS Health-API verwenden, um Ihre eigenen Dashboards zu erweitern. 

1.  **Entwicklung effektiver Dashboards:** 
   +  Entwickeln Sie Dashboards, um relevante Metriken und KPIs übersichtlich darzustellen und sicherzustellen, dass sie verständlich und umsetzbar sind. 
   +  Integrieren Sie bei Bedarf Ansichten auf System- und Unternehmensebene. 
   +  Inkludieren Sie sowohl Dashboards auf hoher Ebene (für umfassende Übersichten) als auch auf niedriger Ebene (für detaillierte Analysen). 
   +  Integrieren Sie automatische Alarme in Dashboards, um kritische Probleme hervorzuheben. 
   +  Kommentieren Sie Dashboards mit wichtigen Schwellenwerten und Zielen für Metriken für sofortige Sichtbarkeit. 

1.  **Integration von Datenquellen:** 
   +  Verwenden Sie [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/), um Metriken aus verschiedenen AWS-Services zu aggregieren und anzuzeigen und [Metriken aus anderen Datenquellen abzufragen](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html). So erhalten Sie eine einheitliche Ansicht der Integritäts- und Geschäftskennzahlen Ihres Systems. 
   +  Verwenden Sie Features wie [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html), um Protokolldaten aus verschiedenen Anwendungen und Services abzufragen und zu visualisieren. 
   +  Verwenden Sie AWS Health-Ereignisse, um über den operativen Status und bestätigte operative Probleme in AWS-Services über die [AWS Health-API](https://docs.aws.amazon.com/health/latest/APIReference/Welcome.html) oder über [AWS Health-Ereignisse in Amazon EventBridge](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) informiert zu bleiben. 

1.  **Bereitstellung von Selfservice-Zugriff:** 
   +  Teilen Sie CloudWatch-Dashboards mit relevanten Stakeholdern für den Selfservicezugriff auf Informationen mithilfe von [Dashboard-Freigabe-Features](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html). 
   +  Stellen Sie sicher, dass Dashboards leicht zugänglich sind und aktuelle Informationen in Echtzeit bereitstellen. 

1.  **Regelmäßige Aktualisierungen und Verbesserungen:** 
   +  Aktualisieren und verbessern Sie die Dashboards kontinuierlich, um sie an die sich entwickelnden Geschäftsanforderungen und das Feedback der Stakeholder anzupassen. 
   +  Überprüfen Sie die Dashboards regelmäßig, um sicherzustellen, dass sie relevant und effektiv sind, um die erforderlichen Informationen zu vermitteln. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS08-BP05 Erstellen von Dashboards](ops_workload_observability_create_dashboards.md) 

 **Zugehörige Dokumente:** 
+ [ Erstellung von Dashboards für operative Sichtbarkeit ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Amazon-CloudWatch-Dashboards verwenden ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html)
+ [ Flexible Dashboards mit Dashboard-Variablen erstellen ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html)
+ [ CloudWatch-Dashboards freigeben ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-dashboard-sharing.html)
+ [ Metriken aus anderen Datenquellen abfragen ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/MultiDataSourceQuerying.html)
+ [ Hinzufügen eines benutzerdefinierten Widgets zu einem CloudWatch-Dashboard ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html)

 **Zugehörige Beispiele:** 
+ [ Workshop zur Beobachtbarkeit – Dashboards ](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US/aws-native/dashboards)

# OPS10-BP07 Automatisieren Sie Reaktionen auf Ereignisse
<a name="ops_event_response_auto_event_response"></a>

 Die Automatisierung von Reaktionen auf Ereignisse ist der Schlüssel für eine schnelle, konsistente und fehlerfreie operative Abwicklung. Erstellen Sie optimierte Prozesse und verwenden Sie Tools, um Ereignisse automatisch zu verwalten und darauf zu reagieren, um manuelle Eingriffe zu minimieren und die betriebliche Effizienz zu steigern. 

 **Gewünschtes Ergebnis:** 
+  weniger menschliche Fehler und schnellere Lösungszeiten durch Automatisierung 
+  konsistente und zuverlässige Handhabung betrieblicher Ereignisse 
+  verbesserte betriebliche Effizienz und Systemzuverlässigkeit 

 **Typische Anti-Muster:** 
+ Die manuelle Behandlung von Ereignissen führt zu Verzögerungen und Fehlern.
+ Bei sich wiederholenden, kritischen Aufgaben wird die Automatisierung übersehen.
+  Sich wiederholende, manuelle Aufgaben führen zu Ermüdungserscheinungen und zum Übersehen kritischer Probleme. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  beschleunigte Reaktionen auf Ereignisse, wodurch sich die Ausfallzeiten des Systems reduzieren 
+  zuverlässiger Betrieb mit automatisierter und konsistenter Ereignisbehandlung 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Integrieren Sie Automatisierung, um effiziente Arbeitsabläufe zu schaffen und manuelle Eingriffe zu minimieren. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  **Identifizieren von Möglichkeiten zur Automatisierung:** Bestimmen Sie sich wiederholende Aufgaben für die Automatisierung, wie beispielsweise Problembehebung, Ticketverbesserung, Kapazitätsmanagement, Skalierung, Bereitstellung und Tests. 

1.  **Identifizieren von Automatisierungsaufforderungen:** 
   +  Beurteilen und definieren Sie spezifische Bedingungen oder Kennzahlen, die automatische Reaktionen mithilfe von [ CloudWatch Amazon-Alarmaktionen auslösen](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions). 
   +  Verwenden Sie [Amazon EventBridge](https://aws.amazon.com/eventbridge/), um auf Ereignisse in AWS Services, benutzerdefinierten Workloads und SaaS-Anwendungen zu reagieren. 
   +  Berücksichtigen Sie Initiierungsereignisse wie [bestimmte Protokolleinträge](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html), [Schwellenwerte für Leistungskennzahlen](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) oder [Statusänderungen](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) AWS von Ressourcen. 

1.  **Implementieren der ereignisgesteuerten Automatisierung:** 
   +  Verwenden Sie AWS Systems Manager Automation-Runbooks, um Wartungs-, Bereitstellungs- und Problembehebungsaufgaben zu vereinfachen. 
   +  [Beim Erstellen von Vorfällen in Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) werden automatisch Details zu den beteiligten AWS Ressourcen gesammelt und dem Vorfall hinzugefügt. 
   +  Überwachen Sie Kontingente proaktiv mit [Quota Monitor for AWS](https://aws.amazon.com/solutions/implementations/quota-monitor/). 
   +  Passen Sie die Kapazität mit [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) automatisch an, um Verfügbarkeit und Leistung aufrechtzuerhalten. 
   +  Automatisieren Sie Entwicklungspipelines mit [Amazon CodeCatalyst](https://codecatalyst.aws/explore). 
   +  Testen Sie die Endgeräte oder überwachen Sie sie kontinuierlich und APIs [verwenden Sie synthetische](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) Überwachung. 

1.  **Schadensbegrenzung durch Automatisierung:** 
   +  Implementieren Sie [automatisierte Sicherheitsmaßnahmen](https://aws.amazon.com/solutions/implementations/automated-security-response-on-aws/), um schnell auf Risiken zu reagieren. 
   +  Verwenden Sie [State Manager von AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html), um Konfigurationsabweichungen zu reduzieren. 
   +  [Korrigieren Sie Ressourcen, die nicht den Vorschriften entsprechen](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html), mit. AWS-Config-Regeln

 **Aufwand für den Implementierungsplan:** Hoch 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS08-BP04 Erstellen umsetzbarer Warnmeldungen](ops_workload_observability_create_alerts.md) 
+  [OPS10-BP02 Implementieren eines Prozesses für jede Warnmeldung](ops_event_response_process_per_alert.md) 

 **Zugehörige Dokumente:** 
+  [Verwendung von Systems-Manager-Automation-Runbooks mit Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/tutorials-runbooks.html) 
+  [Erstellen von Vorfällen in Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/incident-creation.html) 
+  [AWS Servicekontingenten](https://docs.aws.amazon.com/general/latest/gr/aws_service_limits.html) 
+  [Überwachen der Ressourcennutzung und Senden von Benachrichtigungen, wenn das Kontingent fast erreicht ist](https://docs.aws.amazon.com/solutions/latest/quota-monitor-for-aws/solution-overview.html) 
+  [AWS Auto Scaling](https://aws.amazon.com/autoscaling/) 
+  [Was ist Amazon CodeCatalyst?](https://docs.aws.amazon.com/codecatalyst/latest/userguide/welcome.html) 
+  [ CloudWatch Amazon-Alarme verwenden](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [ CloudWatch Amazon-Alarmaktionen verwenden](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions) 
+  [Behebung nicht konformer Ressourcen mit AWS-Config-Regeln](https://docs.aws.amazon.com/config/latest/developerguide/remediation.html) 
+  [Erstellen von Metriken aus Protokollereignissen mithilfe von Filtern](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) 
+  [AWS Systems Manager State Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-state.html) 

 **Zugehörige Videos:** 
+ [Erstellen Sie Automatisierungs-Runbooks mit AWS Systems Manager](https://www.youtube.com/watch?v=fQ_KahCPBeU)
+ [So automatisieren Sie den IT-Betrieb auf AWS](https://www.youtube.com/watch?v=GuWj_mlyTug)
+ [AWS Security Hub CSPM Automatisierungsregeln](https://www.youtube.com/watch?v=XaMfO_MERH8)
+ [Starten Sie Ihr Softwareprojekt schnell mit Amazon CodeCatalyst Blueprints](https://www.youtube.com/watch?v=rp7roaoPzFE)

 **Zugehörige Beispiele:** 
+ [ CodeCatalyst Amazon-Tutorial: Erstellen eines Projekts mit dem Blueprint für moderne dreistufige Webanwendungen](https://docs.aws.amazon.com/codecatalyst/latest/userguide/getting-started-template-project.html)
+ [ Workshop zur Beobachtbarkeit ](https://catalog.us-east-1.prod.workshops.aws/workshops/31676d37-bbe9-4992-9cd1-ceae13c5116c/en-US)
+ [ Reaktion auf Vorfälle mit Incident Manager ](https://catalog.workshops.aws/getting-started-with-com/en-US/operations-management/incident-manager)

# Weiterentwicklung
<a name="a-evolve"></a>

**Topics**
+ [

# OPS 11. Wie können Sie Arbeitsvorgänge weiterentwickeln?
](ops-11.md)

# OPS 11. Wie können Sie Arbeitsvorgänge weiterentwickeln?
<a name="ops-11"></a>

 Widmen Sie nahezu kontinuierlichen inkrementellen Verbesserungen Zeit und Ressourcen, um die Effektivität und Effizienz Ihrer Betriebsabläufe weiterzuentwickeln. 

**Topics**
+ [

# OPS11-BP01 Implementieren eines Prozesses für die kontinuierliche Verbesserung
](ops_evolve_ops_process_cont_imp.md)
+ [

# OPS11-BP02 Führen Sie eine Analyse nach dem Vorfall durch
](ops_evolve_ops_perform_rca_process.md)
+ [

# OPS11-BP03 Implementieren Sie Feedback-Schleifen
](ops_evolve_ops_feedback_loops.md)
+ [

# OPS11-BP04 Wissensmanagement durchführen
](ops_evolve_ops_knowledge_management.md)
+ [

# OPS11-BP05 Definieren von Verbesserungsfaktoren
](ops_evolve_ops_drivers_for_imp.md)
+ [

# OPS11-BP06 Erkenntnisse validieren
](ops_evolve_ops_validate_insights.md)
+ [

# OPS11-BP07 Führen Sie Prüfungen der Betriebsmetriken durch
](ops_evolve_ops_metrics_review.md)
+ [

# OPS11-BP08 Dokumentieren und Weitergeben von Erkenntnissen
](ops_evolve_ops_share_lessons_learned.md)
+ [

# OPS11-BP09 Nehmen Sie sich Zeit, um Verbesserungen vorzunehmen
](ops_evolve_ops_allocate_time_for_imp.md)

# OPS11-BP01 Implementieren eines Prozesses für die kontinuierliche Verbesserung
<a name="ops_evolve_ops_process_cont_imp"></a>

 Bewerten Sie Ihre Workload mithilfe bewährter Methoden für interne und externe Architekturen. Führen Sie häufige, bewusste Workload-Überprüfungen durch. Räumen Sie Verbesserungsmöglichkeiten in Ihrem Softwareentwicklungsplan Priorität ein. 

 **Gewünschtes Ergebnis:** 
+  Sie analysieren Ihre Workload regelmäßig anhand bewährter Methoden für die Architektur. 
+  Sie räumen den Features in Ihrem Softwareentwicklungsprozess die gleiche Priorität wie Verbesserungsmöglichkeiten ein. 

 **Typische Anti-Muster:** 
+  Sie haben seit der Bereitstellung Ihrer Workload vor einigen Jahren keine Architekturüberprüfung durchgeführt. 
+  Verbesserungsmöglichkeiten haben geringere Priorität. Im Vergleich zu neuen Features bleiben diese Möglichkeiten im Backlog. 
+  In der Organisation gibt es keinen Standard für die Umsetzung von Änderungen an bewährten Methoden. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Ihre Workload wird durch bewährte Methoden für die Architektur auf dem aktuellen Stand gehalten. 
+  Sie entwickeln Ihre Workload gezielt weiter. 
+  Sie können die bewährten Methoden der Organisation nutzen, um alle Workloads zu verbessern. 
+  Sie erzielen marginale Gewinne, deren kumulative Wirkung jedoch zu einer höheren Effizienz führen. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Führen Sie regelmäßig eine Überprüfung der Architektur Ihrer Workload durch. Bewerten Sie anhand interner und externer bewährter Methoden Ihre Workload und ermitteln Sie Verbesserungsmöglichkeiten. Räumen Sie Verbesserungsmöglichkeiten in Ihrem Softwareentwicklungsplan Priorität ein. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  Führen Sie in vereinbarten Intervallen Überprüfungen der Architektur Ihrer Produktions-Workloads durch. Verwenden Sie einen dokumentierten Architekturstandard mit AWS-spezifischen bewährten Methoden. 

   1.  Verwenden Sie Ihre intern definierten Standards für diese Bewertungen. Wenn Sie nicht über einen internen Standard verfügen, verwenden Sie das AWS Well-Architected Framework. 

   1.  Verwenden Sie AWS Well-Architected Tool, um einen Fokusbereich Ihrer internen bewährten Methoden zu erstellen und Ihre Architekturprüfung durchzuführen. 

   1.  Wenden Sie sich an Ihren AWS Solution Architect oder Technical Account Manager, um einen geführten Well-Architected Framework Review Ihrer Workload durchzuführen. 

1.  Räumen Sie den während der Überprüfung ermittelten Verbesserungsmöglichkeiten in Ihrem Softwareentwicklungsprozess Priorität ein. 

 **Aufwand für den Implementierungsplan:** Niedrig. Sie können das AWS Well-Architected Framework zur Durchführung Ihrer jährlichen Architekturprüfung verwenden. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS11-BP02 Durchführen von Analysen nach Vorfällen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) 
+  [OPS11-BP08 Dokumentieren und Weitergeben von Erkenntnissen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_share_lessons_learned.html) 
+  [OPS04 – Implementieren von Beobachtbarkeit](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_process_cont_imp.html) 

 **Zugehörige Dokumente:** 
+  [AWS Well-Architected Tool – Fokusbereiche](https://docs.aws.amazon.com/wellarchitected/latest/userguide/lenses-custom.html) 
+  [AWS Well-Architected Whitepaper – The review process](https://docs.aws.amazon.com/wellarchitected/latest/framework/the-review-process.html) 
+  [Customize Well-Architected Reviews using Custom Lenses and the AWS Well-Architected Tool](https://aws.amazon.com/blogs/mt/customize-well-architected-reviews-using-custom-lenses-and-the-aws-well-architected-tool/) 
+  [Implementing the AWS Well-Architected Custom Lens lifecycle in your organization](https://aws.amazon.com/blogs/architecture/implementing-the-aws-well-architected-custom-lens-lifecycle-in-your-organization/) 

 **Zugehörige Videos:** 
+  [AWS re:Invent 2023 – Scaling AWS Well-Architected best practices across your organization](https://youtu.be/UXtZCoE9qfQ?si=OPATCOY2YAwiF2TS) 

 **Zugehörige Beispiele:** 
+  [AWS Well-Architected Tool](https://docs.aws.amazon.com/wellarchitected/latest/userguide/intro.html) 

# OPS11-BP02 Führen Sie eine Analyse nach dem Vorfall durch
<a name="ops_evolve_ops_perform_rca_process"></a>

 Überprüfen Sie die Ereignisse mit Auswirkungen auf Kunden und bestimmen Sie die beitragenden Faktoren und Präventivmaßnahmen. Entwickeln Sie anhand dieser Informationen Abhilfemaßnahmen, um Wiederholungen einzuschränken oder zu verhindern. Entwickeln Sie Verfahren für schnelle und effektive Reaktionen. Informieren Sie nach Bedarf auf zielgruppengerechte Weise über beitragende Faktoren und Korrekturmaßnahmen. 

 **Gewünschtes Ergebnis:** 
+  Sie haben Prozesse für das Vorfallmanagement eingerichtet, die auch Analysen nach dem Vorfall beinhalten. 
+  Sie verfügen über Pläne zur Beobachtbarkeit, um Daten über Ereignisse zu sammeln. 
+  Anhand dieser Daten können Sie Metriken verstehen und erfassen, die Sie bei der Analyse nach einem Vorfall unterstützen. 
+  Sie lernen aus Vorfällen, um zukünftige Ergebnisse zu verbessern. 

 **Typische Anti-Muster:** 
+  Sie verwalten einen Anwendungsserver. Ungefähr alle 23 Stunden und 55 Minuten werden alle Ihre aktiven Sitzungen beendet. Sie haben versucht, festzustellen, wo der Fehler auf Ihrem Anwendungsserver liegt. Sie vermuten, dass es sich um ein Netzwerkproblem handeln könnte, das Netzwerkteam zeigt sich jedoch unkooperativ, da es für Ihr Anliegen zu beschäftigt ist. Sie haben keinen vordefinierten Prozess, den Sie befolgen könnten, um Support zu erhalten und die nötigen Informationen zu sammeln, um dem Problem auf den Grund zu gehen. 
+  Bei Ihrer Workload kam es zu Datenverlust. Dies ist das erste Mal, dass dieses Problem aufgetreten ist, und die Ursache ist nicht klar. Sie entscheiden, dass es nicht wichtig ist, da Sie die Daten wiederherstellen können. Datenverluste beginnen mit größerer Häufigkeit aufzutreten und wirken sich auf Ihre Kunden aus. Dadurch steigt auch der betriebliche Aufwand, wenn Sie die fehlenden Daten wiederherstellen. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Durch vordefinierte Prozesse zur Bestimmung der Komponenten, Bedingungen, Maßnahmen und Ereignisse, die zu einem Vorfall beigetragen haben, können Sie Verbesserungsmöglichkeiten ermitteln. 
+  Sie können Daten aus der Analyse nach einem Vorfall nutzen, um Verbesserungen vorzunehmen. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Verwenden Sie einen Prozess zur Ermittlung der Faktoren, die dazu beitragen. Überprüfen Sie alle Vorfälle, die sich auf Kunden auswirken. Erarbeiten Sie ein Verfahren, um die beitragenden Faktoren eines Vorfalls zu ermitteln und zu dokumentieren. Damit können Sie Abhilfemaßnahmen entwickeln, um ein erneutes Auftreten einzudämmen oder gänzlich zu verhindern, und Verfahren für eine rasche und wirksame Reaktion erstellen. Informieren Sie gegebenenfalls über die Ursachen von Vorfällen und passen Sie die Kommunikation an Ihre Zielgruppe an. Teilen Sie Ihre Erkenntnisse offen innerhalb Ihrer Organisation mit. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  Erfassen Sie Metriken wie Bereitstellungsänderungen, Konfigurationsänderungen, Startzeit des Vorfalls, Zeitpunkt des Alarms, Zeitpunkt des Einsatzes, Startzeit der Schadensbegrenzung und Zeitpunkt der Behebung des Vorfalls. 

1.  Beschreiben Sie wichtige Zeitpunkte auf der Zeitleiste, um die Ereignisse des Vorfalls zu verstehen. 

1.  Stellen Sie die folgenden Fragen: 

   1.  Könnten Sie die Zeit bis zur Erkennung verkürzen? 

   1.  Gibt es Aktualisierungen von Metriken und Alarmen, durch die der Vorfall früher erkannt würde? 

   1.  Können Sie die Zeit bis zur Diagnose verkürzen? 

   1.  Gibt es Aktualisierungen Ihrer Reaktions- oder Eskalationspläne, mit denen die richtigen Notfallteams früher eingeschaltet werden könnten? 

   1.  Können Sie die Zeit bis zur Schadensbegrenzung verkürzen? 

   1.  Gibt es Runbook- oder Playbook-Schritte, die Sie hinzufügen oder verbessern könnten? 

   1.  Können Sie zukünftige Vorfälle verhindern? 

1.  Erstellen Sie Checklisten und Aktionen. Verfolgen und führen Sie alle Aktionen durch. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS11-BP01 Implementieren eines Prozesses für die kontinuierliche Verbesserung](ops_evolve_ops_process_cont_imp.md) 
+ [OPS4 — Implementieren Sie Beobachtbarkeit](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html)

 **Zugehörige Dokumente:** 
+  [Durchführen einer Analyse nach einem Vorfall im Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/analysis.html) 
+  [Überprüfung der Betriebsbereitschaft](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/iteration.html) 

# OPS11-BP03 Implementieren Sie Feedback-Schleifen
<a name="ops_evolve_ops_feedback_loops"></a>

Feedbackschleifen bieten umsetzbare Erkenntnisse zur Unterstützung der Entscheidungsfindung. Integrieren Sie Feedbackschleifen in Ihre Verfahren und Workloads. Damit können Sie Probleme und Bereiche identifizieren, für die Verbesserungen erforderlich sind. Diese validieren auch Investitionen für Verbesserungen. Diese Feedbackschleifen sind die Grundlage für die kontinuierliche Verbesserung Ihrer Workload.

 Feedbackschleifen können in zwei Kategorien unterteilt werden: *sofortiges Feedback* und *nachträgliche Analysen*. Sofortiges Feedback wird durch Prüfung der Leistung und der Ergebnisse betrieblicher Aktivitäten eingeholt. Dieses Feedback kommt von Teammitgliedern, Kunden oder der automatisierten Ausgabe der Aktivität. Sofortiges Feedback kommt von Dingen wie A/B-Tests und der Auslieferung neuer Features und ist für das „Schnell scheitern“-Konzept von entscheidender Bedeutung. 

 Nachträgliche Analysen werden regelmäßig durchgeführt, um Feedback aus der Überprüfung betrieblicher Ergebnisse und Metriken in der Vergangenheit zu erhalten. Dies geschieht am Ende einer Phase, in regelmäßigem Rhythmus oder nach größeren Releases oder Veranstaltungen. Diese Art von Feedbackschleife validiert Investitionen in Betriebsabläufe oder Ihre Workload. Dies hilft Ihnen beim Messen des Erfolgs und bei der Validierung Ihrer Strategie. 

 **Gewünschtes Ergebnis:** Sie nutzen sofortiges Feedback und nachträgliche Analysen für weitere Verbesserungen. Es gibt einen Mechanismus zur Erfassung des Feedbacks von Benutzern und Teammitgliedern. Nachträgliche Analysen identifizieren Trends, die Verbesserungen unterstützen können. 

 **Typische Anti-Muster:** 
+ Sie starten ein neues Feature, haben aber keine Möglichkeit, Feedback von den Kunden dazu zu erhalten.
+ Nach einer Investition in verbesserte Betriebsabläufe führen Sie keine nachträgliche Analyse für deren Validierung durch.
+ Sie holen das Feedback von Kunden ein, überprüfen dies jedoch nicht regelmäßig.
+ Feedbackschleifen führen zu vorgeschlagenen Maßnahmen, werden jedoch nicht in den Softwareentwicklungsprozess einbezogen.
+  Kunden erhalten kein Feedback zu Verbesserungen, die sie vorgeschlagen haben. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Sie können vom Kunden aus rückwärts arbeiten, um neue Features zu unterstützen. 
+  Ihre Organisationskultur kann schneller auf Änderungen reagieren. 
+  Trends dienen zur Identifizierung von Verbesserungsmöglichkeiten. 
+  Nachträgliche Analysen validieren in Ihre Workloads und Betriebsabläufe getätigte Investitionen. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Die Implementierung dieser bewährten Methode bedeutet, dass Sie sofortiges Feedback und nachträgliche Analysen verwenden. Diese Feedbackschleifen erleichtern Verbesserungen. Es gibt zahlreiche Mechanismen für sofortiges Feedback, z. B. Umfragen, Kundenbefragungen oder Feedbackformulare. Ihre Organisation nutzt nachträgliche Analysen auch, um Möglichkeiten für Verbesserungen zu identifizieren und Initiativen zu validieren. 

 **Kundenbeispiel** 

 AnyCompany Retail hat ein Webformular erstellt, über das Kunden Feedback geben oder Probleme melden können. Bei der wöchentlichen Scrum-Sitzung evaluiert das Softwareentwicklungsteam das Benutzerfeedback. Das Feedback wird regelmäßig genutzt, um die Weiterentwicklung der Plattform zu steuern. Am Ende jeder Etappe wird eine nachträgliche Analyse durchgeführt, um Punkte zu identifizieren, bei denen Verbesserungsbedarf besteht. 

## Implementierungsschritte
<a name="implementation-steps"></a>

1. Sofortiges Feedback
   +  Sie benötigen einen Mechanismus für den Erhalt von Feedback von Kunden und Teammitgliedern. Ihre betrieblichen Aktivitäten können auch so konfiguriert werden, dass Sie automatisiertes Feedback erhalten. 
   +  Ihre Organisation benötigt einen Prozess zur Prüfung dieses Feedbacks, zum Feststellen der Verbesserungsbereiche und zur Planung der Verbesserungen. 
   +  Das Feedback muss in Ihren Softwareentwicklungsprozess integriert werden. 
   +  Wenn Sie Verbesserungen durchführen, informieren Sie die Personen, die dazu Feedback gegeben haben. 
     +  Sie können [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html)es verwenden, um diese Verbesserungen zu erstellen und nachzuverfolgen als [OpsItems](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter-working-with-OpsItems.html).

1.  Nachträgliche Analyse 
   +  Führen Sie nachträgliche Analysen am Ende eines Entwicklungszyklus, in regelmäßigen Abständen oder nach einem größeren Release durch. 
   +  Laden Sie an der Workload beteiligte Stakeholder zu einer Nachbesprechung ein. 
   +  Erstellen Sie auf einem Whiteboard oder in einem Spreadsheet drei Spalten: Beenden, Starten und Beibehalten. 
     +  *Beenden* gilt für alles, mit dem Ihr Team aufhören soll. 
     +  *Starten* gilt für Ideen, die ab sofort umgesetzt werden sollen. 
     +  *Beibehalten* gilt für Elemente, die weiterhin durchgeführt werden sollen. 
   +  Holen Sie das Feedback aller anwesenden Stakeholder ein. 
   +  Priorisieren Sie das Feedback. Weisen Sie allen „Starten“- oder „Beibehalten“-Elementen Aktionen und Stakeholder zu. 
   +  Fügen Sie die Aktionen Ihrem Softwareentwicklungsprozess hinzu und halten Sie die Stakeholder bei Ihren Verbesserungen über den Status auf dem Laufenden. 

 **Aufwand für den Implementierungsplan:** Mittel. Zur Implementierung dieser bewährten Methode benötigen Sie ein Verfahren zum Einholen und zur Analyse sofortigen Feedbacks. Dazu müssen Sie auch einen Prozess für die nachträgliche Analyse einrichten. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS01-BP01 Bewerten der Bedürfnisse externer Kunden](ops_priorities_ext_cust_needs.md): Feedbackschleifen sind ein Mechanismus zum Ermitteln der Anforderungen externer Kunden. 
+  [OPS01-BP02 Evaluieren Sie die internen Kundenbedürfnisse](ops_priorities_int_cust_needs.md): Interne Stakeholder können Feedbackschleifen nutzen, um Bedürfnisse und Anforderungen zu kommunizieren. 
+  [OPS11-BP02 Führen Sie eine Analyse nach dem Vorfall durch](ops_evolve_ops_perform_rca_process.md): Analysen nach einem Vorfall sind eine wichtige Form nachträglicher Analyse nach Vorfällen. 
+  [OPS11-BP07 Führen Sie Prüfungen der Betriebsmetriken durch](ops_evolve_ops_metrics_review.md): Durch die Prüfung betrieblicher Metriken können Sie Trends und Bereiche für Verbesserungen identifizieren. 

 **Zugehörige Dokumente:** 
+  [7 Fallstricke, die Sie beim Bau eines vermeiden sollten CCOE](https://aws.amazon.com/blogs/enterprise-strategy/7-pitfalls-to-avoid-when-building-a-ccoe/) 
+  [Atlassian Team Playbook – Retrospectives](https://www.atlassian.com/team-playbook/plays/retrospective) 
+  [E-Mail-Definitionen: Feedbackschleifen](https://aws.amazon.com/blogs/messaging-and-targeting/email-definitions-feedback-loops/) 
+  [Etablierung von Feedback-Schleifen auf der Grundlage des AWS Well-Architected Framework Review](https://aws.amazon.com/blogs/architecture/establishing-feedback-loops-based-on-the-aws-well-architected-framework-review/) 
+  [IBMGarage Methodology — Halten Sie einen Rückblick](https://www.ibm.com/garage/method/practices/learn/practice_retrospective_analysis/) 
+  [Investopedia — Der Zyklus PDCS](https://www.investopedia.com/terms/p/pdca-cycle.asp) 
+  [Maximizing Developer Effectiveness von Tim Cochran](https://martinfowler.com/articles/developer-effectiveness.html) 
+  [Bewertungen der Betriebsbereitschaft (ORR) Whitepaper — Iteration](https://docs.aws.amazon.com/wellarchitected/latest/operational-readiness-reviews/iteration.html) 
+  [ITILCSI- Kontinuierliche Serviceverbesserung](https://wiki.en.it-processmaps.com/index.php/ITIL_CSI_-_Continual_Service_Improvement)
+  [Toyota und E-Commerce: Lean bei Amazon](https://www.mckinsey.com/capabilities/operations/our-insights/when-toyota-met-e-commerce-lean-at-amazon) 

 **Zugehörige Videos:** 
+  [Aufbau effektiver Kundenfeedbackschleifen](https://www.youtube.com/watch?v=zz_VImJRZ3U) 

 **Zugehörige Beispiele: ** 
+  [Astuto – Open-Source-Tool für Kundenfeedback](https://github.com/riggraz/astuto) 
+  [AWS Lösungen — Q nABot auf AWS](https://aws.amazon.com/solutions/implementations/qnabot-on-aws/) 
+  [Fider – Eine Plattform zur Organisation von Kundenfeedback](https://github.com/getfider/fider) 

 **Zugehörige Services:** 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 

# OPS11-BP04 Wissensmanagement durchführen
<a name="ops_evolve_ops_knowledge_management"></a>

Durch ein Wissensmanagement erhalten Teammitgliieder die Informationen, die sie für ihre Arbeit benötigen. In lernenden Organisationen werden Informationen frei geteilt, was jedem Einzelnen die nötigen Kompetenzen eröffnet. Die Informationen können entdeckt oder gesucht werden. Die Informationen sind korrekt und aktuell. Es gibt Mechanismen, um neue Informationen zu erstellen, bestehende Informationen zu aktualisieren und veraltete Informationen zu archivieren. Das gängigste Beispiel für eine Wissensmanagement-Plattform ist ein Content-Management-System wie ein Wiki. 

 **Gewünschtes Ergebnis:** 
+  Teammitglieder haben Zugriff auf zeitnahe, präzise Informationen. 
+  Die Informationen sind durchsuchbar. 
+  Es gibt Mechanismen zum Hinzufügen, Aktualisieren und Archivieren von Informationen. 

 **Typische Anti-Muster:** 
+ Es gibt keinen zentralen Wissensspeicher. Die Teammitglieder verwalten ihre eigenen Notizen auf ihren lokalen Rechnern.
+  Sie haben ein selbst gehostetes Wiki, aber keine Mechanismen zum Verwalten von Informationen, was dazu führt, dass die Informationen veraltet sind. 
+  Jemand stellt fest, dass Informationen fehlen, aber es gibt keinen Prozess, um das Hinzufügen dieser Informationen zum Team-Wiki anzustoßen. Er fügt sie selbst hinzu, aber versäumt einen wichtigen Schritt, was zu einem Ausfall führt. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Die Teammitglieder werden gestärkt, weil Informationen frei geteilt werden. 
+  Neue Teammitglieder werden schneller eingearbeitet, weil die Dokumentation aktuell und durchsuchbar ist. 
+  Die Informationen sind zeitnah, präzise und umsetzbar. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Das Wissensmanagement ist eine wichtige Facette von lernenden Organisationen. Zunächst benötigen Sie ein zentrales Repository, in dem Sie Ihr Wissen speichern (z. B. ein selbst gehostetes Wiki). Sie müssen Prozesse entwickeln, um Wissen hinzuzufügen, zu aktualisieren und zu archivieren. Entwickeln Sie Standards für das, was dokumentiert werden soll, und lassen Sie alle Beteiligten dazu beitragen. 

 **Kundenbeispiel** 

 AnyCompany Der Einzelhandel hostet ein internes Wiki, in dem das gesamte Wissen gespeichert ist. Die Teammitglieder werden ermutigt, die Wissensdatenbank im Rahmen ihrer täglichen Arbeit zu ergänzen. Ein funktionsübergreifendes Team bewertet vierteljährlich, welche Seiten am wenigsten aktualisiert werden, und entscheidet, ob sie archiviert oder aktualisiert werden sollen. 

 **Implementierungsschritte** 

1.  Beginnen Sie damit, das Content-Management-System zu bestimmen, in dem das Wissen gespeichert werden soll. Holen Sie die Zustimmung der Stakeholder in Ihrer Organisation ein. 

   1.  Wenn Sie kein vorhandenes Content-Management-System haben, können Sie ein selbst gehostetes Wiki oder ein Versionsverwaltungssystem als Ausgangspunkt verwenden. 

1.  Entwickeln Sie Runbooks für das Hinzufügen, Aktualisieren und Archivieren von Informationen. Informieren Sie Ihr Team über diese Prozesse. 

1.  Bestimmen Sie, welches Wissen im Content-Management-System gespeichert werden soll. Beginnen Sie mit den täglichen Aktivitäten (Runbooks und Playbooks), die die Teammitglieder ausführen. Arbeiten Sie mit Stakeholdern zusammen, um Prioritäten für das hinzuzufügende Wissen festzulegen. 

1.  Arbeiten Sie regelmäßig mit Interessengruppen zusammen, um out-of-date Informationen zu identifizieren und zu archivieren oder auf den neuesten Stand zu bringen. 

 **Aufwand für den Implementierungsplan:** Mittel. Wenn Sie kein vorhandenes Content-Management-System haben, können Sie ein selbst gehostetes Wiki oder ein Dokumenten-Repository mit Versionsverwaltung einrichten. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS11-BP08 Dokumentieren und Weitergeben von Erkenntnissen](ops_evolve_ops_share_lessons_learned.md) – Das Wissensmanagement erleichtert den Austausch von Informationen über gewonnene Erkenntnisse. 

 **Zugehörige Dokumente:** 
+ [ Atlassian - Knowledge Management ](https://www.atlassian.com/itsm/knowledge-management)

 **Zugehörige Beispiele:** 
+ [ DokuWiki ](https://www.dokuwiki.org/dokuwiki)
+ [ Gollum ](https://github.com/gollum/gollum)
+ [ MediaWiki ](https://www.mediawiki.org/wiki/MediaWiki)
+ [ Wiki.js ](https://github.com/Requarks/wiki)

# OPS11-BP05 Definieren von Verbesserungsfaktoren
<a name="ops_evolve_ops_drivers_for_imp"></a>

 Identifizieren Sie Verbesserungsmöglichkeiten, damit Sie Chancen basierend auf Daten und Feedbackschleifen bewerten und priorisieren können. Erkunden Sie Verbesserungsmöglichkeiten in Ihren Systemen und Prozessen und automatisieren Sie bei Bedarf. 

 **Gewünschtes Ergebnis:** 
+  Sie verfolgen Daten aus Ihrer gesamten Umgebung. 
+  Sie korrelieren Ereignisse und Aktivitäten mit Geschäftsergebnissen. 
+  Sie können Umgebungen und Systeme vergleichen und gegenüberstellen. 
+  Sie führen einen detaillierten Aktivitätsverlauf Ihrer Bereitstellungen und Ergebnisse. 
+  Sie sammeln Daten, um Ihren Sicherheitsstatus zu stärken. 

 **Typische Anti-Muster:** 
+  Sie sammeln Daten aus Ihrer gesamten Umgebung, korrelieren jedoch keine Ereignisse und Aktivitäten. 
+  Sie sammeln detaillierte Daten aus Ihrem gesamten Bestand, was die Aktivität und Kosten von Amazon CloudWatch und AWS CloudTrail in die Höhe treibt. Sie ziehen jedoch keinen sinnvollen Nutzen aus diesen Daten. 
+  Bei der Definition von Verbesserungsfaktoren berücksichtigen Sie nicht die Geschäftsergebnisse. 
+  Sie messen nicht die Auswirkungen neuer Features. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Sie minimieren die Auswirkungen ereignisbasierter Motivationen oder emotionaler Investitionen, indem Sie Verbesserungskriterien festlegen. 
+  Sie reagieren auf alle, nicht nur technische Geschäftsereignisse. 
+  Sie messen Ihre Umgebung, um Verbesserungsbereiche zu identifizieren. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>
+  Kenntnis der Verbesserungsfaktoren: Sie sollten ein System nur dann ändern, wenn das gewünschte Ergebnis auch unterstützt wird. 
  +  Gewünschte Fähigkeiten: Prüfen Sie bei der Bewertung von Verbesserungsmöglichkeiten die gewünschten Features und Fähigkeiten. 
    +  [Neuerungen bei AWS](https://aws.amazon.com/new/) 
  +  Nicht akzeptable Probleme: Prüfen Sie bei der Bewertung von Verbesserungsmöglichkeiten nicht akzeptable Probleme, Fehler und Schwachstellen. Informieren Sie sich über Dimensionierungsoptionen und suchen Sie nach Optimierungsmöglichkeiten. 
    +  [AWS Latest Security Bulletins](https://aws.amazon.com/security/security-bulletins/) 
    +  [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/trustedadvisor/) 
    +  [Cloud Intelligence Dashboards](https://www.wellarchitectedlabs.com/cloud-intelligence-dashboards/) 
  +  Complianceanforderungen: Prüfen Sie bei der Bewertung von Verbesserungsmöglichkeiten, welche Updates und Änderungen erforderlich sind, um Vorschriften bzw. Richtlinien einzuhalten oder weiterhin den Support eines Drittanbieters nutzen zu können. 
    +  [AWS Compliance](https://aws.amazon.com/compliance/) 
    +  [AWS Compliance Programs](https://aws.amazon.com/compliance/programs/) 
    +  [AWS Compliance Latest News](https://aws.amazon.com/compliance/compliance-latest-news/) 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS01 Organisationsprioritäten](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/organization-priorities.html) 
+  [OPS02 Beziehungen und Eigentümerschaft](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/relationships-and-ownership.html) 
+  [OPS04-BP01 Ermitteln wichtiger Leistungskennzahlen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_observability_identify_kpis.html) 
+  [OPS08 Nutzung der Workload-Beobachtbarkeit](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html) 
+  [OPS09 Grundlegendes zum betrieblichen Status](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/understanding-operational-health.html) 
+  [OPS11-BP03 Implementieren von Feedbackschleifen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_feedback_loops.html) 

 **Zugehörige Dokumente:** 
+  [Amazon Athena](https://aws.amazon.com/athena/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc) 
+  [Schnell](https://aws.amazon.com/quicksight/) 
+  [AWS Compliance](https://aws.amazon.com/compliance/) 
+  [AWS Compliance Latest News](https://aws.amazon.com/compliance/compliance-latest-news/) 
+  [AWS Compliance Programs](https://aws.amazon.com/compliance/programs/) 
+  [AWS Glue](https://aws.amazon.com/glue/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc) 
+  [AWS Latest Security Bulletins](https://aws.amazon.com/security/security-bulletins/) 
+  [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/trustedadvisor/) 
+  [Exportieren von Protokolldaten nach Amazon S3](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/S3Export.html) 
+  [Neuerungen bei AWS](https://aws.amazon.com/new/) 
+  [The Imperatives of Customer-Centric Innovation](https://aws.amazon.com/executive-insights/content/the-imperatives-of-customer-centric-innovation/) 
+  [Digital Transformation: Hype or a Strategic Necessity?](https://aws.amazon.com/blogs/enterprise-strategy/digital-transformation-hype-or-a-strategic-necessity/) 

 **Zugehörige Videos** 
+  [AWS re:Invent 2023 – Improve operational efficiency and resilience with Support (SUP310)](https://youtu.be/jaehZYBNG0Y?si=UNEaLZsXDrxcBgYo) 

# OPS11-BP06 Erkenntnisse validieren
<a name="ops_evolve_ops_validate_insights"></a>

 Überprüfen Sie Ihre Analyseergebnisse und Reaktionen mit fachbereichsübergreifenden Teams und Geschäftsverantwortlichen. Schaffen Sie mithilfe dieser Prüfungen ein allgemeines Verständnis, ermitteln Sie weitere Auswirkungen und legen Sie einen Maßnahmenkatalog fest. Passen Sie die Reaktionen bei Bedarf an. 

 **Gewünschte Ergebnisse:** 
+  Sie überprüfen regelmäßig Erkenntnisse mit Geschäftsbereichsleitern. Geschäftsinhaber bieten zusätzlichen Kontext für neu gewonnene Erkenntnisse. 
+  Sie überprüfen Erkenntnisse und bitten um Feedback von Fachkollegen, und Sie teilen Ihre Erkenntnisse mit allen Teams. 
+  Sie veröffentlichen Daten und Erkenntnisse, die andere technische und Geschäftsteams überprüfen können. Sie entwickeln aus Ihren Erkenntnisse neue Methoden für andere Abteilungen. 
+  Sie fassen neue Erkenntnisse zusammen und besprechen sie mit Führungskräften. Führungskräfte nutzen neue Erkenntnisse, um die Strategie zu definieren. 

 **Typische Anti-Muster:** 
+  Sie veröffentlichen ein neues Feature. Dieses Feature verändert das Verhalten einiger Ihrer Kunden. Ihre Beobachtbarkeit berücksichtigt diese Änderungen nicht. Sie quantifizieren die Vorteile dieser Änderungen nicht. 
+  Sie veröffentlichen ein neues Update und vernachlässigen es, Ihr Update zu aktualisieren. CDN Der CDN Cache ist nicht mehr mit der neuesten Version kompatibel. Sie messen den Prozentsatz der Anforderungen mit Fehlern. Alle Ihre Benutzer melden HTTP 400 Fehler bei der Kommunikation mit Backend-Servern. Sie untersuchen die Kundenfehler und stellen fest, dass Sie die Zeit verschwendet haben, weil Sie die falsche Dimension gemessen haben. 
+  Ihr Service Level Agreement sieht eine Verfügbarkeit von 99,9 % vor und Ihr Wiederherstellungszeitpunkt liegt bei vier Stunden. Der Servicebesitzer behauptet, dass das System keine Ausfallzeiten hat. Sie implementieren eine teure und komplexe Replikationslösung, die Zeit und Geld verschwendet. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Durch die Prüfung von Erkenntnissen zusammen mit Geschäftsinhabern und Fachexperten bauen Sie ein gemeinsames Verständnis auf und sorgen effektiver für Verbesserungen. 
+  Sie entdecken verborgene Probleme und berücksichtigen sie bei zukünftigen Entscheidungen. 
+  Ihr Fokus verlagert sich von technischen Ergebnissen hin zu Geschäftsergebnissen. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>
+  **Prüfen von Erkenntnissen:** Wenden Sie sich an die Geschäftsinhaber und Fachexperten, um sicherzustellen, dass die Bedeutung der von Ihnen gesammelten Daten allgemein verstanden und vereinbart ist. Ermitteln Sie zusätzliche Bedenken, potenzielle Auswirkungen und bestimmen Sie eine Vorgehensweise. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS01-BP06 Bewerten Sie Kompromisse und managen Sie gleichzeitig die Vorteile und Risiken](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_priorities_eval_tradeoffs.html) 
+  [OPS02-BP06 Die Verantwortlichkeiten zwischen den Teams sind vordefiniert oder werden ausgehandelt](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_neg_team_agreements.html) 
+  [OPS11-BP03 Implementieren Sie Feedback-Schleifen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_feedback_loops.html) 

 **Zugehörige Dokumente:** 
+  [Gestaltung eines Cloud-Exzellenzzentrums () CCOE](https://aws.amazon.com/blogs/enterprise-strategy/designing-a-cloud-center-of-excellence-ccoe/) 

 **Zugehörige Videos:** 
+  [Building observability to increase resiliency](https://youtu.be/6bJkYtrMMPI?si=yu8tVMz4a6ax9f34&t=2695) 

# OPS11-BP07 Führen Sie Prüfungen der Betriebsmetriken durch
<a name="ops_evolve_ops_metrics_review"></a>

 Führen Sie regelmäßig teamübergreifend mit Teilnehmern aus verschiedenen Unternehmensbereichen nachträgliche Analysen der operationsspezifischen Metriken durch. Ermitteln Sie mithilfe dieser Prüfungen Verbesserungspotenziale sowie mögliche Maßnahmen und teilen Sie diese Erkenntnisse auch anderen mit. Berücksichtigen Sie bei Ihrer Suche nach Verbesserungsmöglichkeiten all Ihre Umgebungen (z. B. Entwicklungs-, Test- und Produktionsumgebung). 

 **Gewünschtes Ergebnis:** 
+  Sie überprüfen häufig Metriken, die sich auf das Geschäft auswirken. 
+  Sie erkennen und überprüfen Anomalien mithilfe Ihrer Beobachtbarkeitsfunktionen. 
+  Sie verwenden Daten, um die Erreichung von Geschäftsergebnissen und Zielen zu unterstützen. 

 **Typische Anti-Muster:** 
+  Ihr Wartungsfenster unterbricht eine wichtige Verkaufsaktion. Das Unternehmen weiß weiterhin nicht, dass es ein Standard-Wartungsfenster gibt, das verzögert werden könnte, wenn sich andere wichtige Ereignisse auf das Geschäft auswirken. 
+  Sie hatten einen längeren Ausfall, weil in Ihrer Organisation häufig eine veraltete Bibliothek verwendet wird. Inzwischen sind Sie zu einer unterstützten Bibliothek migriert. Die anderen Teams in Ihrer Organisation wissen nicht, dass diese Gefahr besteht. 
+  Sie überprüfen den Kundenerfolg nicht regelmäßig. SLAs Sie tendieren dazu, Ihren Kunden nicht zu treffen. SLAs Wenn Sie Ihren Kunden SLAs nicht treffen, drohen finanzielle Sanktionen. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Indem Sie sich regelmäßig treffen, um Betriebsmetriken, Ereignisse und Vorfälle zu überprüfen, sorgen Sie für ein gemeinsames Verständnis aller Teams. 
+  Ihr Team trifft sich regelmäßig, um Kennzahlen und Vorfälle zu überprüfen. Auf diese Weise können Sie Maßnahmen gegen Risiken ergreifen und Kunden SLAs erkennen. 
+  Sie teilen Ihre gewonnenen Erkenntnisse, die Daten zur Priorisierung und zur gezielten Verbesserung der Geschäftsergebnisse liefern. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>
+  Führen Sie regelmäßig teamübergreifend mit Teilnehmern aus verschiedenen Unternehmensbereichen nachträgliche Analysen der operationsspezifischen Metriken durch. 
+  Binden Sie alle Stakeholder, einschließlich der Teams aus den Bereichen Betriebswirtschaft, Entwicklung und Operationen, ein, indem Sie Ihre Erkenntnisse aus dem sofortigen Feedback und der nachträglichen Analyse und gewonnene Erkenntnisse austauschen. 
+  Machen Sie sich deren Erkenntnisse zunutze, um Verbesserungspotenziale und mögliche Maßnahmen ausfindig zu machen. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS08-BP05 Dashboards erstellen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_workload_observability_create_dashboards.html) 
+  [OPS09-BP03 Überprüfen Sie die Betriebskennzahlen und priorisieren Sie Verbesserungen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_operations_health_review_ops_metrics_prioritize_improvement.html) 
+  [OPS10-BP01 Verwenden Sie einen Prozess für das Ereignis-, Vorfall- und Problemmanagement](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_event_response_event_incident_problem_process.html) 

 **Zugehörige Dokumente:** 
+  [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) 
+  [Referenz zu CloudWatch Amazon-Kennzahlen und -Dimensionen](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html) 
+  [Veröffentlichen von benutzerdefinierten Metriken](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) 
+  [Verwenden von CloudWatch Amazon-Metriken](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) 
+  [Dashboards und Visualisierungen mit CloudWatch](https://docs.aws.amazon.com/prescriptive-guidance/latest/implementing-logging-monitoring-cloudwatch/cloudwatch-dashboards-visualizations.html) 

# OPS11-BP08 Dokumentieren und Weitergeben von Erkenntnissen
<a name="ops_evolve_ops_share_lessons_learned"></a>

 Dokumentieren Sie die Erkenntnisse aus den betrieblichen Aktivitäten und geben Sie diese weiter, damit Sie sie sowohl intern als auch teamübergreifend nutzen können. Die Erkenntnisse Ihres Teams sollten Sie an andere in Ihrer Organisation weitergeben, damit alle davon profitieren. Teilen Sie Informationen und Ressourcen, um vermeidbare Fehler zu verhindern und Entwicklungsbemühungen zu unterstützen, und konzentrieren Sie sich auf die Bereitstellung der angestrebten Features. 

 Definieren Sie mithilfe von AWS Identity and Access Management (IAM) Berechtigungen, die den gesteuerten Zugriff auf die Ressourcen ermöglichen, die Sie innerhalb von Konten und kontenübergreifend freigeben möchten. 

 **Gewünschtes Ergebnis:** 
+  Anschließend sollten Sie versionsgesteuerte Repositories verwenden, um Anwendungsbibliotheken, skriptbasierte Verfahren, Verfahrens- und andere Systemdokumentationen freizugeben. 
+  Sie teilen Ihre Infrastrukturstandards als versionskontrollierte AWS CloudFormation-Vorlagen. 
+  Sie überprüfen die Erkenntnisse, die Sie teamübergreifend gelernt haben. 

 **Typische Anti-Muster:** 
+  Sie erlitten einen längeren Ausfall, weil Ihre Organisation häufig eine fehlerhafte Bibliothek verwendet. Seitdem sind Sie zu einer zuverlässigen Bibliothek migriert. Die anderen Teams in Ihrer Organisation wissen nicht, dass diese Gefahr besteht. Niemand dokumentiert und teilt die Erfahrung mit dieser Bibliothek und sie sind sich des Risikos nicht bewusst. 
+  Sie haben einen Grenzfall in einem intern gemeinsam genutzten Microservice ermittelt, der dazu führt, dass Sitzungen unterbrochen werden. Sie rufen den Service jetzt anders auf, um diesen Grenzfall zu vermeiden. Die anderen Teams in Ihrer Organisation wissen nicht, dass diese Gefahr besteht. 
+  Sie haben eine Möglichkeit gefunden, die Anforderungen an die CPU-Auslastung eines Ihrer Microservices deutlich zu reduzieren. Sie wissen nicht, ob andere Teams auch von diesem Verfahren profitieren könnten. 

 **Vorteile der Einführung dieser bewährten Methode:** Teilen Sie die Erkenntnisse, um Verbesserungen zu unterstützen und erfahrungsbasierte Vorteile zu maximieren. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Niedrig 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>
+  **Dokumentieren und Weitergeben von Erkenntnissen:** Implementieren Sie Verfahren zur Dokumentation der aus der Durchführung von betrieblichen Aktivitäten und nachträglichen Analysen gewonnenen Erkenntnisse, damit auch andere Teams davon profitieren. 
+  **Weitergeben von Erkenntnissen:** Nutzen Sie Verfahren für den teamübergreifenden Austausch gewonnener Erkenntnisse und zugehöriger Artefakte. Veröffentlichen Sie beispielsweise aktualisierte Verfahren, Richtlinien, Governance und bewährte Methoden in einem allgemein zugänglichen Wiki. Teilen Sie Skripte, Code und Bibliotheken über ein gemeinsames Repository. 
  +  Nutzen Sie [AWS re:PostPrivate](https://aws.amazon.com/repost-private/) als Wissensservice, um die Zusammenarbeit und den Wissensaustausch innerhalb Ihres Unternehmens zu optimieren. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS02-BP06 Zuständigkeiten zwischen Teams werden vordefiniert oder ausgehandelt](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_ops_model_def_neg_team_agreements.html) 
+  [OPS05-BP01 Verwendung einer Versionskontrolle](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_version_control.html) 
+  [OPS05-BP06 Gemeinsame Design-Standards](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_share_design_stds.html) 
+  [OPS11-BP03 Implementieren von Feedbackschleifen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_feedback_loops.html) 
+  [OPS11-BP07 Prüfung von Betriebsmetriken](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_metrics_review.html) 

 **Zugehörige Dokumente:** 
+ [ Verbessern Sie die Zusammenarbeit, und teilen Sie Cloud-Wissen auf sichere Weise mit AWS re:Post Private ](https://aws.amazon.com/blogs/aws/increase-collaboration-and-securely-share-cloud-knowledge-with-aws-repost-private/)
+ [Reduzieren Sie Projektverzögerungen mit einer Docs-as-a-Code-Lösung](https://aws.amazon.com/blogs/infrastructure-and-automation/reduce-project-delays-with-docs-as-code-solution/)

 **Zugehörige Videos:** 
+ [AWS re:Invent 2023 – Collaborate within your company and with AWS using AWS re:Post Private ](https://www.youtube.com/watch?v=HNq_kU2QJLU)
+  [Supports You \$1 Exploring the Incident Management Tabletop Exercise](https://www.youtube.com/watch?v=0m8sGDx-pRM) 

# OPS11-BP09 Nehmen Sie sich Zeit, um Verbesserungen vorzunehmen
<a name="ops_evolve_ops_allocate_time_for_imp"></a>

 Reservieren Sie Zeit und Ressourcen innerhalb Ihrer Prozesse, um kontinuierliche, schrittweise Verbesserungen zu ermöglichen. 

 **Gewünschtes Ergebnis:** 
+  Sie können temporäre Duplikate von Umgebungen erstellen. Das senkt die Risiken, den Aufwand und Kosten, die mit dem Experimentieren und Testen verbunden sind. 
+  Diese duplizierten Umgebungen können Sie nutzen, um die aus Ihren Analysen gezogenen Rückschlüsse zu testen, Verbesserungen zu entwickeln und geplante Verbesserungen zu testen. 
+  Sie veranstalten Spieltage und verwenden den Fault Injection Service (FIS), um die Kontrollen und Leitplanken bereitzustellen, die Teams für die Durchführung von Experimenten in einer Produktionsumgebung benötigen. 

 **Typische Anti-Muster:** 
+  Es besteht ein bekanntes Leistungsproblem auf Ihrem Anwendungsserver. Es wird im Backlog hinter jeder geplanten Feature-Implementierung priorisiert. Bleibt die Rate der hinzugefügten geplanten Features konstant, wird das Leistungsproblem niemals behoben. 
+  Genehmigen Sie den Administratoren und Entwicklern, dass sie ihre Überstunden zur Auswahl und Implementierung von Verbesserungen nutzen können, um kontinuierliche Verbesserungen zu unterstützen. Es werden niemals Verbesserungen vorgenommen. 
+  Die Betriebsabnahme ist abgeschlossen und Sie testen die betrieblichen Praktiken nicht erneut. 

 **Vorteile der Einführung dieser bewährten Methode:** Indem Sie Zeit und Ressourcen innerhalb Ihrer Prozesse reservieren, können Sie kontinuierliche, schrittweise Verbesserungen ermöglichen. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Niedrig 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>
+  Einplanen von Zeit für Verbesserungen: Reservieren Sie Zeit und Ressourcen innerhalb Ihrer Prozesse, um kontinuierliche, schrittweise Verbesserungen zu ermöglichen. 
+  Implementieren Sie Änderungen, die zu Verbesserungen führen sollen, und beurteilen Sie deren Ergebnisse. 
+  Versuchen Sie alternative Vorgehensweisen, wenn die Ergebnisse die Ziele nicht erfüllen und die Verbesserung immer noch Priorität hat. 
+  Simulieren Sie Produktionsworkloads durch GameDays, und nutzen Sie die Erkenntnisse aus diesen Simulationen, um sich zu verbessern. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS05-BP08 Verwenden Sie mehrere Umgebungen](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_dev_integ_multi_env.html) 

 **Zugehörige Videos:** 
+  [AWS re:Invent 2023 — Verbessern Sie die Ausfallsicherheit von Anwendungen mit dem Fault Injection Service AWS](https://youtu.be/N0aZZVVZiUw?si=ivYa9ScBfHcj-IAq) 