PERF05-BP05 Verwenden von Automatisierung zur proaktiven Behebung leistungsbezogener Probleme - Säule der Leistungseffizienz

PERF05-BP05 Verwenden von Automatisierung zur proaktiven Behebung leistungsbezogener Probleme

Verwenden Sie wichtige Leistungskennzahlen (KPIs) in Kombination mit Überwachungs- und Warnsystemen, um eine proaktive Behandlung leistungsbezogener Probleme zu ermöglichen.

Typische Anti-Muster:

  • Sie geben dem Betriebspersonal nur die Möglichkeit, betriebliche Änderungen an der Workload vorzunehmen.

  • Sie lassen alle Alarme ohne proaktive Behebung zum Operations-Team filtern.

Vorteile der Nutzung dieser bewährten Methode: Die proaktive Behebung von Alarmaktionen ermöglicht es dem Support-Personal, sich auf die Elemente zu konzentrieren, die nicht automatisch umsetzbar sind. Dies hilft dem Betriebspersonal, alle Alarme zu bewältigen, ohne überfordert zu werden, und sich stattdessen auf die kritischen Alarme zu konzentrieren.

Risikostufe bei fehlender Befolgung dieser bewährten Methode: Niedrig

Implementierungsleitfaden

Verwenden Sie Alarme, um automatisierte Aktionen auszulösen und auf diese Weise Probleme nach Möglichkeit zu beheben. Leiten Sie den Alarm an die Personen weiter, die die richtigen Maßnahmen einleiten können, falls keine automatisierte Reaktion möglich ist. Beispielsweise können Sie ein System nutzen, das erwartete Werte wichtiger Leistungskennzahlen (KPIs) prognostiziert und bei Überschreiten bestimmter Schwellenwerte einen Alarm ausgibt. Denkbar ist auch ein Tool, das Bereitstellungen automatisch anhält oder zurücksetzt, wenn sich KPIs außerhalb der erwarteten Werte befinden.

Implementieren Sie Prozesse, die Ihnen Einblick in die Leistung gewähren, während Ihre Workload ausgeführt wird. Entwickeln Sie Dashboards für die Überwachung und legen Sie Leistungsnormen in Form von Grundwerten fest, um zu bestimmen, ob die Workload optimal funktioniert.

Implementierungsschritte

  • Identifizierung eines Fehlerbehebungs-Workflows: Identifizieren und verstehen Sie das Leistungsproblem, das automatisch behoben werden kann. Verwenden Sie Überwachungslösungen von AWS wie Amazon CloudWatch oder AWS X-Ray, damit Sie die Ursache des Problems besser verstehen.

  • Definition des Automatisierungsprozesses: Erstellen Sie einen schrittweisen Prozess zur Behebung des Problems, mit dem das Problem automatisch behoben werden kann.

  • Konfiguration des Initiierungsereignisses: Konfigurieren Sie das Ereignis so, dass der Prozess zur Mängelbeseitigung automatisch eingeleitet wird. Sie können beispielsweise einen Auslöser definieren, der eine Instance automatisch neu startet, wenn sie einen bestimmten Schwellenwert für die CPU-Auslastung erreicht.

  • Automatisierung der Mängelbeseitigung: Nutzen Sie AWS-Services und -Technologien, um den Prozess zur Mängelbeseitigung zu automatisieren. Beispielsweise bietet AWS Systems Manager Automation eine sichere und skalierbare Möglichkeit, den Prozess zur Mängelbeseitigung zu automatisieren. Achten Sie darauf, die Selbstheilungslogik zu verwenden, um Änderungen rückgängig zu machen, wenn das Problem nicht gelöst wurde.

  • Testen des Workflows: Testen Sie den automatisierten Prozess zur Mängelbeseitigung in einer Vorproduktionsumgebung.

  • Implementieren des Workflows: Implementieren Sie die automatisierte Mängelbeseitigung in der Produktionsumgebung.

  • Entwicklung eines Playbooks: Entwickeln und dokumentieren Sie ein Playbook, in dem die Schritte für den Mängelbeseitigungsplan beschrieben werden, einschließlich der Initiierungsereignisse, der Mängelbeseitigungslogik und der ergriffenen Maßnahmen. Stellen Sie sicher, dass alle Stakeholder entsprechend geschult werden, damit sie effektiv auf automatisierte Mängelbeseitigungsereignisse reagieren können.

  • Überprüfen und verfeinern: Bewerten Sie regelmäßig die Effektivität des automatisierten Mängelbeseitigungsworkflows. Passen Sie bei Bedarf die Initiierungsereignisse und die Mängelbeseitigungslogik an.

Ressourcen

Zugehörige Dokumente:

Zugehörige Videos:

Zugehörige Beispiele: