View a markdown version of this page

Anwendungsüberwachung - OpenSearch Amazon-Dienst

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Anwendungsüberwachung

Die Anwendungsüberwachung bietet einen Echtzeitüberblick über die Leistung Ihrer Dienste. Es kombiniert in Amazon Managed Service for Prometheus gespeicherte Topologiedaten OpenSearch mit RED-Metriken (Rate, Errors, Duration) für Zeitreihen, um Informationen zu Zustand, Latenz, Durchsatz und Fehlern in Ihrem gesamten verteilten System zu ermitteln.

Um auf die Anwendungsüberwachung zuzugreifen, navigieren Sie in der OpenSearch Benutzeroberfläche zu Observability > Application Monitoring. Die Seitenleiste zeigt zwei Ansichten:

  • Anwendungsübersicht — Interaktives Topologiediagramm der Dienstabhängigkeiten

  • Dienste — Katalog aller instrumentierten Dienste mit Filtern, Detailansichten und Korrelationslinks

Voraussetzungen

Bevor Sie die Anwendungsüberwachung verwenden können, müssen Sie die folgenden Ressourcen konfiguriert haben.

Funktionsweise

Das folgende Diagramm zeigt die end-to-end Architektur für die Anwendungsüberwachung.

  1. Ihre Anwendungen und Infrastruktur senden Telemetrie über die OpenTelemetry SDKs automatische Instrumentierung oder die OTel API an den OTel Collector.

  2. Der OTel Collector leitet Trace-Daten über OTLP an OpenSearch Ingestion weiter.

  3. Der OpenSearch otel_apm_service_map Ingestion-Prozessor extrahiert Beziehungen und berechnet RED-Metriken service-to-service.

  4. Topologie und rohe Trace-Daten werden in indexiert. OpenSearch RED-Metriken werden per Fernschreiben an Amazon Managed Service for Prometheus exportiert.

  5. OpenSearch Die Benutzeroberfläche fragt beide Stores ab, um die Anwendungsübersicht, den Servicekatalog und die Service-Detailansichten zu rendern.

Dienstleistungen

Die Ansicht „Dienste“ bietet einen zentralen Katalog aller instrumentierten Dienste und zeigt die RED-Metriken (Rate, Fehler, Dauer) auf einen Blick an. Mithilfe dieser Ansicht können Sie schnell fehlerhafte Services identifizieren und Detailansichten für tiefere Analysen aufrufen.

Um auf die Serviceansicht zuzugreifen, navigieren Sie in der OpenSearch Benutzeroberfläche zum Observability-Workspace und wählen Sie APM > Services aus.

Auf der Services-Startseite werden eine Tabelle mit allen instrumentierten Services sowie Übersichtsfenstern angezeigt. Die folgende Abbildung zeigt die Services-Startseite.

In der folgenden Tabelle werden die Spalten in der Servicetabelle beschrieben.

Spalte Description
Service-Name Der Name des instrumentierten Dienstes.
P99-Latenz Die 99. Perzentil-Latenz für den Dienst.
P90-Latenz Die 90. Perzentil-Latenz für den Dienst.
P50-Latenz Die Latenz im 50. Perzentil (Median) für den Dienst.
Anforderungen insgesamt Die Gesamtzahl der Anfragen, die im ausgewählten Zeitraum verarbeitet wurden.
Fehlerquote Das Verhältnis der fehlgeschlagenen Anfragen zur Gesamtzahl der Anfragen.
Umgebung Die Bereitstellungsumgebung des Dienstes, z. B. production oderstaging.

Die Startseite enthält auch die folgenden Übersichtsbereiche:

  • Top-Dienste nach Fehlerrate — Dienste mit dem höchsten Prozentsatz von 5xx Antworten.

  • Pfade mit den meisten Abhängigkeiten nach Fehlerrate — Service-to-service Abhängigkeitspfade mit den höchsten Fehlerraten.

Sie können die Services-Tabelle mithilfe der folgenden Filter filtern:

  • Umgebung — Nach Bereitstellungsumgebung filtern.

  • Latenz — Nach Latenzbereich filtern.

  • Durchsatz — Filtert nach Anforderungsdurchsatzbereich.

  • Ausfallrate — Filtert nach Fehlerquotenbereich.

Service-Übersicht

Um die Service-Detailansicht zu öffnen, wählen Sie einen Dienstnamen in der Servicetabelle aus. Auf der Registerkarte „Übersicht“ werden metrische Kacheln und Zeitreihendiagramme für den ausgewählten Service angezeigt.

Die Registerkarte „Übersicht“ enthält die folgenden Zeitreihendiagramme:

  • Latenz nach Dienstabhängigkeiten — P50-, P90- und P99-Latenz, aufgeschlüsselt nach Downstream-Abhängigkeiten.

  • Anfragen nach Vorgängen — Anforderungsvolumen für jeden Vorgang des Dienstes.

  • Verfügbarkeit nach Vorgängen — Prozentsatz der erfolgreichen Antworten für jeden Vorgang.

  • Fehlerrate und Fehlerquote nach Vorgängen — Prozentsatz der 5xx- und 4xx-Antworten für jeden Vorgang.

Operationen

Die Registerkarte „Vorgänge“ enthält eine Aufschlüsselung nach Vorgängen für den ausgewählten Dienst. Sie können die Tabelle nach einer beliebigen Spalte sortieren, um problematische Operationen zu identifizieren.

In der folgenden Tabelle werden die Spalten in der Operationstabelle beschrieben.

Spalte Description
Vorgangsname Der Name der Operation.
P50/P90/P99-Latenz Die Latenz im 50., 90. und 99. Perzentil für den Vorgang.
Anforderungen insgesamt Die Gesamtzahl der Anfragen für den Vorgang im ausgewählten Zeitraum.
Fehlerrate Der Prozentsatz der Anfragen, bei denen Fehler zurückgegeben wurden.
Verfügbarkeit Der Prozentsatz der erfolgreichen Antworten für den Vorgang.

Abhängigkeiten

Auf der Registerkarte Abhängigkeiten werden die Downstream-Dienste angezeigt, die der ausgewählte Dienst aufruft.

In der folgenden Tabelle werden die Spalten in der Tabelle mit den Abhängigkeiten beschrieben.

Spalte Description
Dienst für Abhängigkeiten Der Name des Downstream-Dienstes.
Bedienung aus der Ferne Der Vorgang wurde im Downstream-Dienst aufgerufen.
Serviceoperationen Die Operationen im aktuellen Dienst, die diese Abhängigkeit aufrufen.
P99/P90/P50-Latenz Die Latenz im 99., 90. und 50. Perzentil für den Abhängigkeitspfad.
Anforderungen insgesamt Die Gesamtzahl der Anfragen an die Abhängigkeit im ausgewählten Zeitraum.
Fehlerrate Der Prozentsatz der Anfragen an die Abhängigkeit, bei denen Fehler zurückgegeben wurden.
Verfügbarkeit Der Prozentsatz erfolgreicher Antworten aus der Abhängigkeit.

Korrelationen

Die Service-Detailansicht bietet kontextbezogene Korrelationen, mit denen Sie von Servicemetriken direkt zu zugehörigen Traces und Protokollen navigieren können. Sie können Korrelationen verwenden, um die Hauptursache von Latenzspitzen oder erhöhten Fehlerraten zu untersuchen.

Die folgenden Korrelationsoptionen sind verfügbar:

  • Verwandte Ablaufverfolgungen anzeigen — Öffnet eine gefilterte Ablaufverfolgungsansicht für den ausgewählten Dienst oder Vorgang.

  • Verwandte Protokolle anzeigen — Öffnet eine gefilterte Protokollansicht für den ausgewählten Dienst oder Vorgang.

  • Nach Attributen filtern — Schränkt die Korrelationsergebnisse nach bestimmten Span-Attributen ein.

Übersicht der Anwendung

Die Anwendungsübersicht ist eine interaktive Topologievisualisierung, die OpenSearch Ingestion mithilfe des Prozessors automatisch aus Ihren Trace-Daten generiert. otel_apm_service_map Die Karte zeigt Dienste als Knoten mit Richtungskanten, die Kommunikationsmuster zeigen, überlagert mit RED-Metriken (Rate, Errors, Duration).

Um auf die Anwendungsübersicht zuzugreifen, navigieren Sie in der OpenSearch Benutzeroberfläche zum Observability-Workspace und wählen Sie APM > Application Map.

Die folgende Abbildung zeigt die Anwendungsübersicht.

In der Karte werden die folgenden RED-Metriken für jeden Service angezeigt:

  • Rate — Anfragen pro Sekunde, die vom Service verarbeitet werden.

  • Fehler — Prozentsatz der 4xx- und 5xx-Antworten.

  • Dauer — P50- und P99-Latenz für den Dienst.

Der otel_apm_service_map Prozessor generiert diese Metriken und speichert sie per Remote-Schreibzugriff in Amazon Managed Service for Prometheus.

Die Topologievisualisierung stellt Dienste als Knoten und die Kommunikationsrichtung als Kanten dar. Die Farbcodierung gibt den Integritätsstatus der einzelnen Dienste an. Die Karte wird automatisch aktualisiert, wenn OpenSearch Ingestion neue Trace-Daten aufnimmt.

Dienste gruppieren

Sie können Dienste nach Attributen wie Programmiersprache, Team oder Umgebung gruppieren. Wenn Sie ein Gruppierungsattribut auswählen, wechselt die Karte von einem Topologiediagramm zu einer Kartenrasteransicht. Jede Karte steht für eine Gruppe von Diensten, die denselben Attributwert haben.

Die verfügbaren Gruppierungsattribute werden durch die group_by_attributes Einstellung in der otel_apm_service_map Prozessorkonfiguration in OpenSearch Ingestion bestimmt.

Knotendetails anzeigen

Um Details für einen Service anzuzeigen, wählen Sie einen Knoten auf der Karte aus. Ein Detailfenster mit den folgenden Abschnitten wird geöffnet.

Im Bereich Health werden die folgenden zusammenfassenden Kennzahlen angezeigt:

  • Anfragen insgesamt

  • Fehler insgesamt: 4xx

  • Gesamtzahl der Fehler 5xx

Im Bereich Metriken werden die folgenden Zeitreihendiagramme angezeigt:

  • Anforderungen

  • Latenz P50/P90/P99

  • Fehler 5xx

  • Fehler 4xx

Wählen Sie Details anzeigen, um zur Detailansicht der Dienste für den ausgewählten Dienst zu gelangen.

Die Karte filtern

Sie können die Anwendungsübersicht mithilfe der folgenden Filter filtern:

  • Fehlerrate — Filtert Dienste nach serverseitiger Fehlerrate (5xx).

  • Fehlerrate — Filtert Dienste nach der clientseitigen Fehlerrate (4xx).

  • Umgebung — Filtert Dienste nach der Bereitstellungsumgebung.

Die folgende Abbildung zeigt die Karte, gefiltert nach der Fehlerrate.

Korrelationen im Kontext

Sie können von der Topologieansicht aus direkt zu zugehörigen Traces und Logs navigieren. Von jedem Serviceknoten aus sind die folgenden Korrelationsoptionen verfügbar:

  • Verwandte Traces anzeigen — Öffnet eine gefilterte Trace-Ansicht für den ausgewählten Service.

  • Verwandte Protokolle anzeigen — Öffnet eine gefilterte Protokollansicht für den ausgewählten Dienst.