View a markdown version of this page

Supervisión de aplicaciones - OpenSearch Servicio Amazon

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Supervisión de aplicaciones

La supervisión de las aplicaciones proporciona una visión en tiempo real del rendimiento de sus servicios. Combina los datos de topología almacenados OpenSearch con métricas RED de series temporales (tasa, errores y duración) de Amazon Managed Service for Prometheus para mostrar información sobre el estado, la latencia, el rendimiento y los errores en todo el sistema distribuido.

Para acceder a la supervisión de aplicaciones, en la OpenSearch interfaz de usuario, vaya a Observabilidad > Supervisión de aplicaciones. La barra lateral muestra dos vistas:

  • Mapa de aplicaciones: gráfico topológico interactivo de las dependencias de los servicios

  • Servicios: catálogo de todos los servicios instrumentados con filtros, vistas detalladas y enlaces de correlación

Requisitos previos

Antes de poder utilizar la supervisión de aplicaciones, debe tener configurados los siguientes recursos.

Funcionamiento

El siguiente diagrama muestra la end-to-end arquitectura para la supervisión de aplicaciones.

  1. Sus aplicaciones e infraestructura emiten telemetría a través OpenTelemetry SDKs de la autoinstrumentación o la OTel API al recopilador. OTel

  2. El OTel recopilador reenvía los datos de rastreo a Ingestion a través de OTLP. OpenSearch

  3. El otel_apm_service_map procesador de OpenSearch ingestión extrae service-to-service las relaciones y calcula las métricas de RED.

  4. La topología y los datos de rastreo sin procesar se indexan en. OpenSearch Las métricas RED se exportan a Amazon Managed Service para Prometheus mediante escritura remota.

  5. OpenSearch La interfaz de usuario consulta ambas tiendas para mostrar el mapa de aplicaciones, el catálogo de servicios y las vistas detalladas de los servicios.

Services

La vista de servicios proporciona un catálogo centralizado de todos los servicios instrumentados y muestra las métricas RED (tasa, errores y duración) de un vistazo. Puede utilizar esta vista para identificar rápidamente los servicios insalubres y profundizar en las vistas detalladas para realizar un análisis más profundo.

Para acceder a la vista de servicios, navegue hasta el espacio de trabajo de observabilidad en la OpenSearch interfaz de usuario y seleccione APM > Servicios.

La página de inicio de los servicios muestra una tabla de todos los servicios instrumentados junto con paneles de resumen. La siguiente imagen muestra la página de inicio de los servicios.

En la siguiente tabla se describen las columnas de la tabla de servicios.

Columna Description (Descripción)
Nombre del servicio El nombre del servicio instrumentado.
Latencia P99 El percentil 99 de latencia del servicio.
Latencia P90 El percentil 90 de latencia del servicio.
Latencia P50 El percentil 50 de latencia (mediana) del servicio.
Número total de solicitudes El número total de solicitudes procesadas durante el intervalo de tiempo seleccionado.
Proporción de fallos La relación entre las solicitudes fallidas y el total de solicitudes.
Entorno El entorno de implementación del servicio, como production ostaging.

La página de inicio también incluye los siguientes paneles de resumen:

  • Principales servicios por tasa de errores: servicios con el porcentaje más alto de respuestas de 5 veces.

  • Principales rutas de dependencia por tasa de fallas: rutas de Service-to-service dependencia con las tasas de fallas más altas.

Puede filtrar la tabla de servicios mediante los siguientes filtros:

  • Entorno: filtre por entorno de implementación.

  • Latencia: filtra por rango de latencia.

  • Rendimiento: filtre por rango de rendimiento de la solicitud.

  • Tasa de fallas: filtre por rango de tasa de fallas.

Información general del servicio

Para abrir la vista de detalles del servicio, seleccione un nombre de servicio en la tabla de servicios. La pestaña Descripción general muestra cuadros de métricas y gráficos de series temporales para el servicio seleccionado.

La pestaña Descripción general incluye los siguientes gráficos de series temporales:

  • Latencia por dependencias del servicio: la latencia de P50, P90 y P99 desglosada por dependencias descendentes.

  • Solicitudes por operaciones: volumen de solicitudes para cada operación del servicio.

  • Disponibilidad por operaciones: porcentaje de respuestas satisfactorias para cada operación.

  • Tasa de errores y errores por operación: porcentaje de respuestas de 5 y 4 veces por operación.

Operaciones

La pestaña Operaciones proporciona un desglose por operación del servicio seleccionado. Puede ordenar la tabla por cualquier columna para identificar las operaciones problemáticas.

En la siguiente tabla se describen las columnas de la tabla de operaciones.

Columna Description (Descripción)
Nombre de operación El nombre de la operación.
Latencia P50/P90/P99 La latencia de los percentiles 50, 90 y 99 de la operación.
Número total de solicitudes El número total de solicitudes de la operación durante el intervalo de tiempo seleccionado.
Tasa de errores El porcentaje de solicitudes que devolvieron errores.
Disponibilidad. El porcentaje de respuestas satisfactorias de la operación.

Dependencias

La pestaña Dependencias muestra los servicios descendentes a los que llama el servicio seleccionado.

En la siguiente tabla se describen las columnas de la tabla de dependencias.

Columna Description (Descripción)
Servicio de dependencias El nombre del servicio descendente.
Funcionamiento remoto La operación recurrió al servicio descendente.
Operaciones de servicio Las operaciones del servicio actual que llaman a esta dependencia.
Latencia P99/P90/P50 La latencia de los percentiles 99, 90 y 50 de la ruta de dependencia.
Número total de solicitudes El número total de solicitudes a la dependencia durante el intervalo de tiempo seleccionado.
Tasa de errores El porcentaje de solicitudes a la dependencia que devolvieron errores.
Disponibilidad. El porcentaje de respuestas satisfactorias de la dependencia.

Correlaciones

La vista de detalles del servicio proporciona correlaciones contextuales que le permiten navegar directamente desde las métricas del servicio hasta los registros y seguimientos relacionados. Puede utilizar las correlaciones para investigar la causa principal de los picos de latencia o los aumentos de la tasa de error.

Están disponibles las siguientes opciones de correlación:

  • Ver rastreos relacionados: abre una vista de rastreo filtrada para el servicio o la operación seleccionados.

  • Ver registros relacionados: abre una vista de registro filtrada para el servicio o la operación seleccionados.

  • Filtrar por atributos: reduce los resultados de correlación por atributos de tramo específicos.

Mapa de aplicaciones

El mapa de aplicaciones es una visualización topológica interactiva que OpenSearch Ingestion genera automáticamente a partir de los datos de rastreo mediante el procesador. otel_apm_service_map El mapa muestra los servicios como nodos con bordes direccionales que muestran patrones de comunicación, superpuestos con métricas RED (tasa, errores y duración).

Para acceder al mapa de aplicaciones, navegue hasta el espacio de trabajo de observabilidad en la OpenSearch interfaz de usuario y seleccione APM > Mapa de aplicaciones.

La siguiente imagen muestra el mapa de la aplicación.

El mapa muestra las siguientes métricas de RED para cada servicio:

  • Tasa: solicitudes por segundo procesadas por el servicio.

  • Errores: porcentaje de respuestas de 4 y 5 veces.

  • Duración: latencia de P50 y P99 para el servicio.

El otel_apm_service_map procesador genera estas métricas y las almacena en Amazon Managed Service for Prometheus mediante escritura remota.

La visualización de la topología representa los servicios como nodos y la dirección de la comunicación como bordes. El código de colores indica el estado de cada servicio. El mapa se actualiza automáticamente a medida que OpenSearch Ingestion ingiere nuevos datos de rastreo.

Servicios de agrupamiento

Puede agrupar los servicios por atributos, como el lenguaje de programación, el equipo o el entorno. Al seleccionar un atributo agrupado por, el mapa pasa de ser un gráfico de topología a una vista de cuadrícula de tarjetas. Cada tarjeta representa un grupo de servicios que comparten el mismo valor de atributo.

Los atributos agrupados por disponibles vienen determinados por el group_by_attributes ajuste de la configuración del otel_apm_service_map procesador en Ingestion. OpenSearch

Visualización de los detalles del nodo

Para ver los detalles de un servicio, selecciona un nodo en el mapa. Se abre un panel de detalles con las siguientes secciones.

La sección Salud muestra las siguientes métricas resumidas:

  • Total Requests

  • Número total de errores: 4xx

  • Número total de errores: 5xx

La sección Métricas muestra los siguientes gráficos de series temporales:

  • Solicitudes

  • Latencia P50/P90/P99

  • Fallos: 5xx

  • Errores: 4xx

Seleccione Ver detalles para acceder a la vista de detalles de los servicios del servicio seleccionado.

Filtrar el mapa

Puede filtrar el mapa de la aplicación mediante los siguientes filtros:

  • Tasa de fallas: filtre los servicios por tasa de fallas del lado del servidor (5xx).

  • Tasa de errores: filtra los servicios por tasa de error del lado del cliente (4xx).

  • Entorno: filtre los servicios por entorno de implementación.

La siguiente imagen muestra el mapa filtrado por tasa de error.

Correlaciones contextuales

Puede navegar directamente desde la vista de topología hasta las trazas y registros relacionados. Desde cualquier nodo de servicio, están disponibles las siguientes opciones de correlación:

  • Ver rastreos relacionados: abre una vista de rastreo filtrada para el servicio seleccionado.

  • Ver registros relacionados: abre una vista de registro filtrada para el servicio seleccionado.