View a markdown version of this page

Monitoramento de aplicações - OpenSearch Serviço Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Monitoramento de aplicações

O monitoramento de aplicativos fornece uma visão em tempo real do desempenho de seus serviços. Ele combina dados de topologia armazenados OpenSearch com métricas RED de séries temporais (taxa, erros, duração) do Amazon Managed Service for Prometheus para revelar informações de integridade, latência, taxa de transferência e erro em seu sistema distribuído.

Para acessar o monitoramento de aplicativos, na OpenSearch interface do usuário, navegue até Observabilidade > Monitoramento de aplicativos. A barra lateral mostra duas visualizações:

  • Mapa de aplicativos — Gráfico de topologia interativo das dependências do serviço

  • Serviços — Catálogo de todos os serviços instrumentados com filtragem, visualizações detalhadas e links de correlação

Pré-requisitos

Antes de usar o monitoramento de aplicativos, você deve ter os seguintes recursos configurados.

Como funciona

O diagrama a seguir mostra a end-to-end arquitetura do monitoramento de aplicativos.

  1. Seus aplicativos e infraestrutura emitem telemetria por meio OpenTelemetry SDKs de instrumentação automática ou da API para o Collector. OTel OTel

  2. O OTel coletor encaminha os dados de rastreamento para OpenSearch ingestão via OTLP.

  3. O otel_apm_service_map processador OpenSearch de ingestão extrai service-to-service relacionamentos e calcula as métricas RED.

  4. A topologia e os dados brutos de rastreamento são indexados em. OpenSearch As métricas RED são exportadas para o Amazon Managed Service for Prometheus por meio de gravação remota.

  5. OpenSearch A interface de usuário consulta os dois repositórios para renderizar o mapa do aplicativo, o catálogo de serviços e as visualizações de detalhes do serviço.

Services

A visualização Serviços fornece um catálogo centralizado de todos os serviços instrumentados, exibindo métricas RED (Taxa, Erros, Duração) em um piscar de olhos. Você pode usar essa visualização para identificar rapidamente serviços não íntegros e detalhar as visualizações detalhadas para uma análise mais profunda.

Para acessar a visualização Serviços, navegue até o espaço de trabalho Observability na OpenSearch UI e escolha APM > Serviços.

A página inicial dos Serviços exibe uma tabela de todos os serviços instrumentados junto com painéis de resumo. A imagem a seguir mostra a página inicial dos Serviços.

A tabela a seguir descreve as colunas na tabela de serviços.

Coluna Description
Nome do serviço O nome do serviço instrumentado.
Latência P99 A latência do 99º percentil do serviço.
Latência P90 A latência do 90º percentil do serviço.
Latência P50 A latência do 50º percentil (mediana) do serviço.
Total requests O número total de solicitações processadas durante o intervalo de tempo selecionado.
Taxa de falha A proporção de solicitações malsucedidas em relação ao total de solicitações.
Environment O ambiente de implantação do serviço, como production oustaging.

A página inicial também inclui os seguintes painéis de resumo:

  • Principais serviços por taxa de falhas — Serviços com a maior porcentagem de respostas de 5xx.

  • Principais caminhos de dependência por taxa de falha — caminhos de Service-to-service dependência com as maiores taxas de falha.

Você pode filtrar a tabela de serviços usando os seguintes filtros:

  • Ambiente — Filtre por ambiente de implantação.

  • Latência — Filtre por faixa de latência.

  • Taxa de transferência — Filtre por faixa de taxa de transferência da solicitação.

  • Taxa de falha — Filtrar por faixa de taxa de falha.

Visão geral do serviço

Para abrir a exibição de detalhes do serviço, selecione um nome de serviço na tabela de serviços. A guia Visão geral exibe blocos métricos e gráficos de séries temporais para o serviço selecionado.

A guia Visão geral inclui os seguintes gráficos de séries temporais:

  • Latência por dependências de serviço — latência P50, P90 e P99 dividida por dependências posteriores.

  • Solicitações por operações — Volume de solicitações para cada operação do serviço.

  • Disponibilidade por operações — Porcentagem de respostas bem-sucedidas para cada operação.

  • Taxa de falhas e taxa de erro por operações — Porcentagem de respostas de 5xx e 4xx para cada operação.

Operações

A guia Operações fornece um detalhamento por operação para o serviço selecionado. Você pode classificar a tabela por qualquer coluna para identificar operações problemáticas.

A tabela a seguir descreve as colunas na tabela de operações.

Coluna Description
Nome da operação O nome da operação.
Latência P50/P90/P99 A latência dos percentis 50, 90 e 99 da operação.
Total requests O número total de solicitações para a operação durante o intervalo de tempo selecionado.
Taxa de erro A porcentagem de solicitações que retornaram erros.
Disponibilidade A porcentagem de respostas bem-sucedidas para a operação.

Dependências

A guia Dependências exibe os serviços downstream que o serviço selecionado chama.

A tabela a seguir descreve as colunas na tabela de dependências.

Coluna Description
Serviço de dependência O nome do serviço downstream.
Operação remota A operação solicitou o serviço downstream.
Operações de serviço As operações no serviço atual que chamam essa dependência.
Latência P99/P90/P50 A latência do 99º, 90º e 50º percentil para o caminho da dependência.
Total requests O número total de solicitações para a dependência durante o intervalo de tempo selecionado.
Taxa de erro A porcentagem de solicitações à dependência que retornaram erros.
Disponibilidade A porcentagem de respostas bem-sucedidas da dependência.

Correlações

A visualização detalhada do serviço fornece correlações contextuais que permitem que você navegue diretamente das métricas do serviço até os registros e rastreamentos relacionados. Você pode usar correlações para investigar a causa raiz de picos de latência ou aumentos na taxa de erro.

As seguintes opções de correlação estão disponíveis:

  • Exibir rastreamentos relacionados — Abre uma visualização de rastreamento filtrada para o serviço ou operação selecionada.

  • Exibir registros relacionados — Abre uma exibição de registro filtrada para o serviço ou operação selecionada.

  • Filtrar por atributos — restringe os resultados da correlação por atributos de amplitude específicos.

Mapa do aplicativo

O Application Map é uma visualização de topologia interativa que o OpenSearch Ingestion gera automaticamente a partir de seus dados de rastreamento usando o processador. otel_apm_service_map O mapa exibe os serviços como nós com bordas direcionais que mostram padrões de comunicação, sobrepostos às métricas RED (taxa, erros, duração).

Para acessar o Mapa do Aplicativo, navegue até o espaço de trabalho do Observability na OpenSearch UI e escolha APM > Mapa do aplicativo.

A imagem a seguir mostra o Mapa do Aplicativo.

O mapa exibe as seguintes métricas RED para cada serviço:

  • Taxa — Solicitações por segundo processadas pelo serviço.

  • Erros — Porcentagem de respostas 4xx e 5xx.

  • Duração — latência P50 e P99 para o serviço.

O otel_apm_service_map processador gera essas métricas e as armazena no Amazon Managed Service for Prometheus por meio de gravação remota.

A visualização da topologia representa os serviços como nós e a direção da comunicação como bordas. O código de cores indica o estado de saúde de cada serviço. O mapa é atualizado automaticamente à medida que o OpenSearch Ingestion ingere novos dados de rastreamento.

Serviços de agrupamento

Você pode agrupar serviços por atributos como linguagem de programação, equipe ou ambiente. Quando você seleciona um atributo agrupado por, o mapa muda de um gráfico de topologia para uma visualização em grade de cartões. Cada cartão representa um grupo de serviços que compartilham o mesmo valor de atributo.

Os atributos agrupados disponíveis são determinados pela group_by_attributes configuração do otel_apm_service_map processador em Ingestão. OpenSearch

Visualizando detalhes do nó

Para ver detalhes de um serviço, selecione um nó no mapa. Um painel de detalhes é aberto com as seções a seguir.

A seção Health exibe as seguintes métricas resumidas:

  • Total Requests

  • Total de erros 4xx

  • Total de falhas 5xx

A seção Métricas exibe os seguintes gráficos de séries temporais:

  • Solicitações

  • Latência P50/P90/P99

  • Falhas 5xx

  • Erros 4xx

Escolha Exibir detalhes para navegar até a visualização detalhada dos serviços do serviço selecionado.

Filtrando o mapa

Você pode filtrar o Mapa do Aplicativo usando os seguintes filtros:

  • Taxa de falhas — Filtre os serviços por taxa de falhas do lado do servidor (5xx).

  • Taxa de erro — Filtre os serviços por taxa de erro do lado do cliente (4xx).

  • Ambiente — Filtre os serviços por ambiente de implantação.

A imagem a seguir mostra o mapa filtrado pela taxa de erro.

Correlações contextuais

Você pode navegar diretamente da visualização de topologia até os registros e rastreamentos relacionados. Em qualquer nó de serviço, as seguintes opções de correlação estão disponíveis:

  • Exibir rastreamentos relacionados — Abre uma visualização de rastreamento filtrada para o serviço selecionado.

  • Exibir registros relacionados — Abre uma exibição de registro filtrada para o serviço selecionado.