

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Painéis de SageMaker HyperPod observabilidade da Amazon
<a name="hyperpod-observability-addon-viewing-dashboards"></a>

Este tópico descreve como visualizar painéis de métricas para seus clusters Amazon SageMaker HyperPod (SageMaker HyperPod) e como adicionar novos usuários a um painel. Este tópico também descreve os diferentes tipos de painel.

## Acesso aos painéis
<a name="hyperpod-observability-addon-accessing-dashboards"></a>

Para visualizar as métricas do seu SageMaker HyperPod cluster no Amazon Managed Grafana, execute as seguintes etapas:

1. Abra o console do Amazon SageMaker AI em [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. Acesse a página de detalhes do seu cluster.

1. Na guia **Painel**, localize a seção **HyperPod Observabilidade** e escolha **Abrir painel no Grafana**.

## Adicionar novos usuários a um espaço de trabalho do Amazon Managed Grafana
<a name="hyperpod-observability-addon-adding-users"></a>

Para ter informações sobre como adicionar usuários a um workspace do Amazon Managed Grafana, consulte [Use AWS IAM Identity Center with your Amazon Managed Grafana workspace](https://docs.aws.amazon.com/grafana/latest/userguide/authentication-in-AMG-SSO.html) no *Guia do usuário do Amazon Managed Grafana*.

## Painéis de observabilidade
<a name="hyperpod-observability-addon-dashboards.title"></a>

O complemento SageMaker HyperPod de observabilidade fornece seis painéis interconectados em seu espaço de trabalho padrão do Amazon Managed Grafana. Cada painel fornece informações detalhadas sobre diferentes recursos e tarefas nos clusters para vários usuários, como cientistas de dados, engenheiros de machine learning e administradores.

### Painel de tarefas
<a name="hyperpod-observability-addon-task-dashboard"></a>

O painel de tarefas fornece monitoramento e visualização abrangentes das métricas de utilização de recursos para SageMaker HyperPod tarefas. O painel principal exibe uma tabela detalhada agrupando o uso de recursos por tarefas principais e mostra a utilização de CPU, GPU e memória nos pods. Grafos interativos de séries temporais monitoram o uso da CPU, o consumo de memória do sistema, as porcentagens de utilização da GPU e o uso de memória da GPU para pods selecionados, permitindo que você monitore as tendências de desempenho ao longo do tempo. O painel apresenta recursos avançados de filtragem por meio de variáveis, como nome do cluster, namespace, tipo de tarefa e pods específicos, facilitando o detalhamento de workloads específicas. Essa solução de monitoramento é essencial para otimizar a alocação de recursos e manter o desempenho das cargas de trabalho de aprendizado de máquina ativadas. SageMaker HyperPod

### Painel de treinamento
<a name="hyperpod-observability-addon-training-dashboard"></a>

O painel de treinamento oferece monitoramento abrangente das métricas de integridade, confiabilidade e gerenciamento de falhas das tarefas de treinamento. O painel apresenta os principais indicadores de desempenho, incluindo contagens de criação de tarefas, taxas de sucesso e porcentagens de tempo de atividade, além de rastreamento detalhado de eventos de reinicialização automática e manual. Ele oferece visualizações detalhadas dos padrões de falha por meio de gráficos circulares e mapas de calor que dividem os incidentes por tipo e latência de correção, permitindo que você identifique problemas recorrentes e otimize a confiabilidade das tarefas. A interface inclui monitoramento em tempo real de métricas críticas, como tempos de recuperação do sistema e latências de detecção de falhas, o que a torna uma ferramenta essencial para manter a alta disponibilidade das workloads de treinamento. Além disso, a janela da últimas 24 horas do painel fornece contexto histórico para analisar tendências e padrões no desempenho das tarefas de treinamento, ajudando as equipes a lidar proativamente com possíveis problemas antes que eles afetem as workloads de produção.

### Painel de inferência
<a name="hyperpod-observability-addon-inference-dashboard"></a>

O painel de inferência oferece monitoramento abrangente do desempenho da implantação do modelo e das métricas de integridade em várias dimensões. Ele apresenta uma visão geral detalhada das implantações ativas, monitoramento em tempo real das taxas de solicitação, porcentagens de sucesso e métricas de latência, permitindo que você acompanhe o desempenho do serviço de modelos e identifique possíveis gargalos. O painel inclui painéis especializados para métricas gerais de inferência e métricas específicas de tokens para modelos de linguagem, como tempo até o primeiro token (TTFT) e throughput do token, o que o torna particularmente valioso para monitorar implantações de grandes modelos de linguagem. Além disso, ele fornece insights de infraestrutura por meio do rastreamento de alocação de pods e nós, ao mesmo tempo em que oferece recursos detalhados de análise de erros para ajudar a manter alta disponibilidade e alto desempenho das workloads de inferência.

### Painel do cluster
<a name="hyperpod-observability-addon-cluster-dashboard"></a>

O painel do cluster fornece uma visão abrangente da integridade e do desempenho do cluster, oferecendo visibilidade em tempo real dos recursos de computação, memória, rede e armazenamento em todo o seu ambiente Amazon SageMaker HyperPod (SageMaker HyperPod). Você pode visualizar métricas essenciais rapidamente, como o total de instâncias, a utilização de GPU, o uso de memória e o desempenho de rede, por meio de uma interface intuitiva que atualiza automaticamente os dados a cada poucos segundos. O painel é organizado em seções lógicas, começando com uma visão geral abrangente do cluster que exibe métricas importantes, como porcentagem de instâncias íntegras e contagens totais de recursos, seguidas de seções detalhadas sobre desempenho da GPU, utilização de memória, estatísticas de rede e métricas de armazenamento. Cada seção apresenta grafos e painéis interativos que permitem detalhar métricas específicas, com intervalos de tempo personalizáveis e opções de filtragem por nome de cluster, instância ou ID da GPU.

### Painel do sistema de arquivos
<a name="hyperpod-observability-addon-filesystem-dashboard"></a>

O painel do sistema de arquivos oferece ampla visibilidade das métricas de desempenho e integridade do sistema de arquivos (Amazon FSx para Lustre). O painel exibe métricas críticas de armazenamento, incluindo capacidade livre, economia de desduplicação, CPU/memory utilização, IOPS de disco, taxa de transferência e conexões de clientes em várias visualizações. Isso possibilita monitorar indicadores de desempenho em nível de sistema, como uso de CPU e memória, bem como métricas específicas de armazenamento, como read/write operações e padrões de utilização de disco. A interface inclui recursos de monitoramento de alertas e grafos detalhados de séries temporais para rastrear tendências de desempenho ao longo do tempo, o que a torna valiosa para manutenção proativa e planejamento de capacidade. Além disso, por meio de sua cobertura abrangente de métricas, o painel ajuda a identificar possíveis gargalos, otimizar o desempenho do armazenamento e garantir operações confiáveis do sistema de arquivos para cargas de trabalho. SageMaker HyperPod 

### Painel de partição da GPU
<a name="hyperpod-observability-addon-gpu-partition-dashboard"></a>

Para monitorar métricas específicas de partições de GPU ao usar configurações de Multi-Instance GPU (MIG), você precisa instalar ou atualizar para a versão mais recente do complemento Observability. SageMaker HyperPod Esse complemento fornece recursos abrangentes de monitoramento, incluindo MIG-specific métricas como contagem de partições, uso de memória e utilização de computação por partição de GPU.

Se você já tem o SageMaker HyperPod Observability instalado, mas precisa de suporte para métricas MIG, basta atualizar o complemento para a versão mais recente. Esse processo não causa interrupções e mantém sua configuração de monitoramento existente.

SageMaker HyperPod expõe MIG-specific métricas automaticamente, incluindo:
+ `nvidia_mig_instance_count`: Número de instâncias MIG por perfil
+ `nvidia_mig_memory_usage`: utilização de memória por instância MIG
+ `nvidia_mig_compute_utilization`: utilização de computação por instância MIG

### Painel de registros do cluster
<a name="hyperpod-observability-addon-cluster-logs-dashboard"></a>

O painel Cluster Logs fornece uma visão centralizada dos CloudWatch registros do seu SageMaker HyperPod cluster. O painel consulta o grupo de `/aws/sagemaker/Clusters/{cluster-name}/{cluster-id}` registros e exibe eventos de log com recursos de filtragem por ID da instância, nome do stream de log, nível de log (ERROR, WARN, INFO, DEBUG) e pesquisa de texto livre. O painel inclui um cronograma de eventos mostrando a distribuição de eventos de log ao longo do tempo, um contador total de eventos, um cronograma de eventos pesquisados para resultados filtrados e um painel de registros detalhado com mensagens de registro completas, carimbos de data/hora e metadados do fluxo de registros. Esse painel é usado CloudWatch como fonte de dados e é útil para depurar problemas de cluster, monitorar eventos de integridade da instância e investigar falhas em tarefas de treinamento.