

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# SageMaker HyperPod monitoramento de recursos de cluster
<a name="sagemaker-hyperpod-cluster-observability-slurm"></a>

Para obter uma observabilidade abrangente em seus recursos de SageMaker HyperPod cluster e componentes de software, integre o cluster ao [Amazon Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html) e ao [Amazon](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html) Managed Grafana. A integração com o Amazon Managed Service for Prometheus permite a exportação de métricas relacionadas aos HyperPod seus recursos de cluster, fornecendo informações sobre seu desempenho, utilização e integridade. A integração com o Amazon Managed Grafana permite a visualização dessas métricas por meio de vários painéis do Grafana que oferecem uma interface intuitiva para monitorar e analisar o comportamento do cluster. Ao aproveitar esses serviços, você obtém uma visão centralizada e unificada do seu HyperPod cluster, facilitando o monitoramento proativo, a solução de problemas e a otimização de suas cargas de trabalho de treinamento distribuídas.

**dica**  
Para encontrar exemplos e soluções práticas, veja também o [SageMaker HyperPodworkshop](https://catalog.workshops.aws/sagemaker-hyperpod).

![\[Uma visão geral da configuração SageMaker HyperPod com o Amazon Managed Service para Prometheus e Amazon Managed Grafana.\]](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/hyperpod-observability-architecture.png)


Figura: Este diagrama de arquitetura mostra uma visão geral da configuração SageMaker HyperPod com o Amazon Managed Service para Prometheus e o Amazon Managed Grafana.

Continue com os tópicos a seguir para configurar a observabilidade SageMaker HyperPod do cluster.

**Topics**
+ [Pré-requisitos para a observabilidade do cluster SageMaker HyperPod](sagemaker-hyperpod-cluster-observability-slurm-prerequisites.md)
+ [Instalando pacotes de exportação de métricas em seu cluster HyperPod](sagemaker-hyperpod-cluster-observability-slurm-install-exporters.md)
+ [Validando a configuração do Prometheus no nó principal de um cluster HyperPod](sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup.md)
+ [Configurar um espaço de trabalho do Amazon Managed Grafana](sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws.md)
+ [Referência de métricas exportadas](sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference.md)
+ [Métricas do Amazon SageMaker HyperPod Slurm](smcluster-slurm-metrics.md)

# Pré-requisitos para a observabilidade do cluster SageMaker HyperPod
<a name="sagemaker-hyperpod-cluster-observability-slurm-prerequisites"></a>

Antes de prosseguir com as etapas [Instalando pacotes de exportação de métricas em seu cluster HyperPod](sagemaker-hyperpod-cluster-observability-slurm-install-exporters.md), certifique-se de que os seguintes pré-requisitos foram atendidos:

## Habilitar o IAM Identity Center
<a name="sagemaker-hyperpod-cluster-observability-slurm-prerequisites-iam-id-center"></a>

Para habilitar a observabilidade do seu SageMaker HyperPod cluster, você deve primeiro habilitar o IAM Identity Center. Esse é um pré-requisito para implantar uma CloudFormation pilha que configure o espaço de trabalho Amazon Managed Grafana e o Amazon Managed Service for Prometheus. Ambos os serviços também exigem o IAM Identity Center para autenticação e autorização, garantindo o acesso seguro do usuário e o gerenciamento da infraestrutura de monitoramento.

Para orientações detalhadas a respeito de como habilitar o Centro de Identidade do IAM, consulte a seção [Habilitar o Centro de Identidade do IAM](https://docs.aws.amazon.com/singlesignon/latest/userguide/get-set-up-for-idc.html) no *Guia do usuário do Centro de Identidade do AWS IAM*. 

Depois de habilitar o Centro de Identidade do IAM com sucesso, configure uma conta de usuário que servirá como usuário administrativo em todos os procedimentos de configuração a seguir.

## Crie e implante uma CloudFormation pilha para observabilidade SageMaker HyperPod
<a name="sagemaker-hyperpod-cluster-observability-slurm-prerequisites-cloudformation-stack"></a>

Crie e implante uma CloudFormation pilha de SageMaker HyperPod observabilidade para monitorar métricas de HyperPod cluster em tempo real usando o Amazon Managed Service para Prometheus e o Amazon Managed Grafana. Para implantar a pilha, observe que você também deve habilitar o [Centro de Identidade do IAM](https://console.aws.amazon.com/singlesignon) com antecedência.

Use o CloudFormation script de amostra [https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/4.prometheus-grafana/cluster-observability.yaml](https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/4.prometheus-grafana/cluster-observability.yaml)que ajuda você a configurar as sub-redes Amazon VPC, os sistemas de arquivos FSx Amazon for Lustre, os buckets do Amazon S3 e as funções do IAM necessárias para criar uma pilha de observabilidade de clusters. HyperPod 

# Instalando pacotes de exportação de métricas em seu cluster HyperPod
<a name="sagemaker-hyperpod-cluster-observability-slurm-install-exporters"></a>

Na [configuração básica, os scripts de ciclo](sagemaker-hyperpod-lifecycle-best-practices-slurm-slurm-base-config.md) de vida fornecidos pela SageMaker HyperPod equipe também incluem a instalação de vários pacotes de exportadores de métricas. Para ativar a etapa de instalação, a única coisa que você precisa fazer é definir o parâmetro `enable_observability=True` no arquivo [https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py). Os scripts de ciclo de vida foram projetados para inicializar seu cluster com os seguintes pacotes de exportação de métricas de código aberto:


|  |  |  | 
| --- |--- |--- |
| Nome | Nó de destino da implantação do script | Descrição do exportador | 
| [Exportador de slurm para Prometheus](https://github.com/vpenso/prometheus-slurm-exporter) | Nó principal (controlador) |  Exporta métricas do Slurm Accounting.  | 
|  [exportador de nó Elastic Fabric Adapter (EFA)](https://github.com/aws-samples/awsome-distributed-training/tree/main/4.validation_and_observability/3.efa-node-exporter)  |  Nó de computação  |  Exporta métricas dos nós do cluster e do EFA. O pacote é uma bifurcação do [exportador de nós Prometheus](https://github.com/prometheus/node_exporter).  | 
|  [Exportador de gerenciamento de GPU de data center NVIDIA (DCGM)](https://github.com/NVIDIA/dcgm-exporter)  | Nó de computação |  Exporta métricas NVIDIA DCGM sobre integridade e desempenho da NVIDIA. GPUs  | 

Com o `enable_observability=True` do arquivo [https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/config.py), a etapa de instalação a seguir é ativada no script [https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/lifecycle_script.py](https://github.com/aws-samples/awsome-distributed-training/blob/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/lifecycle_script.py). 

```
# Install metric exporting software and Prometheus for observability
if Config.enable_observability:
    if node_type == SlurmNodeType.COMPUTE_NODE:
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_dcgm_exporter.sh").run()
        ExecuteBashScript("./utils/install_efa_node_exporter.sh").run()

    if node_type == SlurmNodeType.HEAD_NODE:
        wait_for_scontrol()
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_slurm_exporter.sh").run()
        ExecuteBashScript("./utils/install_prometheus.sh").run()
```

Nos nós de computação, o script instala o exportador NVIDIA Data Center GPU Management (DCGM) e o exportador de nós Elastic Fabric Adapter (EFA). O exportador DCGM é um exportador da Prometheus que coleta métricas da NVIDIA, permitindo o monitoramento do uso, desempenho e integridade da GPUs GPU. O exportador de nós EFA, por outro lado, reúne métricas relacionadas à interface de rede EFA, que é essencial para comunicação de baixa latência e alta largura de banda em clusters de HPC.

[No nó principal, o script instala o exportador Slurm para o Prometheus e o software de código aberto Prometheus.](https://prometheus.io/docs/introduction/overview/) O exportador Slurm fornece ao Prometheus métricas relacionadas a trabalhos, partições e estados de nó do Slurm.

Observe que os scripts de ciclo de vida são projetados para instalar todos os pacotes do exportador como contêineres do Docker, portanto, o pacote Docker também deve ser instalado nos nós principal e de computação. Os scripts desses componentes são fornecidos convenientemente na [https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/utils](https://github.com/aws-samples/awsome-distributed-training/tree/main/1.architectures/5.sagemaker-hyperpod/LifecycleScripts/base-config/utils)pasta do repositório do *Awsome Distributed Training GitHub *.

Depois de configurar com sucesso seu HyperPod cluster instalado com os pacotes do exportador, vá para o próximo tópico para concluir a configuração do Amazon Managed Service para Prometheus e Amazon Managed Grafana.

# Validando a configuração do Prometheus no nó principal de um cluster HyperPod
<a name="sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup"></a>

Depois de configurar com sucesso o HyperPod cluster instalado com os pacotes do exportador, verifique se o Prometheus está configurado corretamente no nó principal do seu cluster. HyperPod 

1. Conecte-se ao nó principal do seu cluster. Para instruções sobre como acessar um nó, consulte [Acessando seus nós SageMaker HyperPod de cluster](sagemaker-hyperpod-run-jobs-slurm-access-nodes.md).

1. Execute o comando a seguir para verificar se o arquivo de configuração e serviço do Prometheus criado pelo `install_prometheus.sh` script do ciclo de vida está sendo executado no nó do controlador. A saída deve mostrar o status Ativo como **active (running)**.

   ```
   $ sudo systemctl status prometheus
   • prometheus service - Prometheus Exporter
   Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled)
   Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago
   Main PID: 12345 (prometheus)
   Tasks: 7 (limit: 9281)
   Memory: 35M
   CPU: 234ms
   CGroup: /system.slice/prometheus.service
           -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
   ```

1. Valide o arquivo de configuração do Prometheus da seguinte forma: A saída deve ser semelhante à seguinte, com três exportadores configurados com os endereços IP corretos do nó de computação:

   ```
   $ cat /etc/prometheus/prometheus.yml
   global:
     scrape_interval: 15s
     evaluation_interval: 15s
     scrape_timeout: 15s
   
   scrape_configs:
     - job_name: 'slurm_exporter'
       static_configs:
         - targets:
             - 'localhost:8080'
     - job_name: 'dcgm_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9400'
             - '<ComputeNodeIP>:9400'
     - job_name: 'efa_node_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9100'
             - '<ComputeNodeIP>:9100'
   
   remote_write:
     - url: <AMPReoteWriteURL>
       queue_config:
         max_samples_per_send: 1000
         max_shards: 200
         capacity: 2500
       sigv4:
         region: <Region>
   ```

1. Para testar se o Prometheus está exportando as métricas Slurm, DCGM e EFA corretamente, execute o comando `curl` a seguir para o Prometheus na porta do nó principal `:9090`.

   ```
   $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
   ```

   Com as métricas exportadas para o Amazon Managed Service for Prometheus Workspace por meio da configuração de gravação remota do Prometheus a partir do nó controlador, você pode prosseguir para o próximo tópico para configurar os painéis do Amazon Managed Grafana para exibir as métricas.

# Configurar um espaço de trabalho do Amazon Managed Grafana
<a name="sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws"></a>

Crie um novo espaço de trabalho Amazon Managed Grafana ou atualize um espaço de trabalho existente do Amazon Managed Grafana com o Amazon Managed Service for Prometheus como fonte de dados.

**Topics**
+ [Crie um espaço de trabalho do Grafana e defina o Amazon Managed Service for Prometheus como uma fonte de dados](#sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-create)
+ [Abra o espaço de trabalho da Grafana e conclua a configuração da fonte de dados](#sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-connect-data-source)
+ [Importe painéis de código aberto do Grafana](#sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-import-dashboards)

## Crie um espaço de trabalho do Grafana e defina o Amazon Managed Service for Prometheus como uma fonte de dados
<a name="sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-create"></a>

Para visualizar métricas do Amazon Managed Service for Prometheus, crie um workspace do Amazon Managed Grafana e configure-o para usar o Amazon Managed Service for Prometheus como fonte de dados.

1. Para criar um espaço de trabalho do Grafana, siga as instruções em [Criar um espaço de trabalho](https://docs.aws.amazon.com/grafana/latest/userguide/AMG-create-workspace.html#creating-workspace) no *Guia do usuário do Amazon Managed Service for Prometheus*.

   1. Na Etapa 13, selecione Amazon Managed Service for Prometheus como fonte de dados.

   1. Na Etapa 17, você pode adicionar o usuário administrador e também outros usuários no seu IAM Identity Center.

Para mais informações, consulte os recursos a seguir.
+ [Configurar o Amazon Managed Grafana para uso com o Amazon Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/AMP-amg.html) no *Guia do usuário do Amazon Managed Service for Prometheus*
+ [Use a configuração da fonte de AWS dados para adicionar o Amazon Managed Service for Prometheus como fonte de dados no Guia do usuário](https://docs.aws.amazon.com/grafana/latest/userguide/AMP-adding-AWS-config.html) do *Amazon Managed Grafana*

## Abra o espaço de trabalho da Grafana e conclua a configuração da fonte de dados
<a name="sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-connect-data-source"></a>

Depois de criar ou atualizar com sucesso um espaço de trabalho Amazon Managed Grafana, selecione a URL do espaço de trabalho para abrir o espaço de trabalho. Isso solicita que você insira um nome de usuário e a senha do usuário que você configurou no IAM Identity Center. Você deve fazer login usando o usuário administrador para concluir a configuração do espaço de trabalho.

1. Na página **inicial** do espaço de trabalho, escolha **Aplicações**, **Fontes de dados da AWS ** e **Fontes de dados**.

1. Acesse a página **Fontes de dados** e escolha a guia **Fontes de dados**.

1. Para **Serviço**, escolha Amazon Managed Service for Prometheus.

1. Na seção **Procurar e provisionar fontes de dados**, escolha a AWS região em que você provisionou um espaço de trabalho do Amazon Managed Service para Prometheus.

1. Na lista de fontes de dados na região selecionada, escolha aquela para o Amazon Managed Service for Prometheus. Certifique-se de verificar o ID do recurso e o alias do recurso do espaço de trabalho do Amazon Managed Service for Prometheus que você configurou para a pilha de observabilidade. HyperPod 

## Importe painéis de código aberto do Grafana
<a name="sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws-import-dashboards"></a>

Depois de configurar com sucesso seu espaço de trabalho Amazon Managed Grafana com o Amazon Managed Service for Prometheus como fonte de dados, você começará a coletar métricas para o Prometheus e, em seguida, deverá começar a ver os vários painéis mostrando gráficos, informações e muito mais. O software de código aberto Grafana fornece vários painéis e você pode importá-los para o Amazon Managed Grafana.

**Para importar painéis de código aberto do Grafana para o Amazon Managed Grafana**

1. Na página **inicial** do seu espaço de trabalho Amazon Managed Grafana, escolha **Painéis**.

1. Escolha o botão do menu suspenso com o texto da interface do usuário **Novo** e selecione **Importar**.

1. Cole o URL no painel do [Slurm](https://grafana.com/grafana/dashboards/4323-slurm-dashboard/).

   ```
   https://grafana.com/grafana/dashboards/4323-slurm-dashboard/
   ```

1. Selecione **Carregar**.

1. Repita as etapas anteriores para importar os painéis a seguir.

   1. [Painel completo do Exportador de nós](https://grafana.com/grafana/dashboards/1860-node-exporter-full/)

      ```
      https://grafana.com/grafana/dashboards/1860-node-exporter-full/
      ```

   1. [Painel do exportador NVIDIA DCGM](https://grafana.com/grafana/dashboards/12239-nvidia-dcgm-exporter-dashboard/)

      ```
      https://grafana.com/grafana/dashboards/12239-nvidia-dcgm-exporter-dashboard/
      ```

   1. [Painel de métricas do EFA](https://grafana.com/grafana/dashboards/20579-efa-metrics-dev/)

      ```
      https://grafana.com/grafana/dashboards/20579-efa-metrics-dev/
      ```

   1. [FSx para o painel Lustre Metrics](https://grafana.com/grafana/dashboards/20906-fsx-lustre/)

      ```
      https://grafana.com/grafana/dashboards/20906-fsx-lustre/
      ```

# Referência de métricas exportadas
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference"></a>

As seções a seguir apresentam listas abrangentes de métricas exportadas do SageMaker HyperPod Amazon Managed Service for Prometheus após a configuração bem-sucedida da pilha para observabilidade. CloudFormation SageMaker HyperPod Você pode começar a monitorar essas métricas visualizadas nos painéis do Amazon Managed Grafana.

## Painel do exportador Slurm
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-slurm-exporter"></a>

Fornece informações visualizadas dos clusters do Slurm em. SageMaker HyperPod

**Tipos de métricas**
+ **Visão geral do cluster:** exibição do número total de nós, trabalhos e seus estados.
+ **Métricas de trabalho:** visualização de contagens e estados de trabalhos ao longo do tempo.
+ **Métricas do nó:** exibição dos estados dos nós, a alocação e os recursos disponíveis.
+ **Métricas de partição:** monitoramento de métricas específicas da partição, como CPU, memória e utilização da GPU.
+ **Eficiência do trabalho:** cálculo da eficiência do trabalho com base nos recursos utilizados.

**Lista de métricas**


| Nome da métrica | Description | 
| --- | --- | 
| slurm\$1job\$1count | Número total de trabalhos no cluster Slurm | 
| slurm\$1job\$1state\$1count | Contagem de trabalhos em cada estado (por exemplo, em execução, pendentes, concluídos) | 
| slurm\$1node\$1count  | O número total de nós do operador no cluster. | 
| slurm\$1node\$1state\$1count  | Contagem de nós em cada estado (por exemplo, inativo, alocação, mistura) | 
| slurm\$1partition\$1node\$1count  | Contagem de nós em cada partição | 
| slurm\$1partition\$1job\$1count  | Contagem de trabalhos em cada partição | 
| slurm\$1partition\$1alloc\$1cpus  | Número total de alocados CPUs em cada partição | 
| slurm\$1partition\$1free\$1cpus  | Número total de disponíveis CPUs em cada partição | 
| slurm\$1partition\$1alloc\$1memory  | Memória total alocada em cada partição | 
| slurm\$1partition\$1free\$1memory  | Memória total disponível em cada partição | 
| slurm\$1partition\$1alloc\$1gpus  | Total alocado GPUs em cada partição | 
| slurm\$1partition\$1free\$1gpus  | Total disponível GPUs em cada partição | 

## Painel do exportador de nó
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-node-exporter"></a>

Fornece informações visualizadas das métricas do sistema coletadas pelo exportador de nós do [Prometheus a partir dos nós do cluster](https://github.com/prometheus/node_exporter). HyperPod 

**Tipos de métricas**
+ **Visão geral do sistema:** exibição das médias de carga da CPU e o uso da memória.
+ **Métricas de memória:** visualização da utilização da memória, incluindo memória total, memória livre e espaço de troca.
+ **Uso do disco:** monitoramento da utilização e disponibilidade do espaço em disco.
+ **Tráfego de rede:** exibição dos bytes da rede recebidos e transmitidos ao longo do tempo.
+ **Métricas do sistema de arquivos:** análise do uso e da disponibilidade do sistema de arquivos.
+ ** I/O Métricas do disco:** visualização da atividade de leitura e gravação do disco.

**Lista de métricas**

[Para obter uma lista completa das métricas exportadas, consulte os repositórios [Node Exporter e procfs](https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default).](https://github.com/prometheus/procfs?tab=readme-ov-file) GitHub A tabela a seguir mostra um subconjunto das métricas que fornece informações sobre a utilização dos recursos do sistema, como carga da CPU, uso da memória, espaço em disco e atividade da rede.


| Nome da métrica | Description | 
| --- | --- | 
|  node\$1load1  | Carga média por um minuto | 
|  node\$1load5  | Carga média por 5 minutos | 
|  node\$1load15  | Carga média por 15 minutos | 
|  node\$1memory\$1MemTotal  | Memória total do sistema | 
|  node\$1memory\$1MemFree  | Memória livre do sistema | 
|  node\$1memory\$1MemAvailable  | Memória disponível para alocação em processos | 
|  node\$1memory\$1Buffers  | Memória usada pelo kernel para armazenamento em buffer | 
|  node\$1memory\$1Cached  | Memória usada pelo kernel para armazenar dados do sistema de arquivos em cache | 
|  node\$1memory\$1SwapTotal  | Espaço total de troca disponível | 
|  node\$1memory\$1SwapFree  | Espaço livre de troca | 
|  node\$1memory\$1SwapCached  | A memória que uma vez foi trocada, é trocada de volta, mas ainda está sendo trocada | 
|  node\$1filesystem\$1avail\$1bytes  | Espaço em disco disponível em bytes | 
|  node\$1filesystem\$1size\$1bytes  | Espaço total em disco em bytes | 
|  node\$1filesystem\$1free\$1bytes  | Espaço livre em disco em bytes | 
|  node\$1network\$1receive\$1bytes  | Bytes de rede recebidos | 
|  node\$1network\$1transmit\$1bytes  | Bytes de rede transmitidos | 
|  node\$1disk\$1read\$1bytes  | Bytes de disco lidos | 
|  node\$1disk\$1written\$1bytes  | Bytes de discos gravados | 

## Painel do exportador NVIDIA DCGM
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-nvidia-dcgm-exporter"></a>

Fornece informações visualizadas das métricas da GPU NVIDIA coletadas pelo [exportador NVIDIA DCGM](https://github.com/NVIDIA/dcgm-exporter).

**Tipos de métricas**
+ **Visão geral da GPU:** exibição da utilização da GPU, as temperaturas, o uso de energia e o uso da memória. 
+ **Métricas de temperatura:** visualização das temperaturas da GPU ao longo do tempo. 
+ **Uso de energia:** monitoramento do consumo de energia da GPU e das tendências de uso de energia. 
+ **Utilização da memória:** análise do uso da memória da GPU, incluindo memória usada, livre e total. 
+ **Velocidade da ventoinha:** mostra as velocidades e variações do ventoinha da GPU. 
+ **Erros de ECC:** rastreamento de erros de ECC e erros pendentes na memória da GPU.

**Lista de métricas**

A tabela a seguir mostra uma lista das métricas que fornecem informações sobre a integridade e o desempenho da GPU NVIDIA, incluindo frequências de relógio, temperaturas, uso de energia, utilização de memória, velocidades do ventilador e métricas de erro.


| Nome da métrica | Description | 
| --- | --- | 
|  DCGM\$1FI\$1DEV\$1SM\$1CLOCK  | Frequência do relógio SM (in MHz) | 
|  DCGM\$1FI\$1DEV\$1MEM\$1CLOCK  | Frequência do relógio de memória (in MHz) | 
|  DCGM\$1FI\$1DEV\$1MEMORY\$1TEMP  | Temperatura da memória (em C) | 
|  DCGM\$1FI\$1DEV\$1GPU\$1TEMP  | Temperatura da GPU (em C) | 
|  DCGM\$1FI\$1DEV\$1POWER\$1USAGE  | Consumo de energia (em W) | 
|  DCGM\$1FI\$1DEV\$1TOTAL\$1ENERGY\$1CONSUMPTION  | Consumo total de energia desde a inicialização (em mJ) | 
|  DCGM\$1FI\$1DEV\$1PCIE\$1REPLAY\$1COUNTER  | Número total de novas PCIe tentativas | 
|  DCGM\$1FI\$1DEV\$1MEM\$1COPY\$1UTIL  | Utilização da memória (em %) | 
|  DCGM\$1FI\$1DEV\$1ENC\$1UTIL  | Utilização do codificador (em %) | 
|  DCGM\$1FI\$1DEV\$1DEC\$1UTIL  | Utilização do decodificador (em %) | 
|  DCGM\$1FI\$1DEV\$1XID\$1ERRORS  | Valor do último erro de XID encontrado | 
|  DCGM\$1FI\$1DEV\$1FB\$1FREE  | Buffer de quadro livre de memória (em MiB) | 
|  DCGM\$1FI\$1DEV\$1FB\$1USED  | Memória de buffer de quadros usada (em MiB) | 
|  DCGM\$1FI\$1DEV\$1NVLINK\$1BANDWIDTH\$1TOTAL  | Número total de contadores de NVLink largura de banda para todas as faixas | 
|  DCGM\$1FI\$1DEV\$1VGPU\$1LICENSE\$1STATUS  | Status da licença do vGPU | 
|  DCGM\$1FI\$1DEV\$1UNCORRECTABLE\$1REMAPPED\$1ROWS  | Número de linhas remapeadas para erros incorrigíveis | 
|  DCGM\$1FI\$1DEV\$1CORRECTABLE\$1REMAPPED\$1ROWS  | Número de linhas remapeadas para erros corrigíveis | 
|  DCGM\$1FI\$1DEV\$1ROW\$1REMAP\$1FAILURE  | Se o remapeamento das linhas falhou | 

## Painel de métricas do EFA
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-efa-exporter"></a>

Fornece informações visualizadas das métricas do [Amazon Elastic Fabric Adapter (EFA)](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa.html) equipado em instâncias P coletadas pelo [exportador de nós EFA](https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md).

**Tipos de métricas**
+ **Métricas de erro do EFA:** visualização de erros como erros de alocação, erros de comando e erros do mapa de memória.
+ **Tráfego de rede EFA:** monitoramento de bytes, pacotes e solicitações de trabalho recebidos e transmitidos.
+ **Desempenho do EFA RDMA:** análise de operações de leitura e gravação de RDMA, incluindo bytes transferidos e taxas de erro.
+ **Vida útil da porta EFA**: exibição da vida útil das portas EFA ao longo do tempo.
+ Pacotes **de manutenção de atividade do EFA:** rastreando o número de pacotes de manutenção de atividade recebidos.

**Lista de métricas**

A tabela a seguir mostra uma lista das métricas que fornece informações sobre vários aspectos da operação do EFA, incluindo erros, comandos concluídos, tráfego de rede e utilização de recursos.


| Nome da métrica | Description | 
| --- | --- | 
|  node\$1amazonefa\$1info  | Dados não numéricos de/sys/class/infiniband/, o valor é sempre 1. | 
|  node\$1amazonefa\$1lifespan  | Vida útil do porto | 
|  node\$1amazonefa\$1rdma\$1read\$1bytes  | Número de bytes lidos com RDMA | 
|  node\$1amazonefa\$1rdma\$1read\$1resp\$1bytes  | Número de bytes de resposta de leitura com RDMA | 
|  node\$1amazonefa\$1rdma\$1read\$1wr\$1err  | Número de erros de leitura e gravação com RDMA | 
|  node\$1amazonefa\$1rdma\$1read\$1wrs  | Número de rs de leitura com RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1bytes  | Número de bytes gravados com RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1recv\$1bytes  | Número de bytes gravados e recebidos com RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1wr\$1err  | Número de bytes gravados com erro RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1wrs  | Número de bytes escritos em RDMA | 
|  node\$1amazonefa\$1recv\$1bytes  | Número de bytes recebidos. | 
|  node\$1amazonefa\$1recv\$1wrs  | Número de bytes wrs recebidos. | 
|  node\$1amazonefa\$1rx\$1bytes  | Número de bytes recebidos. | 
|  node\$1amazonefa\$1rx\$1drops  | Número de pacotes descartados | 
|  node\$1amazonefa\$1rx\$1pkts  | Número de pacotes recebidos | 
|  node\$1amazonefa\$1send\$1bytes  | Número de bytes enviados | 
|  node\$1amazonefa\$1send\$1wrs  | Número de wrs enviados | 
|  node\$1amazonefa\$1tx\$1bytes  | Número de bytes transmitidos. | 
|  node\$1amazonefa\$1tx\$1pkts  | Número de pacotes transmitidos. | 

## FSx para o painel de métricas do Lustre
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-fsx-exporter"></a>

[Fornece informações visualizadas das [métricas do sistema de arquivos Amazon FSx for Lustre](https://docs.aws.amazon.com/fsx/latest/LustreGuide/monitoring-cloudwatch.html) coletadas pela Amazon. CloudWatch](https://docs.aws.amazon.com/fsx/latest/LustreGuide/monitoring-cloudwatch.html)

**nota**  
O painel Grafana FSx for Lustre utiliza a Amazon CloudWatch como fonte de dados, o que difere dos outros painéis que você configurou para usar o Amazon Managed Service for Prometheus. Para garantir o monitoramento e a visualização precisos das métricas relacionadas ao seu sistema de arquivos FSx for Lustre, configure o painel for Lustre FSx para usar a Amazon CloudWatch como fonte de dados, especificando a mesma Região da AWS onde seu sistema de arquivos FSx for Lustre está implantado.

**Tipos de métricas**
+ **DataReadBytes:** o número de bytes para operações de leitura do sistema de arquivos.
+ **DataWriteBytes:** o número de bytes para operações de gravação do sistema de arquivos.
+ **DataReadOperations:** o número de operações de leitura.
+ **DataWriteOperations:** o número de operações de gravação.
+ **MetadataOperations:** o número de operações de metadados.
+ **FreeDataStorageCapacity:** a quantidade de capacidade de armazenamento disponível.

# Métricas do Amazon SageMaker HyperPod Slurm
<a name="smcluster-slurm-metrics"></a>

 SageMaker HyperPod A Amazon fornece um conjunto de CloudWatch métricas da Amazon que você pode usar para monitorar a integridade e o desempenho dos seus HyperPod clusters. Essas métricas são coletadas do gerenciador de carga de trabalho do Slurm em execução em seus HyperPod clusters e estão disponíveis no namespace. `/aws/sagemaker/Clusters` CloudWatch 

## Métricas em nível de cluster
<a name="smcluster-slurm-metrics-cluster"></a>

As seguintes métricas em nível de cluster estão disponíveis para. HyperPod Essas métricas usam a `ClusterId` dimensão para identificar o HyperPod cluster específico.


| CloudWatch nome da métrica | Observações | Nome de métricas do Amazon EKS Container Insights | 
| --- | --- | --- | 
| cluster\$1node\$1count | O número total de nós no cluster. | cluster\$1node\$1count | 
| cluster\$1idle\$1node\$1count | O número de nós ociosos no cluster. | N/D | 
| cluster\$1failed\$1node\$1count | O número de nós com falha no cluster. | cluster\$1failed\$1node\$1count | 
| cluster\$1cpu\$1count | Total de núcleos de CPU no cluster. | node\$1cpu\$1limit | 
| cluster\$1idle\$1cpu\$1count | Número de núcleos de CPU ociosos no cluster. | N/D | 
| cluster\$1gpu\$1count | Total GPUs no cluster | node\$1gpu\$1limit | 
| cluster\$1idle\$1gpu\$1count | Número de inativos GPUs no cluster | N/D | 
| cluster\$1running\$1task\$1count | Número total de trabalhos em execução do Slurm no cluster. | N/D | 
| cluster\$1pending\$1task\$1count | Número total de trabalhos pendentes do Slurm no cluster. | N/D | 
| cluster\$1preempted\$1task\$1count | Número total de trabalhos antecipados do Slurm no cluster. | N/D | 
| cluster\$1avg\$1task\$1wait\$1time | Tempo médio de espera de trabalhos do Slurm no cluster. | N/D | 
| cluster\$1max\$1task\$1wait\$1time | Tempo máximo de espera de trabalhos do Slurm no cluster. | N/D | 

## Métricas em nível de instância
<a name="smcluster-slurm-metrics-instance"></a>

As seguintes métricas em nível de instância estão disponíveis para. HyperPod Essas métricas também usam a `ClusterId` dimensão para identificar o HyperPod cluster específico.


| CloudWatch nome da métrica | Observações | Nome de métricas do Amazon EKS Container Insights | 
| --- | --- | --- | 
| node\$1gpu\$1utilization | Utilização média de GPU em todas as instâncias. | node\$1gpu\$1utilization | 
| node\$1gpu\$1memory\$1utilization | Utilização média de memória de GPU em todas as instâncias. | node\$1gpu\$1memory\$1utilization | 
| node\$1cpu\$1utilization | Utilização média de CPU em todas as instâncias. | node\$1cpu\$1utilization | 
| node\$1memory\$1utilization | Utilização média de memória em todas as instâncias. | node\$1memory\$1utilization | 