

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Referência de métricas exportadas
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference"></a>

As seções a seguir apresentam listas abrangentes de métricas exportadas do SageMaker HyperPod Amazon Managed Service for Prometheus após a configuração bem-sucedida da pilha para observabilidade. CloudFormation SageMaker HyperPod Você pode começar a monitorar essas métricas visualizadas nos painéis do Amazon Managed Grafana.

## Painel do exportador Slurm
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-slurm-exporter"></a>

Fornece informações visualizadas dos clusters do Slurm em. SageMaker HyperPod

**Tipos de métricas**
+ **Visão geral do cluster:** exibição do número total de nós, trabalhos e seus estados.
+ **Métricas de trabalho:** visualização de contagens e estados de trabalhos ao longo do tempo.
+ **Métricas do nó:** exibição dos estados dos nós, a alocação e os recursos disponíveis.
+ **Métricas de partição:** monitoramento de métricas específicas da partição, como CPU, memória e utilização da GPU.
+ **Eficiência do trabalho:** cálculo da eficiência do trabalho com base nos recursos utilizados.

**Lista de métricas**


| Nome da métrica | Description | 
| --- | --- | 
| slurm\$1job\$1count | Número total de trabalhos no cluster Slurm | 
| slurm\$1job\$1state\$1count | Contagem de trabalhos em cada estado (por exemplo, em execução, pendentes, concluídos) | 
| slurm\$1node\$1count  | O número total de nós do operador no cluster. | 
| slurm\$1node\$1state\$1count  | Contagem de nós em cada estado (por exemplo, inativo, alocação, mistura) | 
| slurm\$1partition\$1node\$1count  | Contagem de nós em cada partição | 
| slurm\$1partition\$1job\$1count  | Contagem de trabalhos em cada partição | 
| slurm\$1partition\$1alloc\$1cpus  | Número total de alocados CPUs em cada partição | 
| slurm\$1partition\$1free\$1cpus  | Número total de disponíveis CPUs em cada partição | 
| slurm\$1partition\$1alloc\$1memory  | Memória total alocada em cada partição | 
| slurm\$1partition\$1free\$1memory  | Memória total disponível em cada partição | 
| slurm\$1partition\$1alloc\$1gpus  | Total alocado GPUs em cada partição | 
| slurm\$1partition\$1free\$1gpus  | Total disponível GPUs em cada partição | 

## Painel do exportador de nó
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-node-exporter"></a>

Fornece informações visualizadas das métricas do sistema coletadas pelo exportador de nós do [Prometheus a partir dos nós do cluster](https://github.com/prometheus/node_exporter). HyperPod 

**Tipos de métricas**
+ **Visão geral do sistema:** exibição das médias de carga da CPU e o uso da memória.
+ **Métricas de memória:** visualização da utilização da memória, incluindo memória total, memória livre e espaço de troca.
+ **Uso do disco:** monitoramento da utilização e disponibilidade do espaço em disco.
+ **Tráfego de rede:** exibição dos bytes da rede recebidos e transmitidos ao longo do tempo.
+ **Métricas do sistema de arquivos:** análise do uso e da disponibilidade do sistema de arquivos.
+ ** I/O Métricas do disco:** visualização da atividade de leitura e gravação do disco.

**Lista de métricas**

[Para obter uma lista completa das métricas exportadas, consulte os repositórios [Node Exporter e procfs](https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default).](https://github.com/prometheus/procfs?tab=readme-ov-file) GitHub A tabela a seguir mostra um subconjunto das métricas que fornece informações sobre a utilização dos recursos do sistema, como carga da CPU, uso da memória, espaço em disco e atividade da rede.


| Nome da métrica | Description | 
| --- | --- | 
|  node\$1load1  | Carga média por um minuto | 
|  node\$1load5  | Carga média por 5 minutos | 
|  node\$1load15  | Carga média por 15 minutos | 
|  node\$1memory\$1MemTotal  | Memória total do sistema | 
|  node\$1memory\$1MemFree  | Memória livre do sistema | 
|  node\$1memory\$1MemAvailable  | Memória disponível para alocação em processos | 
|  node\$1memory\$1Buffers  | Memória usada pelo kernel para armazenamento em buffer | 
|  node\$1memory\$1Cached  | Memória usada pelo kernel para armazenar dados do sistema de arquivos em cache | 
|  node\$1memory\$1SwapTotal  | Espaço total de troca disponível | 
|  node\$1memory\$1SwapFree  | Espaço livre de troca | 
|  node\$1memory\$1SwapCached  | A memória que uma vez foi trocada, é trocada de volta, mas ainda está sendo trocada | 
|  node\$1filesystem\$1avail\$1bytes  | Espaço em disco disponível em bytes | 
|  node\$1filesystem\$1size\$1bytes  | Espaço total em disco em bytes | 
|  node\$1filesystem\$1free\$1bytes  | Espaço livre em disco em bytes | 
|  node\$1network\$1receive\$1bytes  | Bytes de rede recebidos | 
|  node\$1network\$1transmit\$1bytes  | Bytes de rede transmitidos | 
|  node\$1disk\$1read\$1bytes  | Bytes de disco lidos | 
|  node\$1disk\$1written\$1bytes  | Bytes de discos gravados | 

## Painel do exportador NVIDIA DCGM
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-nvidia-dcgm-exporter"></a>

Fornece informações visualizadas das métricas da GPU NVIDIA coletadas pelo [exportador NVIDIA DCGM](https://github.com/NVIDIA/dcgm-exporter).

**Tipos de métricas**
+ **Visão geral da GPU:** exibição da utilização da GPU, as temperaturas, o uso de energia e o uso da memória. 
+ **Métricas de temperatura:** visualização das temperaturas da GPU ao longo do tempo. 
+ **Uso de energia:** monitoramento do consumo de energia da GPU e das tendências de uso de energia. 
+ **Utilização da memória:** análise do uso da memória da GPU, incluindo memória usada, livre e total. 
+ **Velocidade da ventoinha:** mostra as velocidades e variações do ventoinha da GPU. 
+ **Erros de ECC:** rastreamento de erros de ECC e erros pendentes na memória da GPU.

**Lista de métricas**

A tabela a seguir mostra uma lista das métricas que fornecem informações sobre a integridade e o desempenho da GPU NVIDIA, incluindo frequências de relógio, temperaturas, uso de energia, utilização de memória, velocidades do ventilador e métricas de erro.


| Nome da métrica | Description | 
| --- | --- | 
|  DCGM\$1FI\$1DEV\$1SM\$1CLOCK  | Frequência do relógio SM (in MHz) | 
|  DCGM\$1FI\$1DEV\$1MEM\$1CLOCK  | Frequência do relógio de memória (in MHz) | 
|  DCGM\$1FI\$1DEV\$1MEMORY\$1TEMP  | Temperatura da memória (em C) | 
|  DCGM\$1FI\$1DEV\$1GPU\$1TEMP  | Temperatura da GPU (em C) | 
|  DCGM\$1FI\$1DEV\$1POWER\$1USAGE  | Consumo de energia (em W) | 
|  DCGM\$1FI\$1DEV\$1TOTAL\$1ENERGY\$1CONSUMPTION  | Consumo total de energia desde a inicialização (em mJ) | 
|  DCGM\$1FI\$1DEV\$1PCIE\$1REPLAY\$1COUNTER  | Número total de novas PCIe tentativas | 
|  DCGM\$1FI\$1DEV\$1MEM\$1COPY\$1UTIL  | Utilização da memória (em %) | 
|  DCGM\$1FI\$1DEV\$1ENC\$1UTIL  | Utilização do codificador (em %) | 
|  DCGM\$1FI\$1DEV\$1DEC\$1UTIL  | Utilização do decodificador (em %) | 
|  DCGM\$1FI\$1DEV\$1XID\$1ERRORS  | Valor do último erro de XID encontrado | 
|  DCGM\$1FI\$1DEV\$1FB\$1FREE  | Buffer de quadro livre de memória (em MiB) | 
|  DCGM\$1FI\$1DEV\$1FB\$1USED  | Memória de buffer de quadros usada (em MiB) | 
|  DCGM\$1FI\$1DEV\$1NVLINK\$1BANDWIDTH\$1TOTAL  | Número total de contadores de NVLink largura de banda para todas as faixas | 
|  DCGM\$1FI\$1DEV\$1VGPU\$1LICENSE\$1STATUS  | Status da licença do vGPU | 
|  DCGM\$1FI\$1DEV\$1UNCORRECTABLE\$1REMAPPED\$1ROWS  | Número de linhas remapeadas para erros incorrigíveis | 
|  DCGM\$1FI\$1DEV\$1CORRECTABLE\$1REMAPPED\$1ROWS  | Número de linhas remapeadas para erros corrigíveis | 
|  DCGM\$1FI\$1DEV\$1ROW\$1REMAP\$1FAILURE  | Se o remapeamento das linhas falhou | 

## Painel de métricas do EFA
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-efa-exporter"></a>

Fornece informações visualizadas das métricas do [Amazon Elastic Fabric Adapter (EFA)](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa.html) equipado em instâncias P coletadas pelo [exportador de nós EFA](https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md).

**Tipos de métricas**
+ **Métricas de erro do EFA:** visualização de erros como erros de alocação, erros de comando e erros do mapa de memória.
+ **Tráfego de rede EFA:** monitoramento de bytes, pacotes e solicitações de trabalho recebidos e transmitidos.
+ **Desempenho do EFA RDMA:** análise de operações de leitura e gravação de RDMA, incluindo bytes transferidos e taxas de erro.
+ **Vida útil da porta EFA**: exibição da vida útil das portas EFA ao longo do tempo.
+ Pacotes **de manutenção de atividade do EFA:** rastreando o número de pacotes de manutenção de atividade recebidos.

**Lista de métricas**

A tabela a seguir mostra uma lista das métricas que fornece informações sobre vários aspectos da operação do EFA, incluindo erros, comandos concluídos, tráfego de rede e utilização de recursos.


| Nome da métrica | Description | 
| --- | --- | 
|  node\$1amazonefa\$1info  | Dados não numéricos de/sys/class/infiniband/, o valor é sempre 1. | 
|  node\$1amazonefa\$1lifespan  | Vida útil do porto | 
|  node\$1amazonefa\$1rdma\$1read\$1bytes  | Número de bytes lidos com RDMA | 
|  node\$1amazonefa\$1rdma\$1read\$1resp\$1bytes  | Número de bytes de resposta de leitura com RDMA | 
|  node\$1amazonefa\$1rdma\$1read\$1wr\$1err  | Número de erros de leitura e gravação com RDMA | 
|  node\$1amazonefa\$1rdma\$1read\$1wrs  | Número de rs de leitura com RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1bytes  | Número de bytes gravados com RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1recv\$1bytes  | Número de bytes gravados e recebidos com RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1wr\$1err  | Número de bytes gravados com erro RDMA | 
|  node\$1amazonefa\$1rdma\$1write\$1wrs  | Número de bytes escritos em RDMA | 
|  node\$1amazonefa\$1recv\$1bytes  | Número de bytes recebidos. | 
|  node\$1amazonefa\$1recv\$1wrs  | Número de bytes wrs recebidos. | 
|  node\$1amazonefa\$1rx\$1bytes  | Número de bytes recebidos. | 
|  node\$1amazonefa\$1rx\$1drops  | Número de pacotes descartados | 
|  node\$1amazonefa\$1rx\$1pkts  | Número de pacotes recebidos | 
|  node\$1amazonefa\$1send\$1bytes  | Número de bytes enviados | 
|  node\$1amazonefa\$1send\$1wrs  | Número de wrs enviados | 
|  node\$1amazonefa\$1tx\$1bytes  | Número de bytes transmitidos. | 
|  node\$1amazonefa\$1tx\$1pkts  | Número de pacotes transmitidos. | 

## FSx para o painel de métricas do Lustre
<a name="sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference-fsx-exporter"></a>

[Fornece informações visualizadas das [métricas do sistema de arquivos Amazon FSx for Lustre](https://docs.aws.amazon.com/fsx/latest/LustreGuide/monitoring-cloudwatch.html) coletadas pela Amazon. CloudWatch](https://docs.aws.amazon.com/fsx/latest/LustreGuide/monitoring-cloudwatch.html)

**nota**  
O painel Grafana FSx for Lustre utiliza a Amazon CloudWatch como fonte de dados, o que difere dos outros painéis que você configurou para usar o Amazon Managed Service for Prometheus. Para garantir o monitoramento e a visualização precisos das métricas relacionadas ao seu sistema de arquivos FSx for Lustre, configure o painel for Lustre FSx para usar a Amazon CloudWatch como fonte de dados, especificando a mesma Região da AWS onde seu sistema de arquivos FSx for Lustre está implantado.

**Tipos de métricas**
+ **DataReadBytes:** o número de bytes para operações de leitura do sistema de arquivos.
+ **DataWriteBytes:** o número de bytes para operações de gravação do sistema de arquivos.
+ **DataReadOperations:** o número de operações de leitura.
+ **DataWriteOperations:** o número de operações de gravação.
+ **MetadataOperations:** o número de operações de metadados.
+ **FreeDataStorageCapacity:** a quantidade de capacidade de armazenamento disponível.