Disponibilidade de métricas em grupos de instâncias restritas Métricas de treinamento Métricas de inferência Métricas de governança de tarefas Métrica de ajuste de escala Métricas de cluster Métricas de instância Métricas de computação acelerada Métricas de rede Métricas do sistema de arquivos

SageMaker HyperPod métricas de cluster

A Amazon SageMaker HyperPod (SageMaker HyperPod) publica várias métricas em 9 categorias distintas em seu espaço de trabalho do Amazon Managed Service for Prometheus. Nem todas as métricas são habilitadas por padrão ou exibidas no espaço de trabalho do Amazon Managed Grafana. A tabela a seguir mostra quais métricas são ativadas por padrão quando você instala o complemento de observabilidade, quais categorias têm métricas adicionais que podem ser habilitadas para informações mais granulares do cluster e onde elas aparecem no espaço de trabalho do Amazon Managed Grafana.

Categoria métrica	Habilitada por padrão?	Métricas avançadas adicionais disponíveis?	Disponível em quais painéis do Grafana?
Métricas de treinamento	Sim	Sim	Treinamento
Métricas de inferência	Sim	Não	Inferência
Métricas de governança de tarefas	Não	Sim	Nenhum. Consulte seu espaço de trabalho do Amazon Managed Service for Prometheus para criar seu próprio painel.
Métrica de ajuste de escala	Não	Sim	Nenhum. Consulte seu espaço de trabalho do Amazon Managed Service for Prometheus para criar seu próprio painel.
Métricas de cluster	Sim	Sim	Cluster
Métricas de instância	Sim	Sim	Cluster
Métricas de computação acelerada	Sim	Sim	Tarefa, cluster
Métricas de rede	Não	Sim	Cluster
Sistema de arquivos	Sim	Não	Sistema de arquivos

As tabelas a seguir descrevem as métricas disponíveis para monitorar seu SageMaker HyperPod cluster, organizadas por categoria.

Disponibilidade de métricas em grupos de instâncias restritas

Quando seu cluster contém grupos de instâncias restritas, a maioria das categorias de métricas está disponível em nós restritos, com as seguintes exceções e considerações. Você também pode configurar alertas em qualquer métrica de sua escolha.

Categoria métrica	Disponível nos nós RIG?	Observações
Métricas de treinamento	Sim	As métricas do pod Kubeflow e Kubernetes são coletadas. As métricas de KPI de treinamento avançado (do Training Metrics Agent) não estão disponíveis nos nós do RIG.
Métricas de inferência	Não	As cargas de trabalho de inferência não são compatíveis com grupos de instâncias restritas.
Métricas de governança de tarefas	Não	As métricas do Kueue são coletadas somente dos nós padrão, se houver.
Métrica de ajuste de escala	Não	As métricas do KEDA são coletadas somente dos nós padrão, se houver.
Métricas de cluster	Sim	As métricas do Kube State e as métricas do servidor da API estão disponíveis. O Kube State Metrics é programado preferencialmente em nós padrão, mas pode ser executado em nós restritos em clusters. RIG-only
Métricas de instância	Sim	As métricas do Node Exporter e do cAdvisor são coletadas em todos os nós, incluindo os nós restritos.
Métricas de computação acelerada	Sim	O DCGM Exporter é executado em nós restritos. GPU-enabled O Neuron Monitor é executado em nós Neuron-enabled restritos quando o modo avançado está ativado.
Métricas de rede	Sim	O EFA Exporter é executado em nós EFA-enabled restritos quando o modo avançado está ativado.
Métricas do sistema de arquivos	Sim	As métricas de utilização do cluster FSx for Lustre são suportadas em grupos de instâncias restritas.

nota

A coleta de registros de contêineres com o Fluent Bit não é implantada em nós restritos. Os registros de cluster de nós restritos estão disponíveis por meio da SageMaker HyperPod plataforma, independentemente do complemento de observabilidade. Você pode ver esses registros no painel Cluster Logs.

Métricas de treinamento

Use essas métricas para monitorar o desempenho das tarefas de treinamento executadas no SageMaker HyperPod cluster.

Nome da métrica ou tipo	Description	Habilitada por padrão?	Origem da métrica
Métricas do Kubeflow	https://github.com/kubeflow/trainer	Sim	Kubeflow
Métricas de pod do Kubernetes	https://github.com/kubernetes/kube-state-metrics	Sim	Kubernetes
`training_uptime_percentage`	Porcentagem do tempo de treinamento fora do tamanho total da janela.	Não	SageMaker HyperPod operador de treinamento
`training_manual_recovery_count`	Número total de reinicializações manuais realizadas na tarefa.	Não	SageMaker HyperPod operador de treinamento
`training_manual_downtime_ms`	Tempo total em milissegundos em que a tarefa ficou inativa devido a intervenções manuais.	Não	SageMaker HyperPod operador de treinamento
`training_auto_recovery_count`	Número total de recuperações automáticas.	Não	SageMaker HyperPod operador de treinamento
`training_auto_recovery_downtime`	Tempo total de sobrecarga da infraestrutura em milissegundos durante a recuperação de falhas.	Não	SageMaker HyperPod operador de treinamento
`training_fault_count`	Número total de falhas encontradas durante o treinamento.	Não	SageMaker HyperPod operador de treinamento
`training_fault_type_count`	Distribuição de falhas por tipo.	Não	SageMaker HyperPod operador de treinamento
`training_fault_recovery_time_ms`	Tempo de recuperação em milissegundos para cada tipo de falha.	Não	SageMaker HyperPod operador de treinamento
`training_time_ms`	Tempo total em milissegundos gasto no treinamento real.	Não	SageMaker HyperPod operador de treinamento

Métricas de inferência

Use essas métricas para monitorar o desempenho das tarefas de inferência no SageMaker HyperPod cluster.

Nome da métrica ou tipo	Description	Habilitada por padrão?	Origem da métrica
`model_invocations_total`	Número total de solicitações de invocação ao modelo.	Sim	SageMaker HyperPod operador de inferência
`model_errors_total`	Número total de erros durante a invocação do modelo.	Sim	SageMaker HyperPod operador de inferência
`model_concurrent_requests`	Solicitações simultâneas de modelo ativas.	Sim	SageMaker HyperPod operador de inferência
`model_latency_milliseconds`	Latência de invocação do modelo em milissegundos.	Sim	SageMaker HyperPod operador de inferência
`model_ttfb_milliseconds`	Tempo de modelagem até a latência do primeiro byte em milissegundos.	Sim	SageMaker HyperPod operador de inferência
TGI	Estas métricas podem ser usadas para monitorar o desempenho da TGI, ajustar a escala da implantação automaticamente e ajudar a identificar gargalos. Para obter uma lista detalhada de métricas, consulte https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md.	Sim	Contêiner do modelo
LMI	Estas métricas podem ser usadas para monitorar o desempenho da LMI e ajudar a identificar gargalos. Para obter uma lista detalhada de métricas, consulte https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md.	Sim	Contêiner do modelo

Métricas de governança de tarefas

Use essas métricas para monitorar a governança de tarefas e a alocação de recursos no SageMaker HyperPod cluster.

Nome da métrica ou tipo	Description	Habilitada por padrão?	Origem da métrica
Kueue	Consulte https://kueue.sigs.k8s.io/docs/reference/metrics/.	Não	Kueue

Métrica de ajuste de escala

Use essas métricas para monitorar o comportamento e o desempenho do auto-scaling no cluster. SageMaker HyperPod

Nome da métrica ou tipo	Description	Habilitada por padrão?	Origem da métrica
Métricas do operador KEDA	Veja https://keda.sh/docs/2.17/integrations/prometheus/#operator.	Não	Event-driven Autoescalador Kubernetes (KEDA)
Métricas de webhook do KEDA	Veja https://keda.sh/docs/2.17/integrations/prometheus/#admission -webhooks.	Não	Event-driven Autoescalador Kubernetes (KEDA)
Métricas do KEDA Metrics Server	Consulte https://keda.sh/docs/2.17/integrations/prometheus/#metrics -server.	Não	Event-driven Autoescalador Kubernetes (KEDA)

Métricas de cluster

Use estas métricas para monitorar a integridade geral do cluster e a alocação de recursos.

Nome da métrica ou tipo	Description	Habilitada por padrão?	Origem da métrica
Integridade do cluster	Métricas do servidor de API do Kubernetes. Consulte https://kubernetes.io/docs/reference/instrumentation/metrics/.	Sim	Kubernetes
Kubestate	Consulte https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources.	Limitado	Kubernetes
KubeState Avançado	Consulte https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources.	Não	Kubernetes

Métricas de instância

Use estas métricas para monitorar o desempenho e a integridade de instâncias individuais.

Nome da métrica ou tipo	Description	Habilitada por padrão?	Origem da métrica
Métricas de nó	Veja https://github.com/prometheus/node_exporter? tab=readme-ov-file #enabled -por padrão.	Sim	Kubernetes
Métricas de contêiner	Métricas de contêiner expostas pelo Cadvisor. Consulte https://github.com/google/cadvisor.	Sim	Kubernetes

Métricas de computação acelerada

Use estas métricas para monitorar o desempenho, a integridade e a utilização de dispositivos individuais de computação acelerada no cluster.

nota

Quando o particionamento de GPU com MIG (Multi-Instance GPU) está habilitado em seu cluster, as métricas DCGM fornecem automaticamente granularidade em nível de partição para monitorar instâncias MIG individuais. Cada partição MIG é exposta como um dispositivo de GPU separado com suas próprias métricas de temperatura, energia, utilização de memória e atividade computacional. Isso permite que você acompanhe o uso e a integridade dos recursos de cada partição de GPU de forma independente, permitindo o monitoramento preciso das cargas de trabalho executadas em recursos fracionários da GPU. Para obter mais informações sobre como configurar o particionamento de GPU, consulte. Usando partições de GPU na Amazon SageMaker HyperPod

Nome da métrica ou tipo	Description	Habilitada por padrão?	Origem da métrica
GPU da NVIDIA	Métricas do DCGM. Consulte https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv.	Limitado	Data Center GPU Manager (DCGM) da NVIDIA
GPU da NVIDIA (avançada)	Métricas do DCGM comentadas no seguinte arquivo CSV: https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv	Não	Data Center GPU Manager (DCGM) da NVIDIA
AWS Estágio	Métricas do Neuron. Consulte https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron -monitor-nc-counters.	Não	AWS Monitor de neurônios

Métricas de rede

Use estas métricas para monitorar o desempenho e a integridade dos Elastic Fabric Adapters (EFA) no cluster.

Nome da métrica ou tipo	Description	Habilitada por padrão?	Origem da métrica
EFA	Consulte https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md.	Não	Elastic Fabric Adapter

Métricas do sistema de arquivos

Nome da métrica ou tipo	Description	Habilitada por padrão?	Origem da métrica
Sistema de arquivos	Métricas do Amazon FSx for Lustre da Amazon: CloudWatch Monitoramento com a Amazon CloudWatch.	Sim	Amazon FSx para Lustre

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Métricas personalizadas

Alertas pré-configurados