As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
SageMaker HyperPod métricas de cluster
A Amazon SageMaker HyperPod (SageMaker HyperPod) publica várias métricas em 9 categorias distintas em seu espaço de trabalho do Amazon Managed Service for Prometheus. Nem todas as métricas são habilitadas por padrão ou exibidas no espaço de trabalho do Amazon Managed Grafana. A tabela a seguir mostra quais métricas são ativadas por padrão quando você instala o complemento de observabilidade, quais categorias têm métricas adicionais que podem ser habilitadas para informações mais granulares do cluster e onde elas aparecem no espaço de trabalho do Amazon Managed Grafana.
| Categoria métrica | Habilitada por padrão? | Métricas avançadas adicionais disponíveis? | Disponível em quais painéis do Grafana? |
|---|---|---|---|
| Métricas de treinamento | Sim | Sim | Treinamento |
| Métricas de inferência | Sim | Não | Inferência |
| Métricas de governança de tarefas | Não | Sim | Nenhum. Consulte seu espaço de trabalho do Amazon Managed Service for Prometheus para criar seu próprio painel. |
| Métrica de ajuste de escala | Não | Sim | Nenhum. Consulte seu espaço de trabalho do Amazon Managed Service for Prometheus para criar seu próprio painel. |
| Métricas de cluster | Sim | Sim | Cluster |
| Métricas de instância | Sim | Sim | Cluster |
| Métricas de computação acelerada | Sim | Sim | Tarefa, cluster |
| Métricas de rede | Não | Sim | Cluster |
| Sistema de arquivos | Sim | Não | Sistema de arquivos |
As tabelas a seguir descrevem as métricas disponíveis para monitorar seu SageMaker HyperPod cluster, organizadas por categoria.
Disponibilidade de métricas em grupos de instâncias restritas
Quando seu cluster contém grupos de instâncias restritas, a maioria das categorias de métricas está disponível em nós restritos, com as seguintes exceções e considerações. Você também pode configurar alertas em qualquer métrica de sua escolha.
| Categoria métrica | Disponível nos nós RIG? | Observações |
|---|---|---|
| Métricas de treinamento | Sim | As métricas do pod Kubeflow e Kubernetes são coletadas. As métricas de KPI de treinamento avançado (do Training Metrics Agent) não estão disponíveis nos nós do RIG. |
| Métricas de inferência | Não | As cargas de trabalho de inferência não são compatíveis com grupos de instâncias restritas. |
| Métricas de governança de tarefas | Não | As métricas do Kueue são coletadas somente dos nós padrão, se houver. |
| Métrica de ajuste de escala | Não | As métricas do KEDA são coletadas somente dos nós padrão, se houver. |
| Métricas de cluster | Sim | As métricas do Kube State e as métricas do servidor da API estão disponíveis. O Kube State Metrics é programado preferencialmente em nós padrão, mas pode ser executado em nós restritos em clusters somente do Rig. |
| Métricas de instância | Sim | As métricas do Node Exporter e do cAdvisor são coletadas em todos os nós, incluindo os nós restritos. |
| Métricas de computação acelerada | Sim | O DCGM Exporter é executado em nós restritos habilitados para GPU. O Neuron Monitor é executado em nós restritos habilitados para Neuron quando o modo avançado está ativado. |
| Métricas de rede | Sim | O EFA Exporter é executado em nós restritos habilitados para EFA quando o modo avançado está ativado. |
| Métricas do sistema de arquivos | Sim | FSx as métricas de utilização do cluster do Lustre são suportadas em grupos de instâncias restritas. |
nota
A coleta de registros de contêineres com o Fluent Bit não é implantada em nós restritos. Os registros de cluster de nós restritos estão disponíveis por meio da SageMaker HyperPod plataforma, independentemente do complemento de observabilidade. Você pode ver esses registros no painel Cluster Logs.
Métricas de treinamento
Use essas métricas para monitorar o desempenho das tarefas de treinamento executadas no SageMaker HyperPod cluster.
| Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica |
|---|---|---|---|
| Métricas do Kubeflow | https://github.com/kubeflow/treinador |
Sim | Kubeflow |
| Métricas de pod do Kubernetes | https://github.com/kubernetes/kube-state-metrics |
Sim | Kubernetes |
training_uptime_percentage |
Porcentagem do tempo de treinamento fora do tamanho total da janela. | Não | SageMaker HyperPod operador de treinamento |
training_manual_recovery_count |
Número total de reinicializações manuais realizadas na tarefa. | Não | SageMaker HyperPod operador de treinamento |
training_manual_downtime_ms |
Tempo total em milissegundos em que a tarefa ficou inativa devido a intervenções manuais. | Não | SageMaker HyperPod operador de treinamento |
training_auto_recovery_count |
Número total de recuperações automáticas. | Não | SageMaker HyperPod operador de treinamento |
training_auto_recovery_downtime |
Tempo total de sobrecarga da infraestrutura em milissegundos durante a recuperação de falhas. | Não | SageMaker HyperPod operador de treinamento |
training_fault_count |
Número total de falhas encontradas durante o treinamento. | Não | SageMaker HyperPod operador de treinamento |
training_fault_type_count |
Distribuição de falhas por tipo. | Não | SageMaker HyperPod operador de treinamento |
training_fault_recovery_time_ms |
Tempo de recuperação em milissegundos para cada tipo de falha. | Não | SageMaker HyperPod operador de treinamento |
training_time_ms |
Tempo total em milissegundos gasto no treinamento real. | Não | SageMaker HyperPod operador de treinamento |
Métricas de inferência
Use essas métricas para monitorar o desempenho das tarefas de inferência no SageMaker HyperPod cluster.
| Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica |
|---|---|---|---|
model_invocations_total |
Número total de solicitações de invocação ao modelo. | Sim | SageMaker HyperPod operador de inferência |
model_errors_total |
Número total de erros durante a invocação do modelo. | Sim | SageMaker HyperPod operador de inferência |
model_concurrent_requests |
Solicitações simultâneas de modelo ativas. | Sim | SageMaker HyperPod operador de inferência |
model_latency_milliseconds |
Latência de invocação do modelo em milissegundos. | Sim | SageMaker HyperPod operador de inferência |
model_ttfb_milliseconds |
Tempo de modelagem até a latência do primeiro byte em milissegundos. | Sim | SageMaker HyperPod operador de inferência |
| TGI | Estas métricas podem ser usadas para monitorar o desempenho da TGI, ajustar a escala da implantação automaticamente e ajudar a identificar gargalos. Para obter uma lista detalhada de métricas, consulte https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. |
Sim | Contêiner do modelo |
| LMI | Estas métricas podem ser usadas para monitorar o desempenho da LMI e ajudar a identificar gargalos. Para obter uma lista detalhada de métricas, consulte https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. |
Sim | Contêiner do modelo |
Métricas de governança de tarefas
Use essas métricas para monitorar a governança de tarefas e a alocação de recursos no SageMaker HyperPod cluster.
| Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica |
|---|---|---|---|
| Kueue | Consulte https://kueue.sigs.k8s. io/docs/reference/metrics |
Não | Kueue |
Métrica de ajuste de escala
Use essas métricas para monitorar o comportamento e o desempenho do auto-scaling no cluster. SageMaker HyperPod
| Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica |
|---|---|---|---|
| Métricas do operador KEDA | Consulte https://keda. sh/docs/2.17/integrations/prometheus/#operator |
Não | Kubernetes Event-driven Autoscaler (KEDA) |
| Métricas de webhook do KEDA | Consulte https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks |
Não | Kubernetes Event-driven Autoscaler (KEDA) |
| Métricas do KEDA Metrics Server | Consulte https://keda. sh/docs/2.17/integrations/prometheus/#metrics -servidor |
Não | Kubernetes Event-driven Autoscaler (KEDA) |
Métricas de cluster
Use estas métricas para monitorar a integridade geral do cluster e a alocação de recursos.
| Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica |
|---|---|---|---|
| Integridade do cluster | Métricas do servidor de API do Kubernetes. Consulte https://kubernetes. io/docs/reference/instrumentation/metrics |
Sim | Kubernetes |
| Kubestate | Veja https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources |
Limitado | Kubernetes |
| KubeState Avançado | Veja https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources |
Não | Kubernetes |
Métricas de instância
Use estas métricas para monitorar o desempenho e a integridade de instâncias individuais.
| Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica |
|---|---|---|---|
| Métricas de nó | Veja https://github.com/prometheus/node_exporter? tabulação = readme-ov-file # enabled-by-default |
Sim | Kubernetes |
| Métricas de contêiner | Métricas de contêiner expostas pelo Cadvisor. Consulte o https://github.com/google/consultor. |
Sim | Kubernetes |
Métricas de computação acelerada
Use estas métricas para monitorar o desempenho, a integridade e a utilização de dispositivos individuais de computação acelerada no cluster.
nota
Quando o particionamento de GPU com MIG (GPU de várias instâncias) está ativado em seu cluster, as métricas do DCGM fornecem automaticamente granularidade em nível de partição para monitorar instâncias MIG individuais. Cada partição MIG é exposta como um dispositivo de GPU separado com suas próprias métricas de temperatura, energia, utilização de memória e atividade computacional. Isso permite que você acompanhe o uso e a integridade dos recursos de cada partição da GPU de forma independente, permitindo o monitoramento preciso das cargas de trabalho executadas em recursos fracionários da GPU. Para obter mais informações sobre como configurar o particionamento de GPU, consulte. Usando partições de GPU na Amazon SageMaker HyperPod
| Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica |
|---|---|---|---|
| GPU da NVIDIA | Métricas do DCGM. Veja https://github.com/NVIDIA/dcgm- -metrics-included.csv. exporter/blob/main/etc/dcp |
Limitado |
Data Center GPU Manager (DCGM) da NVIDIA |
|
GPU da NVIDIA (avançada) |
Métricas do DCGM comentadas no seguinte arquivo CSV: https://github.com/NVIDIA/dcgm--metrics-included.csv exporter/blob/main/etc/dcp |
Não |
Data Center GPU Manager (DCGM) da NVIDIA |
| AWS Estágio | Métricas do Neuron. Veja https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html#. neuron-monitor-nc-counters |
Não | AWS Monitor de neurônios |
Métricas de rede
Use estas métricas para monitorar o desempenho e a integridade dos Elastic Fabric Adapters (EFA) no cluster.
| Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica |
|---|---|---|---|
| EFA | Veja https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. |
Não | Elastic Fabric Adapter |
Métricas do sistema de arquivos
| Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica |
|---|---|---|---|
| Sistema de arquivos | Métricas do Amazon FSx for Lustre da Amazon CloudWatch: | Sim | Amazon FSx para Lustre |