

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Observabilidade para o SageMaker HyperPod cluster da Amazon orquestrada pelo Amazon EKS
<a name="sagemaker-hyperpod-eks-cluster-observability"></a>

Para obter uma observabilidade abrangente em seus recursos de cluster e componentes de software da Amazon SageMaker HyperPod (SageMaker HyperPod), integre o cluster com o [Amazon CloudWatch Container Insights, o Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html) [Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html) e o [Amazon](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html) Managed Grafana. Essas ferramentas oferecem visibilidade sobre a integridade do cluster, as métricas de desempenho e a utilização de recursos.

A integração com o Amazon Managed Service for Prometheus permite a exportação de métricas relacionadas aos HyperPod seus recursos de cluster, fornecendo informações sobre seu desempenho, utilização e integridade. A integração com o Amazon Managed Grafana permite a visualização dessas métricas por meio de vários painéis do Grafana que oferecem uma interface intuitiva para monitorar e analisar o comportamento do cluster. Ao aproveitar esses serviços, você obtém uma visão centralizada e unificada do seu HyperPod cluster, facilitando o monitoramento proativo, a solução de problemas e a otimização de suas cargas de trabalho de treinamento distribuídas.

**nota**  
Enquanto CloudWatch o Amazon Managed Service for Prometheus e o Amazon Managed Grafana se concentram em métricas operacionais (por exemplo, integridade do sistema, desempenho do trabalho de treinamento) SageMaker HyperPod , os relatórios de uso [complementam a governança de tarefas](sagemaker-hyperpod-eks-operate-console-ui-governance.md) para fornecer insights financeiros e de responsabilidade de recursos. Esses relatórios monitoram:  
Utilização da computação (horas GPU/CPU/Neuron principais) em namespaces/teams
A atribuição de custos para recursos alocados e recursos tomados emprestados.
As tendências históricas (até 180 dias) para auditoria e otimização.
Para obter mais informações sobre como configurar e gerar relatórios de uso, consulte [Relatar o uso de computação em HyperPod](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-usage-reporting.html). 

**dica**  
Para encontrar exemplos e soluções práticas, consulte também a seção [Observabilidade](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e/en-US/06-observability) [no SageMaker HyperPod workshop Amazon EKS Support](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e).

Continue com os tópicos a seguir para configurar a observabilidade SageMaker HyperPod do cluster.

**Topics**
+ [Observabilidade do modelo para trabalhos de treinamento em SageMaker HyperPod clusters orquestrados pelo Amazon EKS](sagemaker-hyperpod-eks-cluster-observability-model.md)
+ [Observabilidade de clusters e tarefas](sagemaker-hyperpod-eks-cluster-observability-cluster.md)