

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Observabilidad del SageMaker HyperPod clúster de Amazon orquestado por Amazon EKS
<a name="sagemaker-hyperpod-eks-cluster-observability"></a>

Para lograr una observabilidad completa de los recursos y componentes de software de su clúster de Amazon SageMaker HyperPod (SageMaker HyperPod), integre el clúster con [Amazon CloudWatch Container Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html), [Amazon Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html) y [Amazon](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html) Managed Grafana. Estas herramientas proporcionan visibilidad del estado del clúster, las métricas de rendimiento y la utilización de los recursos.

La integración con Amazon Managed Service para Prometheus permite exportar métricas relacionadas con los recursos de HyperPod su clúster, lo que proporciona información sobre su rendimiento, uso y estado. La integración con Amazon Managed Grafana permite la visualización de estas métricas a través de varios paneles de Grafana que ofrecen una interfaz intuitiva para supervisar y analizar el comportamiento del clúster. Al aprovechar estos servicios, obtiene una visión centralizada y unificada de su HyperPod clúster, lo que facilita la supervisión proactiva, la solución de problemas y la optimización de sus cargas de trabajo de formación distribuidas.

**nota**  
Si bien CloudWatch Amazon Managed Service for Prometheus y Amazon Managed Grafana se centran en las métricas operativas (por ejemplo, el estado del sistema o la formación, el desempeño laboral) SageMaker HyperPod , los informes de uso [complementan la gobernanza de tareas](sagemaker-hyperpod-eks-operate-console-ui-governance.md) para proporcionar información sobre la responsabilidad financiera y de los recursos. Estos informes registran lo siguiente:  
Utilización del cómputo (horas GPU/CPU/Neuron principales) en todos los niveles namespaces/teams
Atribución de costos de los recursos asignados y prestados
Tendencias históricas (hasta 180 días) de auditoría y optimización
Para obtener más información sobre la configuración y la generación de informes de uso, consulte Cómo [informar sobre el uso informático en HyperPod](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-usage-reporting.html). 

**sugerencia**  
Para encontrar ejemplos prácticos y soluciones, consulte también la sección [Observabilidad](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e/en-US/06-observability) del [ SageMaker HyperPod taller Amazon EKS Support in](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e).

Continúe con los siguientes temas para configurar la observabilidad de los SageMaker HyperPod clústeres.

**Topics**
+ [Observabilidad de modelos para trabajos de formación en SageMaker HyperPod clústeres orquestados por Amazon EKS](sagemaker-hyperpod-eks-cluster-observability-model.md)
+ [Observabilidad de clústeres y tareas](sagemaker-hyperpod-eks-cluster-observability-cluster.md)