

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon EKS에 의해 오케스트레이션된 Amazon SageMaker HyperPod 클러스터에 대한 관찰성
<a name="sagemaker-hyperpod-eks-cluster-observability"></a>

Amazon SageMaker HyperPod(SageMaker HyperPod) 클러스터 리소스 및 소프트웨어 구성 요소에 대한 포괄적인 관찰성을 달성하려면 클러스터를 [Amazon CloudWatch Container Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html), [Amazon Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html) 및 [Amazon Managed Grafana](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html)와 통합합니다. 이러한 도구는 클러스터 상태, 성능 지표 및 리소스 사용률에 대한 가시성을 제공합니다.

Amazon Managed Service for Prometheus와의 통합을 통해 HyperPod 클러스터 리소스와 관련된 지표를 내보낼 수 있으므로 성능, 사용률 및 상태에 대한 인사이트를 얻을 수 있습니다. Amazon Managed Grafana와의 통합을 통해 클러스터의 동작을 모니터링하고 분석하기 위한 직관적인 인터페이스를 제공하는 다양한 Grafana 대시보드를 통해 이러한 지표를 시각화할 수 있습니다. 이러한 서비스를 활용하면 HyperPod 클러스터를 중앙 집중식으로 통합하여 분산 훈련 워크로드의 사전 모니터링, 문제 해결 및 최적화를 촉진할 수 있습니다.

**참고**  
CloudWatch, Amazon Managed Service for Prometheus 및 Amazon Managed Grafana는 운영 지표(예: 시스템 상태, 훈련 작업 성능)에 초점을 맞추고 있지만 SageMaker HyperPod 사용량 보고서는 [태스크 거버넌스](sagemaker-hyperpod-eks-operate-console-ui-governance.md)를 보완하여 재무 및 리소스 책임 인사이트를 제공합니다. 이러한 보고서는 다음을 추적합니다.  
네임스페이스/팀 전반의 컴퓨팅 사용률(GPU/CPU/Neuron Core 시간)
할당된 리소스와 차입한 리소스의 비용 어트리뷰션
감사 및 최적화에 대한 과거 추세(최대 180일)
사용량 보고서 설정 및 생성에 대한 자세한 내용은 [Reporting Compute Usage in HyperPod](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-usage-reporting.html)를 참조하세요.

**작은 정보**  
실제 예시와 솔루션을 찾으려면 [Amazon EKS Support in SageMaker HyperPod workshop](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e)의 [Observability](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e/en-US/06-observability) 섹션도 참조하세요.

다음 주제로 이동하여 SageMaker HyperPod 클러스터 관찰 가능성을 설정합니다.

**Topics**
+ [Amazon EKS에 의해 오케스트레이션된 SageMaker HyperPod 클러스터의 훈련 작업에 대한 관찰성](sagemaker-hyperpod-eks-cluster-observability-model.md)
+ [클러스터 및 작업 관찰성](sagemaker-hyperpod-eks-cluster-observability-cluster.md)