

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon Managed Grafana 및 Amazon Managed Service for Prometheus에서의 Amazon SageMaker HyperPod 관찰성
<a name="sagemaker-hyperpod-observability-addon"></a>

Amazon SageMaker HyperPod(SageMaker HyperPod)는 파운데이션 모델(FM) 개발 작업 및 클러스터 리소스에 대한 인사이트를 제공하는 포괄적인 대시보드를 기본 제공합니다. 이 통합 관찰성 솔루션은 Amazon Managed Service for Prometheus에 주요 지표를 자동으로 게시하고 Amazon Managed Grafana 대시보드에 표시합니다. 대시보드는 하드웨어 상태, 리소스 사용률 및 작업 수준 성능을 심층적으로 다루어 FM 개발에 특히 최적화되어 있습니다. 이 추가 기능을 사용하면 NVIDIA DCGM, 인스턴스 수준 Kubernetes 노드 내보내기 도구, Elastic Fabric Adapter, 통합 파일 시스템, Kubernetes API, Kueue 및 SageMaker HyperPod 작업 운영자의 상태 및 성능 데이터를 통합할 수 있습니다.

## 제한된 인스턴스 그룹(RIG) 지원
<a name="hyperpod-observability-addon-rig-support"></a>

관찰성 추가 기능은 제한된 인스턴스 그룹이 포함된 클러스터도 지원합니다. RIG 클러스터에서 추가 기능은 제한된 노드의 네트워크 격리 및 보안 제약 조건을 준수하도록 배포 전략을 자동으로 조정합니다. DaemonSet 구성 요소(노드 내보내기, DCGM 내보내기, EFA 내보내기, Neuron 모니터 및 노드 수집기)는 표준 노드와 제한된 노드 모두에서 실행됩니다. 배포 구성 요소(중앙 수집기, Kube 상태 지표 및 훈련 지표 에이전트)는 인스턴스 그룹 간의 네트워크 격리를 준수하기 위해 경계 인식 로직으로 예약됩니다. Fluent Bit를 사용한 컨테이너 로그 수집은 제한된 노드에서 사용할 수 없습니다.

제한된 인스턴스 그룹이 있는 클러스터에서 추가 기능을 설정하는 방법에 대한 자세한 내용은 섹션을 참조하세요[SageMaker HyperPod 관찰성 추가 기능 설정](hyperpod-observability-addon-setup.md).

**Topics**
+ [제한된 인스턴스 그룹(RIG) 지원](#hyperpod-observability-addon-rig-support)
+ [SageMaker HyperPod 관찰성 추가 기능 설정](hyperpod-observability-addon-setup.md)
+ [Amazon SageMaker HyperPod 관찰성 대시보드](hyperpod-observability-addon-viewing-dashboards.md)
+ [Amazon Managed Grafana에서 SageMaker HyperPod 클러스터 지표 탐색](hyperpod-observability-addon-exploring-metrics.md)
+ [SageMaker HyperPod 클러스터 지표 대시보드 및 알림 사용자 지정](hyperpod-observability-addon-customizing.md)
+ [사용자 지정 SageMaker HyperPod 클러스터 지표 생성](hyperpod-observability-addon-custom-metrics.md)
+ [SageMaker HyperPod 클러스터 지표](hyperpod-observability-cluster-metrics.md)
+ [미리 구성된 알림](hyperpod-observability-addon-alerts.md)
+ [Amazon SageMaker HyperPod 관찰성 추가 기능 문제 해결](hyperpod-observability-addon-troubleshooting.md)