

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Amazon EKS がオーケストレーションした Amazon SageMaker HyperPod クラスターのオブザーバビリティ
<a name="sagemaker-hyperpod-eks-cluster-observability"></a>

Amazon SageMaker HyperPod (SageMaker HyperPod) クラスターのリソースとソフトウェアコンポーネントに対する包括的なオブザーバビリティを実現するには、クラスターを [Amazon CloudWatch Container Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html)、[Amazon Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html)、[Amazon Managed Grafana](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html) と統合します。これらのツールを使用すると、クラスターのヘルス、パフォーマンスメトリクス、リソース使用率を可視化できます。

Amazon Managed Service for Prometheus との統合により、HyperPod クラスターリソースに関連するメトリクスのエクスポートが可能になり、パフォーマンス、使用率、ヘルスに関するインサイトが得られます。Amazon Managed Grafana との統合により、クラスターの動作をモニタリングおよび分析するための直感的なインターフェイスを提供するさまざまな Grafana ダッシュボードを通じて、これらのメトリクスを可視化できます。これらのサービスを活用することで、HyperPod クラスターを一元的に統一して表示できるため、分散トレーニングワークロードのプロアクティブなモニタリング、トラブルシューティング、最適化が容易になります。

**注記**  
CloudWatch、Amazon Managed Service for Prometheus、Amazon Managed Grafana は運用メトリクス (システムの状態、トレーニングジョブのパフォーマンスなど) に焦点を当てていますが、SageMaker HyperPod 使用状況レポートは[タスクガバナンス](sagemaker-hyperpod-eks-operate-console-ui-governance.md)を補完し、財務とリソースの説明責任に関するインサイトを提供します。これらのレポートは以下を追跡します。  
名前空間/チーム間のコンピューティング使用率 (GPU/CPU/Neuron Core 時間)
割り当てられたリソースと借用したリソースのコスト属性
監査と最適化履歴の傾向 (最大 180 日)
使用状況レポートの設定と生成の詳細については、「[HyperPod でのコンピューティング使用状況レポート](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-usage-reporting.html)」を参照してください。

**ヒント**  
実用的な例と解決策については、[SageMaker HyperPod ワークショップの Amazon EKS サポート](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e)にある「[Observability](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e/en-US/06-observability)」セクションも参照してください。

次のトピックに進み、SageMaker HyperPod クラスターオブザーバビリティを設定します。

**Topics**
+ [Amazon EKS によってオーケストレーションされた SageMaker HyperPod クラスターでのトレーニングジョブのモデルオブザーバビリティ](sagemaker-hyperpod-eks-cluster-observability-model.md)
+ [クラスターとタスクのオブザーバビリティ](sagemaker-hyperpod-eks-cluster-observability-cluster.md)