Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Installation de packages d'exportation de métriques sur votre HyperPod cluster
Dans la configuration de base, les scripts de cycle de vie fournis par l' SageMaker HyperPod équipe incluent également l'installation de divers packages d'exportation de métriques. Pour activer l’étape d’installation, il vous suffit de définir le paramètre enable_observability=True dans le fichier config.py
| Nom | Nœud cible de déploiement des scripts | Description de l’exportateur |
| Exportateur Slurm pour Prometheus |
Nœud principal (contrôleur) |
Exporte les métriques de comptabilité Slurm. |
|
Nœud de calcul |
Exporte les métriques à partir des nœuds du cluster et EFA. Le package est une duplication de l’exportateur de nœuds Prometheus |
|
| Nœud de calcul |
Exporte les métriques NVIDIA DCGM relatives à l'état de santé et aux performances de NVIDIA GPUs. |
Avec enable_observability=True dans le fichier config.pylifecycle_script.py
# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()
Sur les nœuds de calcul, le script installe l’exportateur NVIDIA Data Center GPU Management (DCGM) et l’exportateur de nœuds Elastic Fabric Adapter (EFA). L'exportateur DCGM est un exportateur pour Prometheus qui collecte des métriques auprès de GPUs NVIDIA, permettant de surveiller l'utilisation, les performances et l'état du GPU. L’exportateur de nœuds EFA, quant à lui, collecte les métriques relatives à l’interface réseau EFA, essentielles pour les communications à faible latence et à bande passante élevée dans les clusters HPC.
Sur le nœud principal, le script installe l’exportateur Slurm pour Prometheus et le logiciel open source Prometheus
Notez que les scripts de cycle de vie sont conçus pour installer tous les packages de l’exportateur en tant que conteneurs Docker, de sorte que le package Docker doit également être installé à la fois sur le nœud principal et sur les nœuds de calcul. Les scripts de ces composants sont facilement fournis dans le utils
Une fois que vous avez correctement configuré votre HyperPod cluster installé avec les packages d'exportation, passez à la rubrique suivante pour terminer la configuration d'Amazon Managed Service pour Prometheus et Amazon Managed Grafana.