

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Profilage et optimisation des performances de calcul
<a name="train-profile-computational-performance"></a>

Lors de l’entraînement de modèles de deep learning de pointe dont la taille augmente rapidement, il devient difficile de mettre à l’échelle la tâche d’entraînement de ces modèles à un grand cluster de GPU et d’identifier les problèmes de performance de calcul liés à des milliards et à des milliers de milliards d’opérations et de communications à chaque itération du processus de descente du gradient.

SageMaker L'IA fournit des outils de profilage pour visualiser et diagnostiquer ces problèmes de calcul complexes liés à l'exécution de tâches de formation sur des ressources de AWS cloud computing. L' SageMaker IA propose deux options de profilage : Amazon SageMaker Profiler et un moniteur d'utilisation des ressources dans Amazon SageMaker Studio Classic. Consultez les présentations suivantes des deux fonctionnalités pour obtenir un aperçu rapide et savoir laquelle utiliser en fonction de vos besoins.

**Amazon SageMaker Profiler**

Amazon SageMaker Profiler est une fonctionnalité de profilage de l' SageMaker IA qui vous permet d'étudier en profondeur les ressources informatiques mises à disposition tout en développant des modèles d'apprentissage approfondi, et d'obtenir une meilleure visibilité sur les détails opérationnels. SageMaker Profiler fournit des modules Python permettant d'ajouter des annotations PyTorch ou d' TensorFlow entraîner des scripts et d'activer SageMaker Profiler. Vous pouvez accéder aux modules via le SDK SageMaker Python et les AWS Deep Learning Containers. 

Avec SageMaker Profiler, vous pouvez suivre toutes les activités sur les processeurs et les GPU, telles que l'utilisation des processeurs et des GPU, les exécutions du noyau sur les GPU, les lancements du noyau sur les processeurs, les opérations de synchronisation, les opérations de mémoire entre les processeurs et les GPU, les latences entre les lancements du noyau et les exécutions correspondantes, et le transfert de données entre les processeurs et les GPU. 

SageMaker Profiler propose également une interface utilisateur (UI) qui permet de visualiser le *profil*, un résumé statistique des événements profilés et la chronologie d'une tâche de formation afin de suivre et de comprendre la relation temporelle des événements entre les GPU et les processeurs.

Pour en savoir plus sur SageMaker Profiler, consultez[Amazon SageMaker Profiler](train-use-sagemaker-profiler.md).

**Surveillance des ressources AWS informatiques dans Amazon SageMaker Studio Classic**

SageMaker AI fournit également une interface utilisateur dans Studio Classic pour surveiller l'utilisation des ressources à un niveau élevé, mais avec une plus grande granularité par rapport aux métriques d'utilisation par défaut collectées par SageMaker AI to CloudWatch.

Pour chaque tâche de formation que vous exécutez dans l' SageMaker IA à l'aide du SDK SageMaker Python, l' SageMaker IA commence à établir le profil des indicateurs d'utilisation des ressources de base, tels que l'utilisation du processeur, l'utilisation du processeur graphique, l'utilisation de la mémoire du processeur graphique, le réseau et le temps d' I/O attente. Il collecte ces métriques d’utilisation des ressources toutes les 500 millisecondes. 

Comparée aux CloudWatch métriques d'Amazon, qui collectent des métriques à intervalles d'une seconde, la fonctionnalité de surveillance de l' SageMaker IA fournit une granularité plus fine dans les métriques d'utilisation des ressources, jusqu'à des intervalles de 100 millisecondes (0,1 seconde), ce qui vous permet d'approfondir les métriques au niveau d'une opération ou d'une étape.

Pour accéder au tableau de bord permettant de surveiller les indicateurs d'utilisation des ressources d'une tâche de formation, consultez l'[interface utilisateur SageMaker AI Debugger dans SageMaker Studio](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-on-studio.html) Experiments.



**Topics**
+ [Amazon SageMaker Profiler](train-use-sagemaker-profiler.md)
+ [Surveillance AWS utilisation des ressources de calcul dans Amazon SageMaker Studio Classic](debugger-profile-training-jobs.md)
+ [Notes de mise à jour relatives aux fonctionnalités de profilage d'Amazon SageMaker AI](profiler-release-notes.md)