Organisez une formation distribuée avec la bibliothèque de parallélisme de données distribué basée sur l' SageMaker IA - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Organisez une formation distribuée avec la bibliothèque de parallélisme de données distribué basée sur l' SageMaker IA

La bibliothèque SMDDP ( SageMaker AI Distributed Data Parallelism) étend les capacités de SageMaker formation sur les modèles d'apprentissage profond avec une efficacité de mise à l'échelle quasi linéaire en fournissant des implémentations d'opérations de communication collective optimisées pour l'infrastructure. AWS

Lorsqu’ils entraînent de grands modèles de machine learning (ML), comme les grands modèles de langage (LLM) et les modèles de diffusion, sur un vaste jeu de données d’entraînement, les professionnels du ML utilisent des clusters d’accélérateurs et des techniques d’entraînement distribué afin de réduire le temps d’entraînement ou de résoudre les contraintes de mémoire pour les modèles qui ne tiennent pas dans la mémoire de chaque GPU. Les professionnels du ML commencent souvent par utiliser plusieurs accélérateurs sur une seule instance, puis les mettent à l’échelle vers des clusters d’instances à mesure que leurs exigences en matière de charge de travail augmentent. Quand la taille des clusters augmente, la surcharge de communication entre les différents nœuds augmente elle aussi, ce qui entraîne une baisse globale des performances de calcul.

Pour résoudre ces problèmes de surcharge et de mémoire, la bibliothèque SMDDP propose les solutions suivantes.

  • La bibliothèque SMDDP optimise les tâches de formation pour l'infrastructure AWS réseau et la topologie des instances Amazon SageMaker AI ML.

  • La bibliothèque SMDDP améliore la communication entre les nœuds grâce à des implémentations AllReduce et à des opérations de communication AllGather collective optimisées pour l'infrastructure. AWS

Pour plus de détails sur ce que proposent les bibliothèques SMDDP, consultez Présentation de la bibliothèque de parallélisme de données distribué basée sur l' SageMaker IA.

Pour plus d'informations sur l'entraînement avec la stratégie de modélisation parallèle proposée par l' SageMaker IA, voir également. (Archivé) Bibliothèque SageMaker de parallélisme des modèles v1.x