View a markdown version of this page

Exécution de tâches d’entraînement sur un cluster hétérogène - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Exécution de tâches d’entraînement sur un cluster hétérogène

À l'aide de la fonctionnalité de cluster hétérogène de SageMaker Training, vous pouvez exécuter une tâche de formation avec plusieurs types d'instances de machine learning pour une meilleure mise à l'échelle et une meilleure utilisation des ressources pour différentes tâches et objectifs de formation ML. Par exemple, si votre tâche de formation sur un cluster comportant des instances de GPU est confrontée à une faible utilisation du GPU et à des problèmes de saturation du processeur en raison des CPU-intensive tâches, l'utilisation d'un cluster hétérogène peut vous aider à décharger les CPU-intensive tâches en ajoutant des groupes d'instances de processeur plus rentables, en résolvant ces problèmes de goulot d'étranglement et en optimisant l'utilisation du GPU.

Note

Cette fonctionnalité est disponible dans le SDK SageMaker Python v2.98.0 et versions ultérieures.

Note

Cette fonctionnalité est disponible via les classes d'estimateur SageMaker AI PyTorchet de TensorFlowframework. Les frameworks pris en charge sont la PyTorch v1.10 ou version ultérieure et la TensorFlow version 2.6 ou ultérieure.

Consultez également le blog Améliorez le rapport prix/performance de votre formation de modèles à l'aide de clusters hétérogènes Amazon SageMaker AI.