View a markdown version of this page

在异构集群上运行训练作业 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在异构集群上运行训练作业

使用 Training 的 SageMaker 异构集群功能,您可以使用多种类型的机器学习实例运行训练作业,从而更好地扩展资源,更好地利用不同的机器学习训练任务和目的。例如,如果您在具有 GPU 实例的集群上训练作业因 CPU-intensive任务而遇到 GPU 利用率低和 CPU 瓶颈问题,则使用异构集群可以通过添加更具成本效益的 CPU 实例组来帮助卸载 CPU-intensive 任务,解决此类瓶颈问题并获得更高的 GPU 利用率。

注意

此功能在 SageMaker Python SDK v2.98.0 及更高版本中可用。

注意

此功能可通过 SageMaker AI PyTorchTensorFlow框架估算器类获得。支持的框架是 PyTorch v1.10 或更高版本以及 TensorFlow v2.6 或更高版本。

另请参阅博客使用 Amazon A SageMaker I 异构集群提高模型训练的价格性能