

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 使用 Amazon 训练模型 SageMaker
<a name="how-it-works-training"></a>

Amazon SageMaker Training 是一项完全托管的机器学习 (ML) 服务 SageMaker ，可帮助您高效地大规模训练各种机器学习模型。 SageMaker AI 作业的核心是机器学习工作负载的容器化以及管理 AWS 计算资源的能力。Training 平台负责为机器学习 SageMaker 培训工作负载设置和管理基础架构相关的繁重工作。借 SageMaker 助 Training，您可以专注于开发、训练和微调模型。本页介绍了三种开始训练模型的推荐方法 SageMaker，然后是您可以考虑的其他选项。

**提示**  
有关生成式 AI 训练基础模型的信息，请参阅在 A [mazon SageMaker Studio 中使用 SageMaker JumpStart 基础模型](https://docs.aws.amazon.com/sagemaker/latest/dg/jumpstart-foundation-models-use-studio-updated.html)。

## 在 Amazon SageMaker 培训中选择一项功能
<a name="choose-a-feature-of-sagemaker-training"></a>

在 SageMaker AI 中训练 ML 模型有三个主要用例。本节介绍这些用例，以及我们为每个用例推荐的 SageMaker AI 功能。

无论您是在训练复杂的深度学习模型，还是要实现较小的机器学习算法， SageMaker Training 都能提供符合您用例要求的简化且经济实惠的解决方案。

### 使用案例
<a name="choose-use-cases-sagemaker-training"></a>

以下是在 SageMaker AI 中训练 ML 模型的主要用例。
+ **使用场景 1**：在低代码或无代码环境中开发机器学习模型。
+ **使用场景 2**：使用代码开发更具灵活性和可控性的机器学习模型。
+ **使用场景 3**：以最大的灵活性和控制力开发大规模机器学习模型。

### 推荐的功能
<a name="choose-recommended-features-of-sagemaker-training"></a>

下表描述了训练 ML 模型的三种常见场景以及开始使用 Training 的 SageMaker 相应选项。


| 描述符 | 应用场景 1 | 应用场景 2 | 使用案例 3 | 
| --- | --- | --- | --- | 
| SageMaker 人工智能功能 | [使用 Amazon C SageMaker anvas 构建模型](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-build-model.html)。 | 使用 [SageMaker AI 内置的机器学习算法](https://docs.aws.amazon.com/sagemaker/latest/dg/algos.html)之一训练模型，例如使用 Pyth SageMaker on [SDK [XGBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html#xgboost-modes)或任务特定模型](https://docs.aws.amazon.com/sagemaker/latest/dg/jumpstart-models.html)。 SageMaker JumpStart | 利用[脚本模式](https://sagemaker-examples.readthedocs.io/en/latest/sagemaker-script-mode/sagemaker-script-mode.html)或 SageMaker AI 中的[自定义容器](https://docs.aws.amazon.com/sagemaker/latest/dg/docker-containers-adapt-your-own.html)，以最大的灵活性大规模训练模型。 | 
| 说明 | 带上你的数据。 SageMaker AI 可帮助管理机器学习模型的构建以及培训基础设施和资源的设置。 |  带上您的数据，然后选择 SageMaker AI 提供的内置机器学习算法之一。使用 Py SageMaker thon SDK 设置模型超参数、输出指标和基本基础设施设置。 SageMaker 培训平台有助于提供培训基础设施和资源。  |  开发自己的机器学习代码，并将其作为脚本或一组脚本引入 SageMaker AI。要了解更多信息，请参阅[分布式计算和 SageMaker 最佳实践](https://docs.aws.amazon.com/sagemaker/latest/dg/distributed-training-options.html#distributed-training-options-2)。此外，您还可以[自带 Docker 容器](https://docs.aws.amazon.com/sagemaker/latest/dg/adapt-training-container.html#byoc-training-step2)。T SageMaker raining 平台可帮助根据您的自定义设置大规模配置培训基础设施和资源。  | 
| 优化 |  低代码/无代码和用户界面驱动的模型开发，可使用训练数据集进行快速实验。[构建自定义模型](canvas-build-model.md)时，会根据您的数据自动选择算法。有关算法选择等高级自定义选项，请参阅[高级模型构建配置](canvas-advanced-settings.md)。  |  训练 ML 模型，可对超参数和基础架构设置进行高级自定义，并可直接使用 ML 框架和入口点脚本，从而提高灵活性。通过 [Amaz SageMaker on Python 软件](https://sagemaker.readthedocs.io/en/stable)开发工具包使用内置算法、预训练 JumpStart 模型和模型来开发机器学习模型。有关更多信息，请参阅使用[ JumpStart类进行低代码部署。](https://sagemaker.readthedocs.io/en/stable/overview.html#low-code-deployment-with-the-jumpstartmodel-class)  |  大规模的 ML 训练工作负载需要多个实例和最大的灵活性。参见[分布式计算和 SageMaker 最佳实践](distributed-training-options.md)。 SageMaker AI 使用 Docker 镜像来托管所有模型的训练和服务。您可以使用任何 SageMaker AI 或外部算法，也可以[使用 Docker 容器来构建模型](docker-containers.md)。  | 
| 注意事项 |  自定义 Amazon C SageMaker anvas 提供的模型的灵活性极低。  |  与低级 SageMaker 训练 API 相比， SageMaker Python SDK 提供了简化的界面和更少的配置选项。  |  需要了解 AWS 基础设施和分布式培训选项。另请参阅使用[训练[工具包创建自己的SageMaker 训练](https://docs.aws.amazon.com/sagemaker/latest/dg/amazon-sagemaker-toolkits.html)容器](https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-training-algo.html)。  | 
| 建议的环境 | 使用 [Amazon SageMaker Canvas](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-getting-started.html#canvas-prerequisites)。要了解如何进行设置，请参阅 [ SageMaker Canvas 使用入门](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-getting-started.html)。 |  JupyterLab在[亚马逊 SageMaker Studio](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated-launch.html) 中使用[SageMaker 人工智能](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated-jl.html)。要了解如何进行设置，请参阅[启动 Amazon SageMaker Studio](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated-launch.html)。 | [SageMaker JupyterLab](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated-jl.html)在 [Amazon SageMaker Studio](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated-launch.html) 中使用。要了解如何进行设置，请参阅[启动 Amazon SageMaker Studio](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated-launch.html)。 | 

## 其他选项
<a name="choose-additional-options-for-sagemaker-training"></a>

SageMaker AI 为训练 ML 模型提供了以下其他选项。

**SageMaker 提供训练功能的 AI 功能**
+ **[SageMaker JumpStart](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-jumpstart.html)**: SageMaker JumpStart 提供对 SageMaker AI 公共模型中心的访问权限，该中心包含最新的公开可用和专有基础模型 (FMs)。您可以在 Amazon SageMaker Studio 中微调、评估和部署这些模型。 SageMaker JumpStart 简化了为生成式 AI 用例利用基础模型的流程，并允许您创建私有模型中心以使用基础模型，同时强制实施治理护栏并确保您的组织只能访问已批准的模型。要开始使用 SageMaker JumpStart，请参阅[SageMaker JumpStart 基础模型](https://docs.aws.amazon.com/sagemaker/latest/dg/jumpstart-foundation-models.html)。
+ **[SageMaker HyperPod](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod.html)**: SageMaker HyperPod 是一项持久性群集服务，适用于需要弹性集群来处理大规模机器学习 (ML) 工作负载和开发 state-of-the-art基础模型 (FMs) 的用例。它消除了构建和维护由数千个加速器（例如 AWS Trainium 或 NVIDIA A100 和 H100 图形处理单元）提供支持的大型计算集群所涉及的无差别繁重的工作，从而加快了此类模型的开发（）。GPUs您可以在 Slurm 上使用工作负载管理器软件。 HyperPod

** SageMaker 培训的更多功能**
+ **[超参数调整](https://docs.aws.amazon.com/sagemaker/latest/dg/automatic-model-tuning.html)**：此 SageMaker AI 功能有助于为模型定义一组超参数，并在数据集上启动许多训练作业。根据超参数值的不同，模型训练的性能也可能不同。此功能可在您设定的超参数范围内提供一组性能最佳的超参数。
+ **[分布式训练](https://docs.aws.amazon.com/sagemaker/latest/dg/distributed-training.html)**：使用 PyTorch NVIDIA CUDA 和其他 PyTorch基于框架 FMs 构建的预训练或微调。要有效地利用 GPU 实例，请使用 SageMaker AI 分布式训练库，该库提供集体通信操作和各种模型并行技术，例如针对基础设施进行了优化的专家并行性和共享数据并行性。 AWS 
+ **可观察性功能**：使用 Training 的 SageMaker 分析和调试功能深入了解模型训练工作负载、模型性能和资源利用率。要了解更多信息，请参阅[调试和提高模型性能](https://docs.aws.amazon.com/sagemaker/latest/dg/train-debug-and-improve-model-performance.html)以及[分析和优化计算性能](https://docs.aws.amazon.com/sagemaker/latest/dg/train-profile-computational-performance.html)。
+ **节省成本和高效的实例选项**：要优化训练实例配置的计算成本和效率，请使用[异构集群](https://docs.aws.amazon.com/sagemaker/latest/dg/train-heterogeneous-cluster.html)、[托管竞价型实例](https://docs.aws.amazon.com/sagemaker/latest/dg/model-managed-spot-training.html)或[托管的暖池](https://docs.aws.amazon.com/sagemaker/latest/dg/train-warm-pools.html)。