本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 內建演算法的執行個體類型
<a name="cmn-info-instance-types"></a>

大多數 Amazon SageMaker AI 演算法已設計為可利用 GPU 運算進行訓練。雖然每個執行個體的成本較高，但 GPU 的訓練速度更快，更具成本效益。例外有註明在本教學中。

若要了解支援的 EC2 執行個體，請參閱[執行個體詳細資訊](https://aws.amazon.com/sagemaker-ai/pricing/#Instance_details)。

何種硬體組態最能發揮效率，資料的大小和類型有很大的影響。當相同的模型要不斷循環訓練時，最初在多種執行個體類型上進行測試，可找出長程下來最具成本效益的組態。此外，在 GPU 上訓練效率最佳的演算法，在推論時的效率可能並不需要 GPU。請進行實驗，找出最具效率的解決方案。若要取得自動執行個體建議或執行自訂負載測試，請使用 [Amazon SageMaker Inference Recommender](https://docs.aws.amazon.com/sagemaker/latest/dg/inference-recommender.html)。

如需 SageMaker AI 硬體規格的詳細資訊，請參閱 [Amazon SageMaker AI 定價](https://aws.amazon.com/sagemaker/ai/pricing/)。

**UltraServer**

UltraServer 使用低延遲、高頻寬加速器互連來連接多個 Amazon EC2 執行個體。它們旨在處理需要大量處理能力的大規模 AI/ML 工作負載。如需詳細資訊，請參閱 [Amazon EC2 UltraServer](https://aws.amazon.com/ec2/ultraservers/)。若要開始使用 UltraServers，請參閱[為您的訓練任務或 HyperPod 叢集預留訓練計畫](https://docs.aws.amazon.com/sagemaker/latest/dg/reserve-capacity-with-training-plans.html)。

若要在 Amazon SageMaker AI 上開始使用 UltraServers，[請建立訓練計畫](https://docs.aws.amazon.com/sagemaker/latest/dg/reserve-capacity-with-training-plans.html)。訓練計畫中提供 UltraServer 後，請使用 AWS 管理主控台、Amazon SageMaker AI API 或 建立訓練任務 AWS CLI。請記得在訓練計畫中指定您購買的 UltraServer 執行個體類型。

UltraServer 一次可以執行一或多個任務。UltraServer 會將執行個體分組在一起，這為您在組織中指派 UltraServer 容量提供了一定的彈性。當您設定任務時，也請記住組織的資料安全指導方針，因為一個 UltraServer 中的執行個體可以存取相同 UltraServer 上另一個執行個體中另一個任務的資料。

如果您在 UltraServer 中遇到硬體故障，SageMaker AI 會自動嘗試解決問題。隨著 SageMaker AI 調查並解決問題，您可能會透過 AWS Health Events 或 接收通知和動作 AWS 支援。

訓練任務完成後，SageMaker AI 會停止執行個體，但如果計劃仍處於作用中狀態，這些執行個體仍會保留在您的訓練計劃中。若要在任務完成後讓 UltraServer 中的執行個體持續執行，您可以使用[受管暖集區](https://docs.aws.amazon.com/sagemaker/latest/dg/train-warm-pools.html)。

如果您的訓練計畫有足夠的容量，您甚至可以在多個 UltraServer 上執行訓練任務。根據預設，每個 UltraServer 都隨附 18 個執行個體，其中包含 17 個執行個體和 1 個備用執行個體。如果您需要更多執行個體，則必須購買更多 UltraServer。建立訓練任務時，您可以使用 `InstancePlacementConfig` 參數設定任務在 UltraServer 之間的放置方式。

如果您未設定任務置放，SageMaker AI 會自動將任務配置到 UltraServer 中的執行個體。此預設策略是根據盡力而為，即在使用不同的 UltraServer 之前優先填入單一 UltraServer 中的所有執行個體。例如，如果您請求 14 個執行個體，並且訓練計畫中擁有 2 個 UltraServer，則 SageMaker AI 會使用第一個 UltraServer 中的所有執行個體。如果您請求 20 個執行個體，並且訓練計畫中擁有 2 個 UltraServer，則 SageMaker AI 將使用第一個 UltraServer 中的全部 17 個執行個體，然後使用第二個 UltraServer 中的 3 個執行個體。UltraServer 內的執行個體使用 NVLink 進行通訊，但個別 UltraServer 使用 Elastic Fabric Adapter (EFA)，這可能會影響模型訓練效能。