View a markdown version of this page

為您的訓練任務或 HyperPod 叢集保留訓練計畫 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

為您的訓練任務或 HyperPod 叢集保留訓練計畫

Amazon SageMaker 訓練計畫是一項功能,可讓您保留 GPU 容量,並協助將 GPU 容量最大程度用於大規模 AI 模型訓練工作負載。此功能可讓您存取熱門的執行個體類型,涵蓋各種 GPU 加速運算選項,包括最新的 NVIDIA GPU 技術和 AWS 訓練晶片。透過 SageMaker 訓練計畫,您可以在指定的時間表和預算內保護對這些高需求、高效能運算資源的可預測存取,而無需管理基礎設施。此彈性對於處理以下挑戰的組織特別有價值:為其關鍵任務 AI 工作負載取得和排程這些過度訂閱的運算執行個體。

什麼是 SageMaker 訓練計畫

SageMaker 訓練計畫可讓您保留針對目標資源需求量身打造的運算容量,例如 SageMaker 訓練任務或 SageMaker HyperPod 叢集。服務會自動處理保留、加速運算資源的佈建、基礎設施設定、工作負載執行,以及基礎設施故障的復原。

SageMaker 訓練計畫包含一或多個預留容量區塊,每個區塊皆由下列參數定義:

  • 特定執行個體類型

  • 執行個體數量

  • 可用區域

  • 持續時間

  • 開始及結束時間

注意
  • 訓練計畫專屬於其目標資源 (SageMaker 訓練任務或 SageMaker HyperPod),無法互換。

  • 單一訓練計畫中的多個預留容量區塊可能會不連續。這表示預留容量區塊之間可能會有間隙。

SageMaker 訓練計畫的優勢

SageMaker 訓練計劃提供下列優勢:

  • 可預測存取:在指定的時間範圍內為機器學習工作負載保留 GPU 容量。

  • 成本管理:事先為大規模訓練要求做好規劃和編列預算。

  • 自動化資源管理:SageMaker 訓練計畫會處理基礎設施的佈建和管理。

  • 彈性:為各種資源建立訓練計畫,包括 SageMaker 訓練任務和 SageMaker HyperPod 叢集。

  • 容錯:受益於從基礎設施故障自動復原,以及跨 SageMaker AI 訓練任務可用區域的工作負載遷移。

SageMaker 訓練計畫預先保留和提供彈性的開始時間

SageMaker 訓練計畫可讓您提前保留運算容量,搭配彈性的開始時間和持續時間。

  • 提前保留:您最多可以在開始日期前 8 週 (56 天) 保留訓練計劃。

  • 最短前置時間:SageMaker 訓練計畫方案可在保留後 30 分鐘內開始,但需視可用性而定。

    注意

    您可以搜尋並購買可在 30 分鐘內存取的計畫。為了確保及時啟用,付款交易必須在所需的開始時間前至少 5 分鐘成功完成。例如,如果您希望計畫在下午 2:00 開始,您可以最晚在下午 1:30 進行最後一刻搜尋,並在下午 1:55 前完成購買,以確保計畫在下午 2:00 前準備就緒。

  • 保留持續時間和執行個體數量:SageMaker 訓練計畫可讓您保留具有特定持續時間和數量選項的執行個體。如需指定 AWS 區域、持續時間和數量選項中可用的執行個體類型,請參閱 支援的執行個體類型 AWS 區域和定價

  • 結束時間:訓練計畫一律在保留最後一天的上午 11:30 UTC 結束。

  • 訓練計畫終止:如果您使用訓練任務做為目標資源,且預留容量中剩餘 30 分鐘,SageMaker 訓練計畫會啟動終止該區塊內任何執行中執行個體的程序,直到下一個預留容量變成作用中為止。您保留訓練計畫的完整存取權,直到最終預留容量區塊結束時間前 30 分鐘為止。

    如果您的目標資源是 SageMaker HyperPod 叢集,則此時間限制為一小時。

SageMaker 訓練計畫使用者工作流程

SageMaker 訓練計畫會逐步完成下列步驟:

管理員步驟:

  1. 搜尋和檢閱:尋找符合您運算要求的可用計畫方案,例如執行個體類型、計數、開始時間和持續時間。

  2. 建立計畫:使用所選計劃方案的 ID 保留符合您要求的訓練計畫。

  3. 付款和排程:預付款成功後,計畫狀態會變成 Scheduled

規劃使用者/ML 工程師的步驟:

  1. 資源配置:使用您的計畫將 SageMaker AI 訓練任務排入佇列,或配置給 SageMaker HyperPod 叢集執行個體群組。

  2. 啟用:計畫開始日期到來時,其會變成 Active。根據可用的預留容量,SageMaker 訓練計畫會自動啟動訓練任務或佈建執行個體群組。

注意

當預留容量期間開始時,訓練計畫的狀態會從 Scheduled 轉換為 Active,然後在等待下一個預留容量期間開始時回到 Scheduled

下圖提供 SageMaker 訓練計畫如何與不同 target resources 互動的完整概觀,其中說明計畫的生命週期,以及其在 SageMaker 訓練任務和 SageMaker HyperPod 叢集資源配置中的角色。

  • SageMaker 訓練任務的訓練計畫:第一個圖表說明訓練計畫與 SageMaker 訓練任務之間互動的端對端工作流程。

    計費、帶有訓練計畫的容量保留,以及 SageMaker 訓練任務。管理員和 ML 工程師管理的訓練計畫生命週期和訓練任務狀態圖例。
  • SageMaker HyperPod 叢集的訓練計畫:第二個圖表說明訓練計畫與 SageMaker HyperPod 執行個體群組之間互動的端對端工作流程。

    計費、帶有訓練計畫的容量保留,以及執行個體群組管理工作流程。管理員和 ML 工程師管理的訓練計畫生命週期和執行個體群組狀態圖例。

支援的執行個體類型 AWS 區域和定價

訓練計畫支援下列特定高效能執行個體類型的保留,每種類型都可以在選取 AWS 區域中使用:

  • ml.p4d.24xlarge

  • ml.p5.48xlarge

  • ml.p5e.48xlarge

  • ml.p5en.48xlarge

  • ml.trn1.32xlarge

  • ml.trn2.48xlarge

  • ml.p6-b200.48xlarge

  • ml.c6i-32xlargesc

UltraServers

  • ml.p6e-gb200.36xlarge

  • ml.p6e-gb200.72xlarge

注意

執行個體類型的可用性可能會隨著時間而變化。如需根據區域的可用執行個體類型的最新資訊,以及其個別價格,請參閱 SageMaker 定價。向下捲動至隨需定價下的 Amazon SageMaker HyperPod 彈性訓練計畫區段。選取一個區域以檢視可用執行個體類型的清單。

跨多個區域的可用性允許為工作負載選擇最合適的位置,同時考慮資料落地要求和其他 AWS 服務的鄰近性等因素。

重要
  • 您可以使用 SageMaker 訓練計畫搭配下列保留持續時間和執行個體數量選項,來保留執行個體。

    • 保留持續時間從 1 天到 182 天,增量單位為 1 天。

    • 保留執行個體數量選項為 1、2、4、8、16、32 或 64 個執行個體。

  • 請確定您的訓練任務或 HyperPod 服務配額允許每個執行個體類型的執行個體數量上限超過您計劃中指定的執行個體數量。若要檢視您目前的配額或請求配額增加,請參閱使用 AWS 管理主控台檢視 SageMaker 訓練計畫配額

SageMaker AI 中的 UltraServer

SageMaker AI 中的 UltraServer 提供一組透過高頻寬網路網域互連的執行個體。例如,P6e-GB200 UltraServer 在一個 NVIDIA NVLink 網域下最多連線 18 個 p6e-gb200.36xlarge。執行個體。透過每個執行個體 4 個 NVIDIA Blackwell GPU,每個 P6e-GB200 UltraServer 都支援 72 個 GPU,因此您可以在 SageMaker AI 上執行效能最高的最大 AI 工作負載。

當您將 UltraServers 與 SageMaker AI 搭配使用時,您可以取得效能,結合 SageMaker AI 的受管基礎設施、內建的故障復原功能、整合的監控功能,以及與其他 SageMaker AI AWS 和服務的原生整合。此整合可讓您專注於模型開發和部署,而 SageMaker AI 會處理管理 AI 基礎設施的無差別繁重工作。

注意

UltraServer 僅適用於達拉斯本地區域 (us-east-1-dfw-2a),這是美國東部 (維吉尼亞北部) 區域的延伸。如需詳細資訊,請參閱 入門 AWS Local Zone

考量事項

使用 UltraServer 搭配 SageMaker AI 時,請考慮下列事項:

  • 您可以將 UltraServer 同時用於 SageMaker HyperPod SageMaker 訓練任務

  • 您只能以完整單位購買 UltraServer。如需執行個體和定價資訊的詳細資訊,請參閱 Amazon SageMaker AI 定價中的 Amazon SageMaker HyperPod 彈性訓練計畫。

  • 如果您使用 UltraServer 搭配 HyperPod,HyperPod 會自動將拓撲標籤新增至您的資源,以協助您進行資源配置。如需詳細資訊,請參閱在 Amazon SageMaker HyperPod 中使用拓撲感知排程

  • SageMaker AI 和 UltraServer 提供各種功能,增強工作負載的彈性,包括先佔檢查和自動故障偵測和緩解。根據問題所在,SageMaker AI 可以執行動作來復原工作負載,例如重新啟動執行個體、將失敗的執行個體取代為備用執行個體,以及取代失敗的 UltraServer。

  • 如需提高彈性,您可以設定 UltraServer 內的執行個體以用作備用執行個體。在 UltraServer 內保留備用執行個體確保 SageMaker AI 可以快速回應執行個體故障,同時將對您任務的任何影響降至最低。我們建議您為每個 UltraServer 保留一個備用執行個體。您不需要保留任何備用執行個體,但這可能會阻礙支援選項並降低故障復原速度。您以整體方式購買 UltraServer,因此您保留的備用數量不會影響定價。

  • 若要查看 UltraServer 中的狀態和執行個體,請使用 ListTrainingPlans API 操作或 AWS 主控台來查看訓練計劃。使用這些工具,您可以查看可用執行個體的總數、目前使用中的執行個體、運作狀態不佳的執行個體、已設定的備用數量,以及其他資訊。可能的運作狀態為 okimpairedinsufficient-data

SageMaker 訓練計畫搜尋行為

搜尋訓練計畫產品時,SageMaker 訓練計畫會使用下列方法,最大化使用者的資源可用性和彈性,即使需求很高且預留容量區塊稀缺的情況下也是如此:

  • 初始持續搜尋:SageMaker 訓練計畫會先嘗試尋找符合開始和結束日期內指定持續時間的單一連續預留容量區塊,同時滿足所有其他指定條件,包括目標資源、請求的執行個體類型和執行個體數量。

  • 雙區塊搜尋:如果滿足所有條件的單一連續預留容量區塊無法使用,SageMaker 訓練計畫不會傳回「無容量」結果。相反地,它會自動嘗試使用兩個單獨的預留容量區塊來完成請求,將總持續時間分割為兩個時段。

    這種雙區塊方法在資源配置方面提供更多彈性,可能會保護完全無法使用的高需求執行個體。

注意

SageMaker 訓練計畫最多可傳回一個或兩個區段的三個方案。例如,對於 48 小時持續時間計畫,SageMaker 訓練計畫可能會提供方案兩個 24 小時區塊,一個連續 48 小時區塊和兩個持續時間不平均的區塊。

考量事項

重要
  • 訓練計畫一旦購買就無法修改。

  • 訓練計劃無法跨 AWS 帳戶或在您的 AWS 組織內共用。

  • 搜尋訓練計畫方案時,SageMaker 訓練計畫會根據 target resources 調整其搜尋策略:

    對於 SageMaker HyperPod 叢集

    • 方案限制為單一可用區域 (AZ)。

    • 這可確保叢集內一致的網路效能和資料位置性。

    對於 SageMaker 訓練任務

    • 方案可以跨越多個可用區域。

    • 當計畫方案包含多個不連續的預留容量時,這尤其重要。

    • 例如,一個計畫可能包括 AZ-A 中一個預留容量區塊的容量,以及 AZ-B 中另一個預留容量區塊的容量。SageMaker 訓練計畫可以根據資源可用性,跨可用區域 (AZ) 自動移動工作負載。

      這種用於訓練任務的多 AZ 方法在資源配置方面提供更大的彈性,增加為您的工作負載尋找合適容量的機會。不過,您應該知道,您的任務可能會在保留期間的不同部分於不同 AZ 中執行。

  • 提出雙區塊方案時,使用者應仔細考慮此分割配置是否符合其工作負載要求。這可能需要調整任務排程或工作負載分佈,以適應保留的非連續性質。