HyperPod 無檢查點訓練功能 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

HyperPod 無檢查點訓練功能

請參閱以下頁面,了解無檢查點訓練中的訓練功能。

Amazon SageMaker HyperPod 無檢查點訓練儲存庫

HyperPod 無檢查點訓練透過架構層級最佳化,加速從大規模分散式訓練環境中的叢集故障復原。這些最佳化是透過基本容器映像傳遞,其中包含增強型 NCCL 初始化改進、資料載入最佳化,以及處理中和無檢查點復原元件。HyperPod 無檢查點訓練套件建置在此基礎上。

無檢查點訓練是透過三個在音樂會中執行的最佳化軌道啟用:

  • 通訊初始化改進 (NCCL 和 Gloo) - 透過分散排名對等和環資訊 (下面的紅色方塊) 來消除通訊瓶頸。

  • 資料載入最佳化 - 減少在重新啟動操作期間提供第一批資料所需的時間 (下面的橘色方塊)。

  • 減少程式重新啟動額外負荷 - 將重新啟動成本降至最低,並在運作狀態良好的節點 (下方為藍色和綠色方塊) 透過程序復原啟用無檢查點補充。