本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
HyperPod 無檢查點訓練功能
請參閱以下頁面,了解無檢查點訓練中的訓練功能。
Amazon SageMaker HyperPod 無檢查點訓練儲存庫
HyperPod 無檢查點訓練
無檢查點訓練是透過三個在音樂會中執行的最佳化軌道啟用:
-
通訊初始化改進 (NCCL 和 Gloo) - 透過分散排名對等和環資訊 (下面的紅色方塊) 來消除通訊瓶頸。
-
資料載入最佳化 - 減少在重新啟動操作期間提供第一批資料所需的時間 (下面的橘色方塊)。
-
減少程式重新啟動額外負荷 - 將重新啟動成本降至最低,並在運作狀態良好的節點 (下方為藍色和綠色方塊) 透過程序復原啟用無檢查點補充。