View a markdown version of this page

叢集修復 GPU 錯誤 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

叢集修復 GPU 錯誤

如果您在 GPU 上執行的訓練任務失敗,SageMaker AI 會執行 GPU 運作狀態檢查,以查看失敗是否與 GPU 問題相關。SageMaker AI 會根據運作狀態檢查結果採取下列動作:

  • 如果錯誤可復原,並且可以透過重新啟動執行個體或重設 GPU 來修正,SageMaker AI 會重新啟動執行個體。

  • 如果錯誤無法復原,且是由需要更換的 GPU 造成,SageMaker AI 將更換執行個體。

該執行個體會在 SageMaker AI 叢集修復程序中進行更換或重新啟動。在此程序期間中,您將在訓練任務狀態中看到下列訊息:

Repairing training cluster due to hardware failure

SageMaker AI 將嘗試修復叢集最多 10 次。如果叢集修復成功,SageMaker AI 會自動從先前的檢查點重新啟動訓練任務。如果叢集修復失敗,訓練任務也會失敗。您不需要支付叢集修復程序的費用。除非您的訓練任務失敗,否則不會啟動叢集修復。如果偵測到暖集區叢集的 GPU 問題,叢集會進入修復模式,以重新啟動或更換故障的執行個體。修復之後,該叢集仍然可以用作暖集區叢集。

下圖說明前述的叢集和執行個體修復程序:

The cluster and instance repair process.