

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 叢集修復 GPU 錯誤
<a name="model-checkpoints-cluster-repair"></a>

如果您在 GPU 上執行的訓練任務失敗，SageMaker AI 會執行 GPU 運作狀態檢查，以查看失敗是否與 GPU 問題相關。SageMaker AI 會根據運作狀態檢查結果採取下列動作：
+ 如果錯誤可復原，並且可以透過重新啟動執行個體或重設 GPU 來修正，SageMaker AI 會重新啟動執行個體。
+ 如果錯誤無法復原，且是由需要更換的 GPU 造成，SageMaker AI 將更換執行個體。

該執行個體會在 SageMaker AI 叢集修復程序中進行更換或重新啟動。在此程序期間中，您將在訓練任務狀態中看到下列訊息：

`Repairing training cluster due to hardware failure`

SageMaker AI 將嘗試修復叢集最多 `10` 次。如果叢集修復成功，SageMaker AI 會自動從先前的檢查點重新啟動訓練任務。如果叢集修復失敗，訓練任務也會失敗。您不需要支付叢集修復程序的費用。除非您的訓練任務失敗，否則不會啟動叢集修復。如果偵測到暖集區叢集的 GPU 問題，叢集會進入修復模式，以重新啟動或更換故障的執行個體。修復之後，該叢集仍然可以用作暖集區叢集。

下圖說明前述的叢集和執行個體修復程序：

![\[The cluster and instance repair process.\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/training-cluster-repair.png)