

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在 AWS PCS 中使用 Slurm 重新啟動運算節點
<a name="slurm-reboot"></a>

AWS PCS 支援 Slurm 的原生`scontrol reboot`命令。使用此命令重新啟動運算節點，無需更換 EC2 執行個體。其他重新啟動方法 (Amazon EC2 主控台、、 AWS CLI自動化修補程式或系統維護） 會導致 AWS PCS 認為 EC2 執行個體運作狀態不佳並予以取代。

## Slurm 重新開機的優點
<a name="slurm-reboot-benefits"></a>

Slurm 重新啟動為叢集維護提供了幾個優點：
+ **保留容量** – 避免將容量受限的 EC2 執行個體遺失給其他客戶。
+ **降低成本** – 消除不必要的執行個體替換週期，並繼續對閒置節點計費。
+ **更快的復原** – 相較於執行個體替換，佈建不會延遲。
+ **操作彈性** – 清除記憶體流失、移除暫存檔案，以及從降級狀態復原節點。

## 何時使用 Slurm 重新開機
<a name="slurm-reboot-use-cases"></a>

針對常見的操作維護案例使用 Slurm 重新啟動：
+ **故障診斷** – 解決效能問題或無回應的程序，尤其是 GPU 節點。
+ **資源清除** – 清除記憶體流失、 中的暫存檔案`/tmp`，或影響任務效能的卡住程序。
+ **復原** – 在需要完全替換節點之前，從掛載或降級狀態復原節點。

## 限制
<a name="slurm-reboot-limitations"></a>
+ 只有 Slurm Admin 使用者 （根使用者） 可以執行重新啟動命令。
+ 重新啟動支援僅限於 `scontrol reboot`。
+ 不支援 RebootProgram 組態。
+ 無主控台界面 – 僅限命令列。

**Topics**
+ [Slurm 重新開機的優點](#slurm-reboot-benefits)
+ [何時使用 Slurm 重新開機](#slurm-reboot-use-cases)
+ [限制](#slurm-reboot-limitations)
+ [在 AWS PCS 中使用 Slurm 重新啟動運算節點](slurm-reboot-procedure.md)
+ [在 AWS PCS 中取消待定重新啟動](slurm-reboot-cancel.md)
+ [AWS PCS 中的 Slurm 重新啟動常見問答集](slurm-reboot-faq.md)
+ [針對 AWS PCS 中的 Slurm 重新啟動問題進行故障診斷](slurm-reboot-troubleshooting.md)