

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# AWS PCS での Slurm を使用したコンピューティングノードの再起動
<a name="slurm-reboot"></a>

AWS PCS は Slurm のネイティブ`scontrol reboot`コマンドをサポートします。EC2 インスタンスを置き換えずにコンピューティングノードを再起動するには、このコマンドを使用します。その他の再起動方法 (Amazon EC2 コンソール、 AWS CLI、自動パッチ、またはシステムメンテナンス) では、PCS AWS は EC2 インスタンスを異常と見なして置き換えます。

## Slurm の再起動の利点
<a name="slurm-reboot-benefits"></a>

Slurm を再起動すると、クラスターのメンテナンスにいくつかの利点があります。
+ **キャパシティーを維持する** – キャパシティーに制約のある EC2 インスタンスを他のお客様に失わないようにします。
+ **コストの削減** – 不要なインスタンス交換サイクルとアイドルノードの継続的な請求を排除します。
+ **復旧の迅速化** – インスタンスの置き換えと比較してプロビジョニングの遅延はありません。
+ **運用上の柔軟性** – メモリリークのクリア、一時ファイルの削除、ノードの劣化状態からの復旧を行います。

## Slurm の再起動を使用するタイミング
<a name="slurm-reboot-use-cases"></a>

一般的な運用メンテナンスシナリオでは、Slurm の再起動を使用します。
+ **トラブルシューティング** — 特に GPU ノードのパフォーマンスの問題や応答しないプロセスを解決します。
+ **リソースのクリーンアップ** — メモリリーク、 の一時ファイル`/tmp`、またはジョブのパフォーマンスに影響するプロセスのスタックをクリアします。
+ **復旧** — 完全なノード交換が必要になる前に、ハング状態またはデグレード状態からノードを復旧します。

## 制限事項
<a name="slurm-reboot-limitations"></a>
+ 再起動コマンドを実行できるのは、Slurm 管理者ユーザー (ルートユーザー) のみです。
+ 再起動のサポートは `scontrol reboot`のみに制限されています。
+ RebootProgram 設定はサポートされていません。
+ コンソールインターフェイスなし – コマンドラインのみ。

**Topics**
+ [Slurm の再起動の利点](#slurm-reboot-benefits)
+ [Slurm の再起動を使用するタイミング](#slurm-reboot-use-cases)
+ [制限事項](#slurm-reboot-limitations)
+ [PCS で Slurm を使用してコンピューティングノードを再起動 AWS する](slurm-reboot-procedure.md)
+ [PCS で保留中の再起動をキャンセル AWS する](slurm-reboot-cancel.md)
+ [PCS での Slurm AWS の再起動に関するよくある質問](slurm-reboot-faq.md)
+ [PCS での Slurm AWS の再起動に関する問題のトラブルシューティング](slurm-reboot-troubleshooting.md)