

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# AWS PCS에서 Slurm을 사용하여 컴퓨팅 노드 재부팅
<a name="slurm-reboot"></a>

AWS PCS는 Slurm의 기본 `scontrol reboot` 명령을 지원합니다. EC2 인스턴스 교체 없이 컴퓨팅 노드를 재부팅하려면이 명령을 사용합니다. 다른 재부팅 방법(Amazon EC2 콘솔, , AWS CLI자동 패치 또는 시스템 유지 관리)으로 인해 AWS PCS는 EC2 인스턴스를 비정상으로 간주하여 교체합니다.

## Slurm 재부팅의 이점
<a name="slurm-reboot-benefits"></a>

Slurm 재부팅은 클러스터 유지 관리에 몇 가지 이점을 제공합니다.
+ **용량 보존** - 용량이 제한된 EC2 인스턴스를 다른 고객에게 잃지 않도록 합니다.
+ **비용 절감** - 불필요한 인스턴스 교체 주기와 유휴 노드에 대한 지속적인 청구를 제거합니다.
+ **더 빠른 복구** - 인스턴스 교체에 비해 프로비저닝 지연이 없습니다.
+ **운영 유연성** - 메모리 누수를 지우고, 임시 파일을 제거하고, 성능이 저하된 상태에서 노드를 복구합니다.

## Slurm 재부팅을 사용하는 경우
<a name="slurm-reboot-use-cases"></a>

일반적인 운영 유지 관리 시나리오에는 Slurm 재부팅을 사용합니다.
+ **문제 해결** - 특히 GPU 노드의 경우 성능 문제 또는 응답하지 않는 프로세스를 해결합니다.
+ **리소스 정리** - 작업 성능에 영향을 미치는 메모리 누수`/tmp`,의 임시 파일 또는 중단된 프로세스를 지웁니다.
+ **복구** - 전체 노드 교체가 필요하기 전에 중단되거나 성능이 저하된 상태에서 노드를 복구합니다.

## 제한 사항
<a name="slurm-reboot-limitations"></a>
+ Slurm 관리자 사용자(루트 사용자)만 재부팅 명령을 실행할 수 있습니다.
+ 재부팅 지원은 로`scontrol reboot`만 제한됩니다.
+ RebootProgram 구성은 지원되지 않습니다.
+ 콘솔 인터페이스 없음 - 명령줄 전용.

**Topics**
+ [Slurm 재부팅의 이점](#slurm-reboot-benefits)
+ [Slurm 재부팅을 사용하는 경우](#slurm-reboot-use-cases)
+ [제한 사항](#slurm-reboot-limitations)
+ [AWS PCS에서 Slurm을 사용하여 컴퓨팅 노드 재부팅](slurm-reboot-procedure.md)
+ [AWS PCS에서 보류 중인 재부팅 취소](slurm-reboot-cancel.md)
+ [AWS PCS에서 Slurm 재부팅 자주 묻는 질문](slurm-reboot-faq.md)
+ [AWS PCS의 Slurm 재부팅 문제 해결](slurm-reboot-troubleshooting.md)