기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Slurm 로그 교체
SageMaker HyperPod는 Slurm 데몬 로그에 대한 자동 로그 교체를 제공하여 디스크 공간 사용량을 관리하고 시스템 성능을 유지하는 데 도움이 됩니다. 로그 교체는 로그가 과도한 디스크 공간을 소비하지 않도록 방지하고 최신 로깅 정보를 유지하면서 이전 로그 파일을 자동으로 보관 및 제거하여 최적의 시스템 작업을 보장하는 데 매우 중요합니다. 클러스터를 생성할 때 Slurm 로그 교체가 기본적으로 활성화됩니다.
로그 교체 작동 방식
활성화되면 로그 교체 구성은 다음과 같습니다.
-
컨트롤러, 로그인 및 컴퓨팅 노드의
/var/log/slurm/폴더에.log있는 확장명으로 모든 Slurm 로그 파일을 모니터링합니다. -
크기가 50MB에 도달하면 로그를 교체합니다.
-
로그 파일을 삭제하기 전에 최대 2개의 교체된 로그 파일을 유지합니다.
-
교체 후 Slurm 데몬(
slurmctld,slurmd및slurmdbd)에 SIGUSR2 신호를 보냅니다.
교체된 로그 파일 목록
Slurm 로그는 /var/log/slurm/ 디렉터리에 있습니다. 로그 교체는와 일치하는 모든 파일에 대해 활성화됩니다/var/log/slurm/*.log. 교체가 발생하면 교체된 파일에는 숫자 접미사(예: )가 있습니다slurmd.log.1. 다음 목록은 전체 목록은 아니지만 자동으로 교체되는 몇 가지 중요한 로그 파일을 보여줍니다.
-
/var/log/slurm/slurmctld.log -
/var/log/slurm/slurmd.log -
/var/log/slurm/slurmdb.log -
/var/log/slurm/slurmrestd.log
로그 교체 활성화 또는 비활성화
다음 예제와 같이 클러스터 수명 주기 config.py 스크립트의 스크립트에 있는 enable_slurm_log_rotation 파라미터를 사용하여 로그 교체 기능을 제어할 수 있습니다.
class Config: # Set false if you want to disable log rotation of Slurm daemon logs enable_slurm_log_rotation = True # Default value
로그 교체를 비활성화하려면 다음 예제와 같이 파라미터를 False로 설정합니다.
enable_slurm_log_rotation = False
참고
수명 주기 스크립트는 클러스터 생성 중에 모든 Slurm 노드(컨트롤러, 로그인 및 컴퓨팅 노드)에서 실행됩니다. 클러스터에 추가될 때 새 노드에서도 실행됩니다. 로그 교체 구성 업데이트는 클러스터 생성 후 수동으로 수행해야 합니다. 로그 교체 구성은에 저장됩니다/etc/logrotate.d/sagemaker-hyperpod-slurm. 로그 파일이 과도한 디스크 공간을 소비하지 않도록 로그 교체를 활성화하는 것이 좋습니다. 로그 교체를 비활성화하려면 sagemaker-hyperpod-slurm 파일의 각 줄 시작 # 부분에를 추가하여 sagemaker-hyperpod-slurm 파일을 삭제하거나 내용을 주석 처리합니다.
기본 로그 교체 설정
교체된 각 로그 파일에 대해 다음 설정이 자동으로 구성됩니다.
| 설정 | 값 | 설명 |
|---|---|---|
rotate |
2 | 유지할 교체된 로그 파일 수 |
size |
50MB | 교체 전 최대 크기 |
copytruncate |
enabled | 원본 로그 파일을 복사하고 잘라냅니다. |
compress |
disabled | 교체된 로그는 압축되지 않습니다. |
missingok |
enabled | 로그 파일이 누락된 경우 오류 없음 |
notifempty |
enabled | 빈 파일을 교체하지 않음 |
noolddir |
enabled | 교체된 파일은 동일한 디렉터리에 유지됩니다. |