기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
클러스터 지표에 대한 Amazon CloudWatch 경보
AWS ParallelCluster 는 헤드 노드의 상태 및 리소스 사용률을 모니터링하도록 Amazon CloudWatch 경보를 구성합니다. 경보의 이름은 이며, 여기서 cluster-name-HeadNode-metriccluster-name은 클러스터의 이름이고 지표는 모니터링 중인 지표를 식별합니다.
탐색 창에서 경보를 선택하여 CloudWatch 콘솔에서 경보에 액세스합니다.
라는 복합 경보는 개별 헤드 노드 경보가 트리거될 때 ALARM 상태로 전환됩니다.cluster-name-HeadNode
디스크 및 메모리 경보
AWS ParallelCluster 버전 3.6.0부터 다음과 같은 CloudWatch 경보가 생성됩니다.
-
- 루트 볼륨cluster-name-HeadNode-Diskdisk_used_percent지표를 모니터링합니다. 1분 동안 1개의 데이터 포인트에 대한 디스크 사용량이 90%를 초과하는 경우ALARM상태로 전환됩니다. -
-cluster-name-HeadNode-Memmem_used_percent지표를 모니터링합니다. 1분 동안 1개의 데이터 포인트에 대한 메모리 사용량이 90%보다 클 때ALARM상태를 입력합니다.
자세한 설명은 Amazon CloudWatch 사용자 가이드의 CloudWatch 에이전트가 수집하는 지표를 참조하세요.
상태 확인 및 CPU 경보
AWS ParallelCluster 버전 3.8.0부터 다음과 같은 CloudWatch 경보가 생성됩니다.
-
- Amazon EC2cluster-name-HeadNode-HealthStatusCheckFailed지표를 모니터링합니다. 1분 내에 1개의 데이터 포인트에 대해 값이 0보다 클 때ALARM상태를 입력합니다. -
- Amazon EC2cluster-name-HeadNode-CpuCPUUtilization지표를 모니터링합니다. 1분 동안 1개의 데이터 포인트에 대한 CPU 사용률이 90%보다 클 때ALARM상태가 됩니다.
클러스터 관리 데몬 하트비트 경보
AWS ParallelCluster 버전 3.15.0부터 Amazon CloudWatch 로깅이 활성화되고 Slurm 스케줄러가 사용되는 경우 다음 경보가 생성됩니다.
-
-cluster-name-HeadNode-ClustermgtdHeartbeatParallelCluster네임스페이스의ClustermgtdHeartbeat지표를 모니터링합니다. 1분 동안 10개의 연속 데이터 포인트에 대해 1개 미만의 하트비트가 수신되면 경보가ALARM상태로 전환됩니다. 누락된 데이터는 위반으로 처리됩니다.
참고
모든 경보는 대칭적으로 복구됩니다. 경보를 트리거하는 동일한 데이터 포인트 및 평가 기간도 복구를 관리합니다. 예를 들어, 1개의 데이터 포인트가 있는 경보는 동일한 관찰 기간 내에 1개의 좋은 데이터 포인트 후에 복구됩니다. 마찬가지로 ClustermgtdHeartbeat 경보를 사용하려면 10개의 좋은 데이터 포인트(10분)가 연속으로 필요합니다OK.
참고
AWS ParallelCluster 는 경보 작업을 구성하지 않습니다. 경보 전송과 같은 경보 작업을 설정하는 방법에 대한 자세한 내용은 경보 작업을 참조하세요. Amazon CloudWatch 경보에 대한 자세한 내용은 Amazon CloudWatch 사용 설명서의 Amazon CloudWatch 경보 사용을 참조하세요.
AWS ParallelCluster 버전 3.8.0 이상의 경우 클러스터 구성false에서 Monitoring / /를 Alarms Enabled로 설정하여 경보를 비활성화합니다.
3.8.0 이전 AWS ParallelCluster 버전의 경우 클러스터 구성false에서 Monitoring / / Dashboards /를 CloudWatch Enabled로 설정하여 경보를 비활성화합니다. 이 설정은 Amazon CloudWatch 대시보드도 비활성화합니다. 자세한 내용은 섹션을 참조Amazon CloudWatch 대시보드하세요.