

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon OpenSearch Service에 권장되는 CloudWatch 경보
<a name="cloudwatch-alarms"></a>

CloudWatch 경보는 CloudWatch 지표가 일정 시간 동안 지정된 값을 초과하면 조치를 수행합니다. 예를 들어 클러스터 상태가 AWS 1분 이상 `red` 지속되면 이메일을 보낼 수 있습니다. 이 단원에는 Amazon OpenSearch Service에 권장되는 몇 가지 경보와 이에 대응하는 방법이 포함되어 있습니다.

를 사용하여 이러한 경보를 자동으로 배포할 수 있습니다 CloudFormation. 샘플 스택은 관련 [GitHub 리포지토리](https://github.com/ev2900/OpenSearch_CloudWatch_Alarms)를 참조하세요.

**참고**  
CloudFormation 스택을 배포하는 경우 `KMSKeyError` 및 `KMSKeyInaccessible` 경보는 `Insufficient Data` 상태로 존재하게 됩니다. 이러한 지표는 도메인에서 암호화 키에 문제가 발생한 경우에만 나타나기 때문입니다.

경보 구성에 대한 자세한 내용은 *Amazon CloudWatch 사용 설명서*의 [Amazon CloudWatch 경보 생성](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)을 참조하세요.


<table>
<thead>
  <tr><th>경보</th><th>문제</th></tr>
</thead>
<tbody>
  <tr><td>ClusterStatus.red 최댓값은 1분, 연속 횟수 1번 동안 >= 1임</td><td>하나 이상의 기본 샤드와 복제본이 노드에 할당되지 않았습니다. [빨간색 클러스터 상태](handling-errors.md#handling-errors-red-cluster-status) 섹션을 참조하세요.</td></tr>
  <tr><td>ClusterStatus.yellow 최댓값은 1분, 연속 횟수 5번 동안 >= 1임</td><td>하나 이상의 복제 샤드가 노드에 할당되지 않았습니다. [노란색 클러스터 상태](handling-errors.md#handling-errors-yellow-cluster-status) 섹션을 참조하세요.</td></tr>
  <tr><td>FreeStorageSpace 최소값은 1분, 연속 횟수 1번 동안 <= 20480임</td><td>클러스터 속 노드의 여유 스토리지 공간이 20GiB까지 떨어졌습니다. [사용 가능한 스토리지 공간 부족](handling-errors.md#handling-errors-watermark) 섹션을 참조하세요. 이 값은 MiB 단위이므로 20480이 아닌 각 노드에 대한 총 스토리지 공간의 25%로 설정하는 것이 좋습니다.</td></tr>
  <tr><td>ClusterIndexWritesBlocked은 5분, 연속 1회 동안 >= 1임</td><td>클러스터가 쓰기 요청을 차단하고 있습니다. [ClusterBlockException](handling-errors.md#troubleshooting-cluster-block) 섹션을 참조하세요.</td></tr>
  <tr><td>Nodes 최소값은 1일, 연속 횟수 1번 동안 < x임</td><td>x는 클러스터의 노드 수입니다. 이 경보는 클러스터의 노드 하나 이상에 하루 내 특정 시점에 연결할 수 없음을 나타냅니다. [실패한 클러스터 노드](handling-errors.md#handling-errors-failed-cluster-nodes) 섹션을 참조하세요.</td></tr>
  <tr><td>AutomatedSnapshotFailure 최댓값은 1분, 연속 횟수 1번 동안 >= 1임</td><td>자동 스냅샷에 오류가 발생했습니다. 이런 오류는 red 클러스터 상태로 인해 자주 발생했습니다. [빨간색 클러스터 상태](handling-errors.md#handling-errors-red-cluster-status) 섹션을 참조하세요.모든 자동 스냅샷과 오류에 대한 일부 정보 요약을 위해 다음 요청 중 하나를 시도합니다.<pre>GET {{domain_endpoint}}/_snapshot/cs-automated/_all<br />GET {{domain_endpoint}}/_snapshot/cs-automated-enc/_all</pre></td></tr>
  <tr><td>CPUUtilization 또는 WarmCPUUtilization 최댓값은 15분, 연속 횟수 3번 동안 >= 80%임</td><td>때때로 100% CPU 사용률이 발생할 수 있지만 사용률이 높게 지속되는 것은 문제가 됩니다. 더 큰 인스턴스 유형을 사용하거나 인스턴스 추가를 고려하세요.</td></tr>
  <tr><td>JVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 95%임</td><td rowspan="2">사용량이 늘어나면 클러스터에서 메모리 부족 오류가 발생할 수 있습니다. 수직 확장을 고려하세요. OpenSearch Service는 Java 힙에 인스턴스 RAM의 절반을 사용합니다(최대 힙 크기 32GiB). 인스턴스를 최대 64GiB의 RAM까지 수직 확장할 수 있으며 인스턴스를 추가하면 수평 확장도 가능합니다.</td></tr>
  <tr><td>OldGenJVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 80%임</td></tr>
  <tr><td>MasterCPUUtilization 최댓값은 15분, 연속 횟수 3번 동안 >= 50%임</td><td rowspan="3">[전용 프라이머리 노드](managedomains-dedicatedmasternodes.md)에 더 큰 인스턴스 유형의 사용을 고려하세요. 클러스터 안정성 및 [블루/그린(Blue/Green) 배포](managedomains-configuration-changes.md)의 역할로 인해 전용 프라이머리 노드는 데이터 노드보다 CPU 사용량이 적어야 합니다.</td></tr>
  <tr><td>MasterJVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 95%임</td></tr>
  <tr><td>MasterOldGenJVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 80%임</td></tr>
  <tr><td>KMSKeyError은 1분, 연속 횟수 1번 동안 >= 1임</td><td>도메인의 저장 데이터를 암호화하는 데 사용되는 암호화 AWS KMS 키는 비활성화됩니다. 정상 작동으로 복원하려면 다시 활성화해야 합니다. 자세한 내용은 [Amazon OpenSearch Service의 저장된 데이터 암호화](encryption-at-rest.md) 섹션을 참조하세요.</td></tr>
  <tr><td>KMSKeyInaccessible은 1분, 연속 횟수 1번 동안 >= 1임</td><td>도메인의 저장 데이터를 암호화하는 데 사용되는 AWS KMS 암호화 키가 삭제되었거나 OpenSearch Service에 대한 권한 부여를 취소했습니다. 이 상태의 도메인은 복원할 수 없습니다. 하지만 수동 스냅샷이 있는 경우 새 도메인으로 마이그레이션하는 데 해당 스냅샷을 사용할 수 있습니다. 자세한 내용은 [Amazon OpenSearch Service의 저장된 데이터 암호화](encryption-at-rest.md)를 참조하세요.</td></tr>
  <tr><td>shards.active는 1분, 연속 횟수 1번 동안 >= 30,000임</td><td>활성된 기본 및 복제본 샤드의 총 개수가 30,000개 이상입니다. 인덱스를 너무 자주 회전하고 있는 것일 수 있습니다. 특정 수명에 도달하면 ISM을 사용하여 인덱스를 제거하는 것이 좋습니다.</td></tr>
  <tr><td>5xx 경보 >= OpenSearchRequests의 10%</td><td>1개 이상의 데이터 노드가 오버로드됐거나 요청이 유휴 제한 시간 내에 완료하는 데 실패했습니다. 더 큰 인스턴스 유형으로 전환하거나 클러스터에 노드를 추가하는 것이 좋습니다. 샤드 및 클러스터 아키텍쳐 [모범 사례](sizing-domains.md)를 준수하고 있는지 확인하세요.</td></tr>
  <tr><td>MasterReachableFromNode 최댓값은 5분 동안 1 미만(연속 횟수 1회)</td><td>이 경보는 프라이머리 노드가 중지됐거나 도달할 수 없음을 나타냅니다. 이러한 장애는 일반적으로 네트워크 연결 문제 또는 AWS 종속성 문제의 결과입니다.</td></tr>
  <tr><td>ThreadpoolWriteQueue 평균은 1분, 연속 횟수 1번 동안 >= 100임</td><td>클러스터의 인덱싱 동시성이 높습니다. 인덱싱 요청을 검토 및 제어하거나 클러스터 리소스를 늘리세요.</td></tr>
  <tr><td>ThreadpoolSearchQueue 평균은 1분, 연속 횟수 1번 동안 >= 500임</td><td rowspan="2">클러스터의 검색 동시성이 높습니다. 클러스터 크기 조정을 고려하세요. 검색 대기열 크기를 늘릴 수도 있지만 지나치게 늘리면 메모리 부족 오류가 발생할 수 있습니다.</td></tr>
  <tr><td> ThreadpoolSearchQueue 최댓값은 1분, 연속 횟수 1번 동안 >= 5,000임 </td></tr>
  <tr><td>ThreadpoolSearchRejected 합계의 증량은 1분, 연속 횟수 1번 동안 >=1{ 수학식 DIFF ( )}임</td><td rowspan="2">이러한 경보는 성능 및 안정성에 영향을 줄 수 있는 도메인 문제를 알려줍니다.</td></tr>
  <tr><td>ThreadpoolWriteRejected 합계의 증량은 1분, 연속 횟수 1번 동안 >=1{ 수학식 DIFF ( )}임 </td></tr>
</tbody>
</table>


**참고**  
지표만 확인하려면 [Amazon CloudWatch로 OpenSearch 클러스터 지표 모니터링](managedomains-cloudwatchmetrics.md) 섹션을 참조하세요.

## 고려할 만한 기타 경보
<a name="cw-alarms-additional"></a>

정기적으로 사용하는 OpenSearch Service 기능에 따라 다음 경보 구성을 고려하세요.


<table>
<thead>
  <tr><th>경보</th><th>문제</th></tr>
</thead>
<tbody>
  <tr><td>WarmFreeStorageSpace는 10% 이상</td><td>사용 가능한 전체 웜 스토리지의 10%에 도달했습니다. WarmFreeStorageSpace는 사용 가능한 웜 스토리지 공간의 합계(MiB)를 측정합니다. UltraWarm은 연결된 디스크 대신 Amazon S3를 사용합니다.</td></tr>
  <tr><td>HotToWarmMigrationQueueSize는 1분, 연속 횟수 3번 동안 >= 20임</td><td>많은 수의 인덱스가 동시에 핫 스토리지에서 UltraWarm 스토리지로 이동하고 있습니다. 클러스터 크기 조정을 고려하세요.</td></tr>
  <tr><td>HotToWarmMigrationSuccessLatency는 >= 1일, 연속 횟수 1번임</td><td>일일 인덱스를 회전하려고 할 때 `HotToWarmMigrationSuccessCount` x 대기 시간이 24시간 이상인 경우 알림을 받을 수 있도록 이 경보를 구성하세요.</td></tr>
  <tr><td>WarmJVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 95%임</td><td rowspan="2">사용량이 늘어나면 클러스터에서 메모리 부족 오류가 발생할 수 있습니다. 수직 확장을 고려하세요. OpenSearch Service는 Java 힙에 인스턴스 RAM의 절반을 사용합니다(최대 힙 크기 32GiB). 인스턴스를 최대 64GiB의 RAM까지 수직 확장할 수 있으며 인스턴스를 추가하면 수평 확장도 가능합니다.</td></tr>
  <tr><td>WarmOldGenJVMMemoryPressure 최댓값은 1분, 연속 횟수 3번 동안 >= 80%임</td></tr>
  <tr><td>WarmToColdMigrationQueueSize는 1분, 연속 횟수 3번 동안 >= 20임</td><td>많은 수의 인덱스가 동시에 UltraWarm에서 콜드 스토리지로 이동하고 있습니다. 클러스터 크기 조정을 고려하세요.</td></tr>
  <tr><td>HotToWarmMigrationFailureCount은 1분, 연속 횟수 1번 동안 >= 1임</td><td>스냅샷, 샤드 재배치 또는 강제 합병 중 마이그레이션이 실패할 수도 있습니다. 스냅샷 또는 샤드 재배치 중 실패는 일반적으로 노드 오류 또는 S3 연결 문제로 인해 발생합니다. 일반적으로 디스크 공간 부족이 강제 병합 실패의 근본 원인입니다.</td></tr>
  <tr><td>WarmToColdMigrationFailureCount은 1분, 연속 횟수 1번 동안 >= 1임</td><td>마이그레이션 실패는 인덱스 메타데이터를 콜드 스토리지로 마이그레이션하려는 시도가 실패할 때 주로 발생합니다. 웜 인덱스 클러스터 상태가 삭제될 때도 실패가 발생할 수 있습니다.</td></tr>
  <tr><td>WarmToColdMigrationLatency는 >= 1일, 연속 횟수 1번임</td><td>일일 인덱스를 회전하려고 할 때 `WarmToColdMigrationSuccessCount` x 대기 시간이 24시간 이상인 경우 알림을 받을 수 있도록 이 경보를 구성하세요.</td></tr>
  <tr><td>AlertingDegraded은 1분, 연속 횟수 1번 동안 >= 1임</td><td>알림 인덱스가 빨간색이거나 1개 이상의 노드가 스케줄을 따르지 않습니다.</td></tr>
  <tr><td>ADPluginUnhealthy은 1분, 연속 횟수 1번 동안 >= 1임</td><td>실패율이 높거나 사용되는 인덱스 중 1개 이상이 빨간색이기 때문에 이상 탐지 플러그인이 제대로 작동하지 않습니다.</td></tr>
  <tr><td>AsynchronousSearchFailureRate은 1분, 연속 횟수 1번 동안 >= 1임</td><td>마지막 순간에 1개 이상의 비동기 검색이 실패했으며. 이는 코디네이터 노드가 실패했을 가능성이 높음을 의미합니다. 비동기 검색 요청의 수명 주기는 코디네이터 노드에서만 관리되므로 코디네이터에 오류가 생기면 요청이 실패합니다.</td></tr>
  <tr><td>AsynchronousSearchStoreHealth은 1분, 연속 횟수 1번 동안 >= 1임</td><td>지속된 인덱스의 비동기 검색 응답 저장소 상태가 빨간색입니다. 클러스터를 불안정하게 만들 수 있는 큰 비동기 응답을 저장하고 있을 수도 있습니다. 비동기 검색 응답을 10MB 이하로 제한하세요.</td></tr>
  <tr><td>SQLUnhealthy는 1분, 연속 횟수 3번 동안 >= 1임</td><td>SQL 플러그인이 5*xx* 응답 코드를 반환하거나 유효하지 않은 쿼리 DSL을 OpenSearch로 넘기고 있습니다. 클라이언트가 플러그인에 하는 요청을 해결하세요.</td></tr>
  <tr><td>LTRStatus.red은 1분, 연속 횟수 1번 동안 >= 1임</td><td>Learning to Rank 플러그인을 실행하는 데 필요한 인덱스 중 1개 이상이 기본 샤드가 없으며 작동하지 않습니다.</td></tr>
</tbody>
</table>
