

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Amazon OpenSearch Service で推奨される CloudWatch アラーム
<a name="cloudwatch-alarms"></a>

CloudWatch アラームは、CloudWatch メトリクスがある程度の時間にわたって指定された値を超えたときにアクションを実行します。たとえば、クラスター AWS のヘルスステータスが `red`1 分以上の場合は、E メールで送信できます。このセクションでは、Amazon OpenSearch Service で推奨されるいくつかのアラームとそのアラームへの対応方法について説明します。

を使用して、これらのアラームを自動的にデプロイできます CloudFormation。サンプルスタックについては、関連する [GitHub リポジトリ](https://github.com/ev2900/OpenSearch_CloudWatch_Alarms)を参照してください。

**注記**  
CloudFormation スタックをデプロイすると、`KMSKeyError` アラームおよび `KMSKeyInaccessible` アラームは `Insufficient Data` 状態になっています。これは、これらのメトリクスがドメインの暗号化キーに問題が発生した場合にのみ表示されるからです。

アラームの設定の詳細については、*Amazon CloudWatch ユーザーガイド*の「[Amazon CloudWatch でのアラームの使用](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)」を参照してください。


<table>
<thead>
  <tr><th>アラーム</th><th>問題</th></tr>
</thead>
<tbody>
  <tr><td>ClusterStatus.red maximum is >= 1 for 1 minute, 1 consecutive time</td><td>少なくとも 1 つのプライマリシャードとそのレプリカがノードに割り当てられていません。「[赤のクラスター状態](handling-errors.md#handling-errors-red-cluster-status)」を参照してください。</td></tr>
  <tr><td>ClusterStatus.yellow maximum is >= 1 for 1 minute, 5 consecutive times</td><td>少なくとも 1 つのレプリカシャードがノードに割り当てられていません。「[黄色のクラスター状態](handling-errors.md#handling-errors-yellow-cluster-status)」を参照してください。</td></tr>
  <tr><td>FreeStorageSpace minimum is <= 20480 for 1 minute, 1 consecutive time</td><td>クラスターのノードの空きストレージ容量が 20 GiB に下がっています。「[使用可能なストレージ領域の不足](handling-errors.md#handling-errors-watermark)」を参照してください。この値は MiB 単位です。20480 ではなく、各ノードのストレージ容量の 25% に設定することをお勧めします。</td></tr>
  <tr><td>ClusterIndexWritesBlocked is >= 1 for 5 minutes, 1 consecutive time</td><td>クラスターは書き込みリクエストをブロックしています。「[ClusterBlockException](handling-errors.md#troubleshooting-cluster-block)」を参照してください。</td></tr>
  <tr><td>Nodes minimum is < x for 1 day, 1 consecutive time</td><td>x はクラスター内のノード数です。このアラームは、クラスター内の少なくとも 1 つのノードが 1 日間にわたってアクセスできない状態を意味します。「[障害が発生したクラスターノード](handling-errors.md#handling-errors-failed-cluster-nodes)」を参照してください。</td></tr>
  <tr><td>AutomatedSnapshotFailure maximum is >= 1 for 1 minute, 1 consecutive time</td><td>自動スナップショットが失敗しました。多くの場合、この失敗によってクラスター状態が赤になります。「[赤のクラスター状態](handling-errors.md#handling-errors-red-cluster-status)」を参照してください。すべての自動スナップショットの概要および障害に関する情報を取得するには、次のリクエストのいずれかを試してください。<pre>GET {{domain_endpoint}}/_snapshot/cs-automated/_all<br />GET {{domain_endpoint}}/_snapshot/cs-automated-enc/_all</pre></td></tr>
  <tr><td>CPUUtilization または WarmCPUUtilization maximum is >= 80% for 15 minutes, 3 consecutive times</td><td>100% の CPU 使用率が一時的に発生することもありますが、高い使用率が継続的に発生するのは問題です。より大規模なインスタンスタイプを使用するか、インスタンスを追加することを検討してください。</td></tr>
  <tr><td>JVMMemoryPressure maximum is >= 95% for 1 minute, 3 consecutive times</td><td rowspan="2">使用量が増加した場合にクラスターでメモリ不足エラーが発生する可能性があります。垂直スケーリングを検討してください。OpenSearch Service は、インスタンスの RAM の半分を Java ヒープ (32 GiB のヒープサイズまで) に使用します。インスタンスは最大 64 GiB の RAM まで垂直スケーリングでき、それ以上はインスタンスを追加することで水平方向にスケーリングできます。</td></tr>
  <tr><td>OldGenJVMMemoryPressure maximum is >= 80% for 1 minute, 3 consecutive times</td></tr>
  <tr><td>MasterCPUUtilization maximum is >= 50% for 15 minutes, 3 consecutive times</td><td rowspan="3">より大規模なインスタンスタイプを[専用マスターノード](managedomains-dedicatedmasternodes.md)として使用することを検討してください。クラスターの安定性と [Blue/Green デプロイ](managedomains-configuration-changes.md)に関わるため、専用マスターノードの CPU 使用率はデータノードよりも低くする必要があります。</td></tr>
  <tr><td>MasterJVMMemoryPressure maximum is >= 95% for 1 minute, 3 consecutive times</td></tr>
  <tr><td>MasterOldGenJVMMemoryPressure maximum is >= 80% for 1 minute, 3 consecutive times</td></tr>
  <tr><td>KMSKeyError is >= 1 for 1 minute, 1 consecutive time</td><td>ドメイン内の保管中のデータの暗号化に使用される AWS KMS 暗号化キーは無効になっています。通常のオペレーションを復元するために、再度有効にしてください。詳細については、「[Amazon OpenSearch Service の保管中のデータの暗号化](encryption-at-rest.md)」を参照してください。</td></tr>
  <tr><td>KMSKeyInaccessible is >= 1 for 1 minute, 1 consecutive time</td><td>ドメイン内の保管中のデータの暗号化に使用される AWS KMS 暗号化キーが削除されたか、OpenSearch Service への許可が取り消されました。この状態にあるドメインを復元することはできません。ただし、手動スナップショットがある場合は、それを使用して新しいドメインに移行できます。詳細については[Amazon OpenSearch Service の保管中のデータの暗号化](encryption-at-rest.md)を参照してください。</td></tr>
  <tr><td>shards.active is >= 30000 for 1 minute, 1 consecutive time</td><td>アクティブなプライマリとレプリカの両方のシャードの合計数は、30,000よりも多くなります。インデックスを頻繁にローテーションさせ過ぎている可能性があります。特定の年齢に達したら、ISM を使用してインデックスを削除することを検討してください。</td></tr>
  <tr><td>5xx alarms >= 10% of OpenSearchRequests</td><td>1 つ以上のデータノードが過負荷になっているか、アイドルタイムアウト時間内にリクエストが完了しない可能性があります。より大きなインスタンスタイプに切り替えるか、クラスターにさらにノードを追加することを検討してください。シャードおよびクラスターアーキテクチャ用の[ベストプラクティス](sizing-domains.md)をフォローしていることを確認してください。</td></tr>
  <tr><td>MasterReachableFromNode maximum is < 1 for 5 minutes, 1 consecutive time</td><td>このアラームは、マスターノードが停止しているか、連絡不能であることを示します。これらの障害は通常、ネットワーク接続の問題または AWS 依存関係の問題の結果です。</td></tr>
  <tr><td>ThreadpoolWriteQueue average is >= 100 for 1 minute, 1 consecutive time</td><td>クラスタ-では、インデックス作成の同時実行性が高くなっています。インデックス作成リクエストを点検して抑制するか、クラスターリソースを増やします。</td></tr>
  <tr><td>ThreadpoolSearchQueue average is >= 500 for 1 minute, 1 consecutive time</td><td rowspan="2">クラスターでは、検索の同時実行性が高くなっています。クラスターのスケーリングを検討してください。検索キューのサイズを大きくすることもできますが、そうすると、メモリ不足エラーが発生する可能性があります。</td></tr>
  <tr><td> ThreadpoolSearchQueue maximum is >= 5000 for 1 minute, 1 consecutive time </td></tr>
  <tr><td>Increase in ThreadpoolSearchRejected SUM is >=1{ math expression DIFF ( )} for 1 minute, 1 consecutive time</td><td rowspan="2">これらのアラームは、パフォーマンスや安定性に影響を及ぼす可能性のあるドメインの問題を通知します。</td></tr>
  <tr><td>Increase in ThreadpoolWriteRejected SUM is >=1{ math expression DIFF ( )} for 1 minute, 1 consecutive time </td></tr>
</tbody>
</table>


**注記**  
メトリクスを*表示*するのみであれば、「[Amazon CloudWatch を用いた OpenSearch クラスターメトリクスのモニタリング](managedomains-cloudwatchmetrics.md)」を参照してください。

## 検討した方が良いその他のアラーム
<a name="cw-alarms-additional"></a>

定期的に使用する OpenSearch Service の特徴に応じて、次のアラームを設定することを検討してください。


<table>
<thead>
  <tr><th>アラーム</th><th>問題</th></tr>
</thead>
<tbody>
  <tr><td>WarmFreeStorageSpace is >= 10%</td><td>無料ウォームストレージの合計の 10% に達しました。WarmFreeStorageSpace は、無料ウォームストレージスペースの合計を測定します (MiB)。UltraWarm は、アタッチされたディスクではなく Amazon S3 を使用します。</td></tr>
  <tr><td>HotToWarmMigrationQueueSize is >= 20 for 1 minute, 3 consecutive times</td><td>多数のインデックスが、ホットストレージから UltraWarm ストレージへ同時に移動しています。クラスターのスケーリングを検討してください。</td></tr>
  <tr><td>HotToWarmMigrationSuccessLatency is >= 1 day, 1 consecutive time</td><td>デイリーインデックスを動かそうとして `HotToWarmMigrationSuccessCount` x レイテンシーが 24 時間を超える場合に通知されるよう、このアラームを設定してください。</td></tr>
  <tr><td>WarmJVMMemoryPressure maximum is >= 95% for 1 minute, 3 consecutive times</td><td rowspan="2">使用量が増加した場合にクラスターでメモリ不足エラーが発生する可能性があります。垂直スケーリングを検討してください。OpenSearch Service は、インスタンスの RAM の半分を Java ヒープ (32 GiB のヒープサイズまで) に使用します。インスタンスは最大 64 GiB の RAM まで垂直スケーリングでき、それ以上はインスタンスを追加することで水平方向にスケーリングできます。</td></tr>
  <tr><td>WarmOldGenJVMMemoryPressure maximum is >= 80% for 1 minute, 3 consecutive times</td></tr>
  <tr><td>WarmToColdMigrationQueueSize is >= 20 for 1 minute, 3 consecutive times</td><td>多数のインデックスが、UltraWarm ストレージからコールドストレージへ同時に移動しています。クラスターのスケーリングを検討してください。</td></tr>
  <tr><td>HotToWarmMigrationFailureCount is >= 1 for 1 minute, 1 consecutive time</td><td>スナップショット、シャード再配置、または強制マージ中に、移行が失敗する可能性があります。スナップショットまたはシャード再配置中の障害は、通常、ノードの障害または S3 接続の問題が原因です。通常、ディスク領域の不足は、強制マージ失敗の根本的な原因です。</td></tr>
  <tr><td>WarmToColdMigrationFailureCount is >= 1 for 1 minute, 1 consecutive time</td><td>インデックスメタデータをコールドストレージに移動させようとして失敗すると、通常、移行は失敗します。ウォームインデックスクラスター状態が削除されたときにも、障害が発生する可能性があります。</td></tr>
  <tr><td>WarmToColdMigrationLatency is >= 1 day, 1 consecutive time</td><td>デイリーインデックスを動かそうとして `WarmToColdMigrationSuccessCount` x レイテンシーが 24 時間を超える場合に通知されるよう、このアラームを設定してください。</td></tr>
  <tr><td>AlertingDegraded is >= 1 for 1 minute, 1 consecutive time</td><td>アラートインデックスが赤色であるか、1 つ以上のノードがスケジュールどおりでないことを意味します。</td></tr>
  <tr><td>ADPluginUnhealthy is >= 1 for 1 minute, 1 consecutive time</td><td>異常検出プラグインが正しく動作していません。これは、障害率が高いか、使用されているインデックスの 1 つが赤色であるためです。</td></tr>
  <tr><td>AsynchronousSearchFailureRate is >= 1 for 1 minute, 1 consecutive time</td><td>少なくとも 1 つの非同期検索が直前に失敗しました。これは、おそらくコーディネータノードが失敗したことを意味します。非同期検索リクエストのライフサイクルは、コーディネータノードでのみ管理されているので、コーディネータがダウンすると、リクエストは失敗します。</td></tr>
  <tr><td>AsynchronousSearchStoreHealth is >= 1 for 1 minute, 1 consecutive time</td><td>残存するインデックス内の非同期検索レスポンスストアの状態は、赤色です。大量の非同期レスポンスを保存している可能性があり、クラスターが不安定になる可能性があります。非同期検索レスポンスを 10 MB 以下に制限してください。</td></tr>
  <tr><td>SQLUnhealthy is >= 1 for 1 minute, 3 consecutive times</td><td>SQL プラグインが 5 *xx*レスポンスコードを返しているか、または無効なクエリ DSL を OpenSearch に渡しています。クライアントがプラグインに対して行っているリクエストのトラブルシューティングを行います。</td></tr>
  <tr><td>LTRStatus.red is >= 1 for 1 minute, 1 consecutive time</td><td>Learning to Rankプラグインの実行に必要なインデックスの内、少なくとも 1 つにプライマリシャードがなく、機能しません。</td></tr>
</tbody>
</table>
