

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon OpenSearch Service 的建議 CloudWatch 警示
<a name="cloudwatch-alarms"></a>

當 CloudWatch 指標在經過一些時間超過指定的值時，CloudWatch 警示會執行動作。例如，如果您 AWS 的叢集運作狀態超過一分鐘`red`，建議您傳送電子郵件給您。本節包含 Amazon OpenSearch Service 的一些建議警示以及回應方式。

您可以使用 自動部署這些警示 CloudFormation。如需範例堆疊，請參閱相關的 [GitHub 儲存庫](https://github.com/ev2900/OpenSearch_CloudWatch_Alarms)。

**注意**  
如果您部署 CloudFormation 堆疊，`KMSKeyError` 和 `KMSKeyInaccessible` 警示將存在於 `Insufficient Data` 狀態，因為只有在網域遇到其加密金鑰問題時才會顯示這些指標。

如需有關設定警示的詳細資訊，請參閱 《*Amazon CloudWatch 使用者指南*》中的[建立 Amazon CloudWatch 警示](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)。


<table>
<thead>
  <tr><th>警示</th><th>問題</th></tr>
</thead>
<tbody>
  <tr><td>ClusterStatus.red 上限為 >= 1 達 1 分鐘，連續 1 次</td><td>至少一個主要碎片及其複本不會分配到節點。請參閱 [紅色叢集狀態](handling-errors.md#handling-errors-red-cluster-status)。</td></tr>
  <tr><td>ClusterStatus.yellow 上限為 >= 1 持續 1 分鐘，連續 5 次</td><td>至少一個複本碎片不會分配到節點。請參閱 [黃色叢集狀態](handling-errors.md#handling-errors-yellow-cluster-status)。</td></tr>
  <tr><td>FreeStorageSpace 下限為 <= 20480 達 1 分鐘，連續 1 次</td><td>您叢集內的節點縮減至 20 GiB 的可用儲存空間。請參閱 [缺少可用儲存空間](handling-errors.md#handling-errors-watermark)。此值的單位為 MiB，所以建議您將其設為每個節點的 25% 儲存空間，而不是 20480。</td></tr>
  <tr><td>ClusterIndexWritesBlocked 為 >= 1 達 5 分鐘，連續 1 次</td><td>您的叢集正在封鎖寫入請求。請參閱 [ClusterBlockException](handling-errors.md#troubleshooting-cluster-block)。</td></tr>
  <tr><td>Nodes下限為 < x 達 1 天，連續 1 次</td><td>x 是您叢集中的節點數。此警示表示您叢集中至少有一個節點已無法連線達 1 天時間。請參閱 [叢集節點失敗](handling-errors.md#handling-errors-failed-cluster-nodes)。</td></tr>
  <tr><td>AutomatedSnapshotFailure 上限為 >= 1 達 1 分鐘，連續 1 次</td><td>自動快照失敗。此故障通常是紅色叢集運作狀態的結果。請參閱 [紅色叢集狀態](handling-errors.md#handling-errors-red-cluster-status)。如需所有自動快照的摘要和一些有關故障的資訊，請嘗試以下其中一個請求：<pre>GET {{domain_endpoint}}/_snapshot/cs-automated/_all<br />GET {{domain_endpoint}}/_snapshot/cs-automated-enc/_all</pre></td></tr>
  <tr><td>CPUUtilization 或 WarmCPUUtilization 上限為 >= 80%，15 分鐘，連續 3 次</td><td>有時可能會出現 100% CPU 使用率，但持續高用量會有問題。可考慮使用較大的執行個體類型或新增執行個體。</td></tr>
  <tr><td>JVMMemoryPressure 上限為 >= 95% 達 1 分鐘，連續 3 次</td><td rowspan="2">如果使用量增加，叢集可能遇到記憶體不足錯誤。可考慮垂直擴展。OpenSearch Service 針對 Java 堆積使用執行個體 RAM 的一半，堆積大小最多可達 32 GiB。您可以垂直擴展執行個體高達 64 GiB 的 RAM，屆時便能透過新增執行個體進行水平擴展。</td></tr>
  <tr><td>OldGenJVMMemoryPressure 上限為 >= 80% 達 1 分鐘，連續 3 次</td></tr>
  <tr><td>MasterCPUUtilization 上限為 >= 50% 達 15 分鐘，連續 3 次</td><td rowspan="3">可考慮使用較大的執行個體類型為您的[專用主節點](managedomains-dedicatedmasternodes.md)。因為其在叢集穩定性中的角色和[藍/綠部署](managedomains-configuration-changes.md)，專用主節點應該具有比資料節點較低的 CPU 使用量。</td></tr>
  <tr><td>MasterJVMMemoryPressure 上限為 >= 95% 達 1 分鐘，連續 3 次</td></tr>
  <tr><td>MasterOldGenJVMMemoryPressure 上限為 >= 80% 達 1 分鐘，連續 3 次</td></tr>
  <tr><td>KMSKeyError 為 >= 1 達 1 分鐘，連續 1 次</td><td>用於加密網域中靜態資料的 AWS KMS 加密金鑰已停用。重新啟用它來恢復正常操作。如需詳細資訊，請參閱[Amazon OpenSearch Service 的靜態資料加密](encryption-at-rest.md)。</td></tr>
  <tr><td>KMSKeyInaccessible 為 >= 1 達 1 分鐘，連續 1 次</td><td>用於加密網域中靜態資料的 AWS KMS 加密金鑰已刪除或已撤銷其對 OpenSearch Service 的授予。您無法復原此狀態的網域。但是，如果您有手動快照，您可以使用它來遷移至新網域。如需詳細資訊，請參閱 [Amazon OpenSearch Service 的靜態資料加密](encryption-at-rest.md)。</td></tr>
  <tr><td>shards.active 為 >= 30000 達 1 分鐘，連續 1 次</td><td>作用中主要碎片和複本碎片的總數大於 30,000。您可能太頻繁地輪換索引。考慮使用 ISM 在索引達到特定使用期限後將其移除。</td></tr>
  <tr><td>5xx 警示 >= OpenSearchRequests 的 10%</td><td>一或多個資料節點可能會過載，或是請求無法在閒置逾時期間內完成。請考慮切換到較大型執行個體類型或在叢集中新增更多節點。確認您遵循碎片和叢集架構的[最佳實務](sizing-domains.md)。</td></tr>
  <tr><td>MasterReachableFromNode 最長 5 分鐘 < 1，連續 1 次</td><td>此警示表示主節點已停止或無法存取。這些失敗通常是網路連線問題或 AWS 相依性問題的結果。</td></tr>
  <tr><td>ThreadpoolWriteQueue 平均為 >= 100 達 1 分鐘，連續 1 次</td><td>叢集正在經歷高索引並行狀況。檢閱和控制索引請求，或增加叢集資源。</td></tr>
  <tr><td>ThreadpoolSearchQueue 平均為 >= 500 達 1 分鐘，連續 1 次</td><td rowspan="2">叢集正在經歷高搜尋並行狀況。考慮擴展您的叢集。您也可以增加搜尋佇列大小，但過度增加可能會導致記憶體不足錯誤。</td></tr>
  <tr><td> ThreadpoolSearchQueue 上限為 >= 5000 達 1 分鐘，連續 1 次 </td></tr>
  <tr><td>ThreadpoolSearchRejected SUM 增加 >=1{ 數學表達式 DIFF ( )}，持續 1 分鐘，連續 1 次</td><td rowspan="2">這些警示會通知您可能會影響效能和穩定性的網域問題。</td></tr>
  <tr><td>ThreadpoolWriteRejected SUM 增加 >=1{ 數學表達式 DIFF ( )}，持續 1 分鐘，連續 1 次 </td></tr>
</tbody>
</table>


**注意**  
如果您只是想*檢視*指標，請參閱 [使用 Amazon CloudWatch 監控 OpenSearch 叢集指標](managedomains-cloudwatchmetrics.md)。

## 您可能會考慮的其他警示
<a name="cw-alarms-additional"></a>

根據您經常使用的 OpenSearch Service 功能，請考慮設定下列警示。


<table>
<thead>
  <tr><th>警示</th><th>問題</th></tr>
</thead>
<tbody>
  <tr><td>WarmFreeStorageSpace 為 >= 10%</td><td>您已達到可用暖儲存總量的 10%。 會WarmFreeStorageSpace測量 MiB 中可用暖儲存空間的總和。UltraWarm 使用 Amazon S3 而非連接的磁碟。</td></tr>
  <tr><td>HotToWarmMigrationQueueSize 為 >= 20 達 1 分鐘，連續 3 次</td><td>大量的索引正在同時從熱儲存移至 UltraWarm 儲存。考慮擴展您的叢集。</td></tr>
  <tr><td>HotToWarmMigrationSuccessLatency 為 >= 1 天，連續 1 次</td><td>設定此警示，以便在您嘗試滾動每日索引，`HotToWarmMigrationSuccessCount` x 延遲大於 24 小時時收到通知。</td></tr>
  <tr><td>WarmJVMMemoryPressure 上限為 >= 95% 達 1 分鐘，連續 3 次</td><td rowspan="2">如果使用量增加，叢集可能遇到記憶體不足錯誤。可考慮垂直擴展。OpenSearch Service 針對 Java 堆積使用執行個體 RAM 的一半，堆積大小最多可達 32 GiB。您可以垂直擴展執行個體高達 64 GiB 的 RAM，屆時便能透過新增執行個體進行水平擴展。</td></tr>
  <tr><td>WarmOldGenJVMMemoryPressure 上限為 >= 80% 達 1 分鐘，連續 3 次</td></tr>
  <tr><td>WarmToColdMigrationQueueSize 為 >= 20 達 1 分鐘，連續 3 次</td><td>大量的索引正在同時從 UltraWarm 移至冷儲存。考慮擴展您的叢集。</td></tr>
  <tr><td>HotToWarmMigrationFailureCount 為 >= 1 達 1 分鐘，連續 1 次</td><td>遷移可能在快照、碎片重新配置或強制合併期間失敗。快照或碎片重新配置期間的失敗通常是因為節點故障或 S3 連線問題。磁碟空間不足通常是強制合併失敗的根本原因。</td></tr>
  <tr><td>WarmToColdMigrationFailureCount 為 >= 1 達 1 分鐘，連續 1 次</td><td>嘗試將索引中繼資料遷移至冷儲存裝置失敗時，遷移通常會失敗。移除熱索引叢集狀態時也可能發生故障。</td></tr>
  <tr><td>WarmToColdMigrationLatency 為 >= 1 天，連續 1 次</td><td>設定此警示，以便在您嘗試滾動每日索引，`WarmToColdMigrationSuccessCount` x 延遲大於 24 小時時收到通知。</td></tr>
  <tr><td>AlertingDegraded 為 >= 1 達 1 分鐘，連續 1 次</td><td>提醒索引為紅色，或是有一或多個節點不在排程上。</td></tr>
  <tr><td>ADPluginUnhealthy 為 >= 1 達 1 分鐘，連續 1 次</td><td>異常偵測外掛程式無法正常運作，原因是高故障率或使用的其中一個索引是紅色。</td></tr>
  <tr><td>AsynchronousSearchFailureRate 為 >= 1 達 1 分鐘，連續 1 次</td><td>最後一分鐘內至少有一個非同步搜尋失敗，這可能表示協調器節點失敗。非同步搜尋請求的生命週期僅在協調器節點上受管，因此如果協調器停機，請求即會失敗。</td></tr>
  <tr><td>AsynchronousSearchStoreHealth 為 >= 1 達 1 分鐘，連續 1 次</td><td>持續性索引中非同步搜尋回應存放區的運作狀態為紅色。您可能正在儲存大型非同步回應，這可能會破壞叢集的穩定性。請嘗試將您的非同步搜尋回應限制在 10 MB 以下。</td></tr>
  <tr><td>SQLUnhealthy 為 >= 1 達 1 分鐘，連續 3 次</td><td>SQL 外掛程式正在傳回 5*xx* 回應碼或將無效的查詢 DSL 傳遞至 OpenSearch。針對用戶端向外掛程式提出的請求進行疑難排解。</td></tr>
  <tr><td>LTRStatus.red 為 >= 1 達 1 分鐘，連續 1 次</td><td>至少有一個執行 Learning to Rank 外掛程式所需的索引缺少主要碎片，並且無法運作。</td></tr>
</tbody>
</table>
