

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 使用集群洞察实现统一运营监控
<a name="cluster-insights"></a>

 Amazon S OpenSearch ervice 现在包括 Cluster Insights，这是一种监控解决方案，可通过单个控制面板提供集群的全面运营可见性。这消除了必须分析和关联各种日志和指标以识别集群可用性或性能的潜在风险的复杂性。该解决方案可自动整合跨节点、索引和分片的关键运营数据，将复杂的故障排除转化为简化的流程。您可以检测诸如大型分片和低磁盘水印之类的问题，查看节点、索引和分片级别的详细指标，以及访问安全和弹性最佳实践。

**注意**  
 所有运行 2.17 或更高 OpenSearch 版本的用户均可通过 OpenSearch 服务用户界面获得 Cluster Insights，无需支付额外费用。此外， OpenSearch 版本为 2.17 和 2.19 的域名还需要使用最新的服务软件版本更新。

## 优势
<a name="w2aac24b5"></a>
+ **主动监控**-通过所有组件（从单个节点和索引到分片和搜索查询）的详细性能指标，主动监控集群运行状况。
+ **统一的可视性**-将监控数据整合到单个仪表板中
+ **切实可行的建议**-获取问题解决 step-by-step指南
+ **全面覆盖**-监控整个集群的安全性、稳定性和弹性 OpenSearch 
+ **查询优化**-识别资源密集型查询并优化性能

借助 Cluster Insights，您可以保持最佳的集群性能，减少运营开销，并确保 OpenSearch 集群之间的最佳实践保持一致

## 通过控制台访问集群见解
<a name="w2aac24b7"></a>

查看性能和弹性建议，并进行必要的配置更改，所有这些都可以在同一个控制台中完成。在控制台的 “**集群运行状况**” 选项卡下，您可以访问列出所有活动见解的 “集群见解”。点击任何洞察查看推荐。

Screen-1：“集群健康” 选项卡下的集群见解

![\[alt text not found\]](http://docs.aws.amazon.com/zh_cn/opensearch-service/latest/developerguide/images/ci_console_cluster_health.png)


## 通过 OpenSearch UI 访问集群见解和详细指标
<a name="w2aac24b9"></a>

您可以通过 **OpenSearch UI（控制面板）**查看特定 OpenSearch 服务集群的见解。在 OpenSearch UI 中，应用程序只是一种组织结构，就像文件夹一样。每个应用程序都可以连接到多个 OpenSearch 服务集群并显示其见解。访问 Cluster Insights 需要在 OpenSearch UI 应用程序中扮演管理角色。

**注意**  
访问 Cluster Insights 需要在 OpenSearch UI 应用程序中扮演管理角色。

## 创建和配置应用程序以查看 Cluster Insights
<a name="w2aac24c11"></a>

1. 打开 OpenSearch 服务控制台，网址为 [https://console.aws.amazon.com/aos/home](https://console.aws.amazon.com/aos/home)

1. 从左侧导航栏中选择 **OpenSearch UI（仪表板）**

1. 完成以下步骤来创建和配置应用程序：

   1. [创建 OpenSearch 服务应用程序](application-getting-started.md)

   1. [关联数据源](application-data-sources-and-vpc.md#application-data-source-association)

1. 完成上述两个步骤后，您可以在 OpenSearch UI 控制面板的 “设置” > “数据管理员” > “集群见解” 部分下查看 “集群见解”。设置图标位于 OpenSearch 用户界面屏幕的左下角。

屏幕-2：从 OpenSearch 用户界面访问数据管理员

![\[alt text not found\]](http://docs.aws.amazon.com/zh_cn/opensearch-service/latest/developerguide/images/ci_data_admin.png)




屏幕 3：“管理数据” 部分下的 “集群见解”

![\[alt text not found\]](http://docs.aws.amazon.com/zh_cn/opensearch-service/latest/developerguide/images/ci_manage_data.png)


## 了解集群见解
<a name="w2aac24c13"></a>

本节介绍了 Cluster Insights 中提供的各种见解。

### 概述控制面板
<a name="w2aac24c13b5"></a>

Cl **uster Insights 概述**页面（如以下屏幕截图所示）提供了应用程序级别的集群运行状况的高级视图，包括以下部分：

Screen-4： OpenSearch 用户界面应用程序中的 “集群见解” 登录页面。

![\[alt text not found\]](http://docs.aws.amazon.com/zh_cn/opensearch-service/latest/developerguide/images/ci_overview.png)


### 当前集群状态
<a name="w2aac24c13b7"></a>

甜甜圈图显示您的集群运行状况：
+ **绿色**-所有主分片和副本都分配给节点
+ **黄色**-所有主分片均已分配，但有些副本未分配
+ **红色**-至少有一个主分片未分配给任何节点

### 洞察趋势
<a name="w2aac24c13b9"></a>

趋势图跟踪过去 30 天内的问题模式，帮助您识别新出现的问题并监控解决进度。

### 当前的开放见解
<a name="w2aac24c13c11"></a>

按过去 30 天内公开见解的严重程度整理的计数。

### OpenSearch 服务集群
<a name="w2aac24c13c13"></a>

本部分列出了您的所有 OpenSearch 集群，包括节点数、分片计数和活动查询等关键统计信息。

### 按严重程度分类的热门见解
<a name="w2aac24c13c15"></a>

您可以查看应用程序中所有领域的见解。本节列出了需要立即关注的问题（严重和高严重性）的优先顺序。每项见解都包含描述和具体建议，可以帮助您首先关注关键问题。

### 见解详细信息
<a name="w2aac24c13c17"></a>

“**按严重程度划分的热门见解**” 部分中的每条见解都是交互式的，并提供详细的分析。例如，当你选择 “**大碎片大小**” 洞察时：

1. 你可以看到有多少分片超过了阈值以及哪些索引受到影响。

1. 资源映射通过其索引、ID 和当前大小来标识每个超大分片。

1. “建议” 选项卡提供 step-by-step补救指导。

1. “历史记录” 选项卡显示资源修复操作的时间表。

### 集群详细信息
<a name="w2aac24c13c21"></a>

当您在**OpenSearch 服务**集群部分选择特定集群时， OpenSearch 将在以下选项卡中显示该集群的见解：集群运行状况、节点视图、索引视图、分片视图和查询视图。集**群运行状况**选项卡显示以下信息：

### 概述
<a name="w2aac24c13c23"></a>

关键信息包括集群运行状况、分片数、节点数、索引计数和文档统计信息。

### 配置最佳实践
<a name="w2aac24c13c25"></a>

甜甜圈图显示符合弹性和安全性的推荐设置。

### 见解
<a name="w2aac24c13c27"></a>

表格列出了最近为集群生成的见解，概述页面中提供了相同的详细细分和补救指南。

Screen-5：Cluster Health 概述提供了关键指标、最佳实践和见解

![\[alt text not found\]](http://docs.aws.amazon.com/zh_cn/opensearch-service/latest/developerguide/images/ci_cluster_health.png)


当你点击任何见解时，你可以看到详细信息以及受影响的资源和建议。此外，您还可以查看固定资源的历史记录。

屏幕 6：洞察详情。为您提供详细信息、建议和历史时间表。

![\[alt text not found\]](http://docs.aws.amazon.com/zh_cn/opensearch-service/latest/developerguide/images/ci_large_shard_size.png)


### “指标” 部分
<a name="w2aac24c13c29"></a>

此部分中的交互式图表显示以下群集指标：
+ 集群总体运行状况指标，例如集群状态、写入状态和可搜索文档
+ KPIs （关键绩效指标），例如索引和搜索率以及延迟
+ 资源利用率指标，例如 JVM 和 CPU 利用率

### 节点、索引和分片视图
<a name="w2aac24c13c31"></a>

**节点**、**索引**和**分片视图**使用 OpenSearch 统计信息来提供集群操作的详细可见性。您可以查看：
+ 实时指标，例如 CPU 利用率和 JVM 内存压力
+ 搜索和索引性能数据
+ 跨群集组件的资源热点
+ 精细的节点级诊断
+ 分配的分片堆最多

Screen-7：节点、索引和分片等级指标

![\[alt text not found\]](http://docs.aws.amazon.com/zh_cn/opensearch-service/latest/developerguide/images/ci_shard_view.png)


### 查询视图
<a name="w2aac24c13c33"></a>

**注意**  
 2.19 或更高 OpenSearch 版本支持查询视图功能。

“**查询视图**” 页面可通过以下方式帮助您监控资源密集型查询：

#### 访问设置
<a name="w2aac24c13c33b7"></a>

查看前 N 个查询需要精细的访问控制权限。确保进行以下配置：
+ 您的域名已启用精细访问控制。
+ 您的 IAM 角色（或内部用户）将映射到具有查询见解所需集群权限的 OpenSearch 角色。
+ 要获得完全管理员访问权限，请将您的 IAM 角色 ARN 作为后端角色映射到 all\$1access 和 security\$1manager 角色。你可以在 OpenSearch 控制面板中的安全 > 角色 > 选择角色 > 映射的用户 > 管理映射，或者使用[安全 API](https://opensearch.org/docs/latest/security/access-control/api/)（PUT \$1plugins/\$1 \$1 security/api/rolesmapping/all access）来执行此操作。

如果没有正确的角色映射，用户在尝试访问查询见解数据时可能会收到 403 个禁止错误。有关详细信息，请参阅[细粒度访问控制](https://docs.aws.amazon.com/opensearch-service/latest/developerguide/fgac.html)。

#### 实时仪表板
<a name="w2aac24c13c33b9"></a>

查看每个查询的执行统计信息、CPU 和内存使用情况以及完成进度。

#### 前 N 个查询
<a name="w2aac24c13c33c11"></a>

排名表显示了最重要的查询，其详细信息包括：
+ 查询次数
+ 延迟、CPU 和内存使用情况
+ 搜索类型和协调器节点
+ 目标索引和分片数

#### 查询详细信息
<a name="w2aac24c13c33c13"></a>

双击任意查询即可查看：
+ 确切的查询负载和执行步骤
+ 每个阶段（扩展、查询、获取）的延迟细分
+ 优化建议

屏幕-8：机上实时取景。您还可以查看 Top-N 个查询

![\[alt text not found\]](http://docs.aws.amazon.com/zh_cn/opensearch-service/latest/developerguide/images/ci_query_view.png)


### 通过 Amazon EventBridge 活动获取见解
<a name="w2aac24c13c35"></a>

您可以通过 Amazon EventBridge 事件监控见解。有关更多详细信息，请查看[通知](https://docs.aws.amazon.com/opensearch-service/latest/developerguide/managedomains-notifications.html)。