

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 故障后分析和重置
<a name="sap-hana-pacemaker-rhel-ops-post-failure"></a>

每次出现故障后都必须进行检查，来了解故障的根源以及集群的反应。在大多数情况下，集群可以防止应用程序中断。但是，通常需要手动操作才能将集群重置为保护状态，以防后续出现任何故障。

**Topics**
+ [查看日志](#_checking_the_logs)
+ [清理 pcs 状态](#_cleanup_pcs_status)
+ [重启出现故障的节点或 Pacemaker](#_restart_failed_nodes_or_pacemaker)
+ [深入分析](#_further_analysis)

## 查看日志
<a name="_checking_the_logs"></a>
+ 要对集群问题进行故障排除，请使用 journalctl 检查 Pacemaker 和 corosync 日志：

  ```
  # journalctl -u pacemaker -u corosync --since "1 hour ago"
  ```
  + 使用 `--since` 指定时间段（例如，“2 小时前”、“今天”）
  + 添加 `-f` 以实时跟踪日志
  + 与 grep 结合使用可执行特定搜索
+ 系统消息和资源代理活动可在 `/var/log/messages` 中找到。
+ 有关 HANA 特定的问题，请查看 HANA 跟踪目录。以 <sid>adm 身份登录时，可以使用“cdtrace”进行访问。另请查阅 HANA 跟踪目录中的 DB\$1<tenantdb> 目录。

## 清理 pcs 状态
<a name="_cleanup_pcs_status"></a>

如果使用 `pcs status` 命令报告了失败的操作，并且已经对其进行了调查，您可以使用以下命令清除报告。

```
# pcs resource cleanup <resource> <hostname>
```

## 重启出现故障的节点或 Pacemaker
<a name="_restart_failed_nodes_or_pacemaker"></a>

建议不要自动重启出现故障（或已隔离）的节点。这样操作员才有机会调查故障，并确保集群不会对资源状态做出假设。

您需要根据自己的方法重启实例或 Pacemaker 服务。

## 深入分析
<a name="_further_analysis"></a>

对于集群特定的问题，请使用 `pcs cluster report`，对所有节点上的集群组件生成针对性分析：

```
# pcs cluster report --from="YYYY-MM-DD HH:MM:SS" --to="YYYY-MM-DD HH:MM:SS" /tmp/cluster-report
```

**使用 pcs 集群报告**
+ 指定包含事件的时间范围
+ 该报告包括所有节点的日志和配置
+ 查看生成的 tarball 来了解集群事件、资源操作和配置更改