View a markdown version of this page

可靠性 - 常规 SAP 指南

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

可靠性

可靠性是SAP Lens-Fr AWS Well-Architected amework的六大支柱之一。有关更多信息,请参阅可靠性

AWS 云在一个区域内有多个可用区, AWS 可提供可靠性。这使您的 SAP 应用程序 AWS 能够更具弹性。各个区域之间相互隔离,从而实现了尽可能高的容错能力和稳定性。在每个 AWS 区域内,至少有三个隔离、物理上独立的可用区。有关更多信息,请参阅 {https--aws-amazon-com-about-aws-global-infrastructure-regions-az-} [区域和可用区]。

显示区域和可用区的容错能力的示意图

相比单个数据中心,通过可用区,您运行的生产应用程序和数据库可以获得更高的可用性。通过将应用程序分布在多个可用区中,您在面对大多数故障模式(包括自然灾害或系统故障)时能够保持韧性。

每个可用区可包含多个数据中心。在完全扩展的情况下,单个可用区可容纳数十万台服务器。它们是 AWS 全球基础设施的完全隔离的分区。各个可用区之间在物理上是相互隔离的,并拥有自己的电力和联网资源。尽管所有距离都在 100 千米(60 英里)以内,但距离为几千米。此距离可使可用区免受洪水、火灾、强风暴、地震等最常见的数据中心灾害影响。

一个区域中的所有可用区都采用完全冗余的专用城域光纤,实现高带宽和低延迟的网络互联。这确保了可用区间的高吞吐量、低延迟联网。网络性能足以实现同步复制。

可用区的网络设计图

可用区支持您以高可用方式运行应用程序,实现可用区之间的同步数据复制与自动失效转移。RISE with SAP 可以为您的每个 AWS 地区的工作负载提供如此高的可用性设计。

恢复能力与成本注意事项

SAP 为 RISE 提供了多种选项,以满足不同的恢复能力需求。通过 SAP 提供的选项包,可针对 RISE 调整以下核心需求:

  • 服务水平协议(SLA)- 描述解决方案的目标可用性。

  • 恢复时间目标(RTO)- 描述灾难事件发生后,恢复工作应完成的目标时长。

  • 恢复点目标(RPO)- 描述灾难事件恢复过程中,可能发生的数据丢失的目标级别。

有关更多详细信息,请参阅 SAP 在 RISE 协议中提供的相关定义,了解违约情况下的具体定义、条款、影响及处罚。

中断对组织造成的影响以及数据丢失,可能会导致生产率降低、收入损失,并损害声誉。权衡成本与恢复能力之间的关系,有助于评测组织面临的风险。

恢复能力与性能注意事项

当您在 RISE 中选择短距离灾难恢复选项时,SAP 应用服务器和数据库服务器将跨多个可用区进行部署。此架构支持针对您的 SAP 工作负载的高可用设计。

在主动-主动配置下,在多个可用区中使用应用程序服务器时,可提升恢复能力。同时,这也会增加从应用程序服务器到数据库服务器的跨可用区延迟。您可以参阅 SAP Note 3496343(开启网络延迟 AWS),其中详细介绍了在多可用区部署中由于应用程序服务器和数据库服务器之间的距离而增加的延迟。下一部分将对此进行详细探讨。

  • 根据 SAP Note 1100926,SAP 应用程序服务器与数据库服务器之间的网络延迟应低于 0.7 毫秒

  • 使用同步数据复制(实现零数据丢失所必需的)的 HANA 系统复制的网络延迟为 {https--help-sap-com-docs-} [小于 1 毫秒] SAP-HANA-PLATFORM-4e9b18c116aa42fc84c7dbfd02111aba-781c30f901cd49e5be8e711384349379-html

您可以使用AWS 网络管理器-基础架构性能工具来自动测量 Inter-AZ Intra-AZ 和 Inter-Region 网络延迟。您也可以根据 SAP Note 2986631,使用 SAP 的 NIPING 工具进行测量。

当 SAP 应用程序服务器和数据库服务器分布在多个可用区(AZ)中时,系统的可靠性与可用性会显著提升,其收益超过了网络延迟增加带来的影响。

跨可用区流量可能会增加执行某些需频繁调用数据库的事务或批处理作业所需的时间。如果影响很大,我们建议使用 {https--help-sap-com-docs-} [SAP 登录组]、{https--help-sap-com-docs-} [RFC 服务器组] 和 {https----help-sap-com-docs-SUPPORT-CONTENT-nwtech-3362694203-html-locale-en-US} [Batch Server Groups-] 和 {https----help-sap-com-docs-} [Batch Server Groups] 将此流量保持在同一个可用区内。SUPPORT-CONTENT-basis-3354611643-html-locale-en-US SUPPORT-CONTENT-si-3362959530-html-locale-en-US这可确保受影响的事务或批处理作业仅使用与数据库服务器位于同一可用区的应用服务器。

为了在与数据库服务器位于同一可用区的应用程序服务器上自动化和优化此类性能关键型批处理作业和事务的运行, AWS 提供了客户可以在其 S AP 系统中测试和实施的 ABAP 代码示例

你可以参阅 re AWS : Post 文章 SAP 的延迟来降低网络 Inter-AZ 延迟,从而通过C-State 参数实现进一步的优化。

当无法在多个可用区的主动-主动模式下运行应用程序服务器时,您可以使用 ABAPSetServerInactive (SAP Note 3075829) 在主动-被动模式下运行

在极少数情况下,如果您观察到一个可用区内的延迟会对性能产生影响,则可以使用 {https--docs-aws-amazon-com-AWSEC2-latest-UserGuide-placement-strategies-html-placement-groups-cluster} [集群置放群组] 来实现尽可能低的延迟。您可以从中参阅《放置策略指南》 AWS

总的来说,以下是多可用区部署中的架构模式:

AZ1 中的应用程序服务器 AZ2 中的应用程序服务器 从 AZ1 到 AZ2 的失效转移机制

活动

活动

自动化脚本(即 pacemaker)

活动

活动

手动调整 Logon Groups、RFC Server Groups 和 Batch Server Groups

活动

活动

用于调整 Logon Groups、RFC Server Groups 和 Batch Server Groups 的自动化脚本

活动

Passive

手动激活被动应用程序服务器

活动

Passive

用于激活被动应用程序服务器的自动化脚本

为了实现 SAP 工作负载的高可靠性,我们建议执行以下任务:

  1. 与 SAP 讨论 RISE 部署的可用性 SLA 要求。这将决定需跨多个可用区部署的组件(即数据库服务器和应用程序服务器),从而最大限度地提升 RISE 的可靠性与可用性。

  2. 如果您的业务场景涉及频繁调用数据库服务器的批处理作业 and/or ,可能会受到可用区间网络延迟的不利影响,则可以考虑使用 SAP 的工作负载分配机制(SAP 登录组、RFC 服务器组和 Batch Server 组)来确保这些作业和事务在与数据库服务器位于同一可用区的应用程序服务器上运行

  3. 你可以参阅 re AWS : Post 文章 SAP 的延迟来进一步优化网络 Inter-AZ 延迟。

  4. 当主动-主动模式不可行时,您可以在应用程序服务器的主动-被动模式下运行 ABAPSetServerInactive (SAP Note 3075829)。

  5. 可考虑将 RISE 之外的其他工作负载部署在同一可用区内,以实现更低的网络延迟和数据传输成本。

灾难恢复选项

您可以通过将数据复制到第二个 AWS 区域来实施灾难恢复解决方案。在发生罕见的本地故障或区域故障时,您的 SAP 工作负载将受到保护。

RISE wit S/4HANA h SAP Cloud,私有版提供以下两个选项。

  • 短距离灾难恢复或城域灾难恢复 — RISE with SAP 在一个 AWS 区域中使用多个可用区。具有三个或更多可用区的独特 AWS 区域提供了在每个 AWS 区域进行短距离灾难恢复的选项。

  • 远距离灾难恢复或区域灾难恢复 — RISE with SAP 使用辅助 AWS 区域作为故障转移系统的备用区域。由于两个区域之间的物理距离,因此数据是在两个 AWS 区域之间异步复制的。 AWS

有关更多详细信息,请参阅 SAP 文档:SAP Service Description: Disaster Recovery and Customer Invoked Failover