本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 中的彈性 ROSA
<a name="disaster-recovery-resiliency"></a>

## AWS 全球基礎設施彈性
<a name="disaster-recovery-resiliency-infra"></a>

 AWS 全球基礎設施是以 AWS 區域 和 可用區域為基礎建置。 AWS 區域 提供多個實體隔離和隔離的可用區域，這些區域透過低延遲、高輸送量和高度備援聯網進行連接。透過可用區域，您可以設計與操作的應用程式和資料庫，在可用區域之間自動容錯移轉而不會發生中斷。可用區域的可用性、容錯能力和擴展能力，均較單一或多個資料中心的傳統基礎設施還高。

 ROSA 為客戶提供在單一 AWS 可用區域中或跨多個可用區域執行 Kubernetes 控制平面和資料平面的選項。雖然單一可用區域叢集對於實驗很有用，但我們鼓勵客戶在多個可用區域中執行工作負載。這可確保應用程式甚至可以承受完整的可用區域故障，這是非常罕見的事件。

如需 AWS 區域 和可用區域的詳細資訊，請參閱 [AWS 全球基礎設施](https://aws.amazon.com/about-aws/global-infrastructure/)。

## ROSA 叢集彈性
<a name="disaster-recovery-resiliency-cluster"></a>

 ROSA 控制平面包含至少三個 OpenShift 控制平面節點。每個控制平面節點都由 API 伺服器執行個體、`etcd`執行個體和控制器組成。如果發生控制平面節點故障，所有 API 請求都會自動路由到其他可用的節點，以確保叢集可用性。

 ROSA 資料平面至少包含兩個 OpenShift 基礎設施節點和兩個 OpenShift 工作者節點。基礎設施節點會執行支援 OpenShift 叢集基礎設施元件的 Pod，例如預設路由器、內建 OpenShift 登錄檔，以及叢集指標和監控的元件。OpenShift 工作者節點會執行最終使用者應用程式 Pod。

Red Hat 網站可靠性工程師 (SREs) 可完整管理控制平面和基礎設施節點。Red Hat SREs會主動監控 ROSA 叢集，並負責取代任何失敗的控制平面節點和基礎設施節點。如需詳細資訊，請參閱[的責任概觀 ROSA](rosa-responsibilities.md)。

**重要**  
由於 ROSA 是受管服務，Red Hat 負責管理 ROSA 所使用的基礎 AWS 基礎設施。客戶不應嘗試從 AWS 主控台或 手動關閉 ROSA 使用 的 Amazon EC2 執行個體 AWS CLI。此動作可能會導致客戶資料遺失。

如果工作者節點在資料平面上失敗，控制平面會將未排程的 Pod 重新放置到正常運作的工作者節點 （直到復原或取代失敗的節點為止）。可以透過啟用叢集中機器的自動擴展來手動或自動取代失敗的工作者節點。如需詳細資訊，請參閱 Red Hat 文件中的[叢集自動調整規模](https://access.redhat.com/documentation/en-us/red_hat_openshift_service_on_aws/4/html/cluster_administration/rosa-cluster-autoscaling)。

## 客戶部署的應用程式彈性
<a name="disaster-recovery-resiliency-app"></a>

雖然 ROSA 提供許多保護以確保服務的高可用性，但客戶仍需負責建置其部署的應用程式以獲得高可用性，以保護工作負載免於停機時間。如需詳細資訊，請參閱 Red Hat 文件中的[關於 的可用性 ROSA](https://access.redhat.com/documentation/en-us/red_hat_openshift_service_on_aws/4/html/introduction_to_rosa/policies-and-service-definition#about-availability-for-rosa)。