

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 將內部部署 Cloudera 工作負載遷移至 AWS 上的 Cloudera 資料平台
<a name="migrate-on-premises-cloudera-workloads-to-cloudera-data-platform-on-aws"></a>

*Battulga Purevragchaa 和 Nidhi Gupta，Amazon Web Services*

*Nijjwol Lamsal， Cloudera， Inc.*

## 總結
<a name="migrate-on-premises-cloudera-workloads-to-cloudera-data-platform-on-aws-summary"></a>

此模式說明將內部部署 Cloudera 分散式 Hadoop (CDH)、Hortonworks 資料平台 (HDP) 和 Cloudera 資料平台 (CDP) 工作負載遷移至 CDP Public Cloud on AWS 的高階步驟。我們建議您與 Cloudera Professional Services 和系統整合商 (SI) 合作實作這些步驟。

Cloudera 客戶想要將內部部署 CDH、HDP 和 CDP 工作負載移至雲端的原因有很多。一些典型原因包括：
+ 簡化新資料平台範例的採用，例如資料湖區或資料網格
+ 提高業務敏捷性、普及現有資料資產的存取和推論
+ 降低總擁有成本 (TCO)
+ 增強工作負載彈性
+ 提供更高的可擴展性；相較於舊版內部部署安裝基礎，可大幅縮短佈建資料服務的時間
+ 淘汰舊版硬體；大幅減少硬體重新整理週期
+ 利用pay-as-you-go定價透過 Cloudera 授權模型 (CCU) 擴展到 AWS 上的 Cloudera 工作負載
+ 利用更快的部署和改善與持續整合和持續交付 (CI/CD) 平台的整合
+ 針對多個工作負載使用單一統一平台 (CDP)

Cloudera 支援所有主要工作負載，包括Machine Learning、資料工程、資料倉儲、操作資料庫、串流處理 (CSP)，以及資料安全和控管。Cloudera 已在內部部署提供這些工作負載多年，您可以使用 CDP Public Cloud 搭配 Workload Manager 和 Replication Manager，將這些工作負載遷移至 AWS 雲端。 

Cloudera 共用資料體驗 (SDX) 提供跨這些工作負載的共用中繼資料目錄，以促進一致的資料管理和操作。SDX 也包含可防範威脅的全方位精細安全性，以及稽核和搜尋功能的統一控管，以符合支付卡產業資料安全標準 (PCI DSS) 和 GDPR 等標準。 

**CDP 遷移一目了然**


|  |  | 
| --- |--- |
|    工作負載 | 來源工作負載 | CDH、HDP 和 CDP 私有雲端 | 
| --- |--- |--- |
| 來源環境 | Windows，Linux內部部署、主機代管或任何非 AWS 環境 | 
| 目的地工作負載 | AWS 上的 CDP 公有雲端 | 
| 目的地環境 | 部署模型：客戶帳戶操作模型：客戶/Cloudera 控制平面 | 
| ** **** ****移轉** | 遷移策略 (7R) | 重新託管、轉換或重構 | 
| 這是工作負載版本中的升級嗎？ | 是 | 
| 遷移持續時間 | 部署：約 1 週可建立客戶帳戶、虛擬私有雲端 (VPC) 和 CDP 公有雲端客戶受管環境。遷移持續時間：1-4 個月，取決於工作負載的複雜性和大小。 | 
| **成本** | 在 AWS 上執行工作負載的成本 | 在高層級上，CDH 工作負載遷移至 AWS 的成本假設您會在 AWS 上建立新的環境。它包括考慮人員時間和精力，以及為新環境佈建運算資源和授權軟體。Cloudera 雲端消費型定價模式可讓您靈活地利用爆量和自動擴展功能。如需詳細資訊，請參閱 Cloudera 網站上的 [CDP 公有雲端服務費率](https://www.cloudera.com/products/pricing/cdp-public-cloud-service-rates.html)。Cloudera Enterprise [Data Hub](https://www.cloudera.com/products/enterprise-data-hub.html) 是以 Amazon Elastic Compute Cloud (Amazon EC2) 為基礎，並緊密建立傳統叢集的模型。Data Hub 可以[自訂](https://docs.cloudera.com/data-hub/cloud/create-cluster-aws/topics/mc-creating-a-cluster.html)，但這會影響成本。[CDP 公有雲端資料倉儲](https://docs.cloudera.com/data-warehouse/cloud/index.html)、[Cloudera Machine Learning](https://docs.cloudera.com/machine-learning/cloud/product/topics/ml-product-overview.html) 和 [Cloudera Data Engineering (CDE)](https://docs.cloudera.com/data-engineering/cloud/index.html) 是以容器為基礎，可設定為自動擴展。 | 
| ** **** ****基礎設施協議和架構** | 系統要求 | 請參閱[先決條件](#migrate-on-premises-cloudera-workloads-to-cloudera-data-platform-on-aws-prereqs)一節。 | 
| SLA | 請參閱 [CDP 公有雲端的 Cloudera 服務水準協議。](https://www.cloudera.com/legal/terms-and-conditions/cdp-public-cloud-sla.html) | 
| DR | 請參閱 Cloudera 文件中的[災難復原](https://docs.cloudera.com/cdp-reference-architectures/latest/cdp-ra-operations/topics/cdp-ra-abstract.html)。 | 
| 授權和操作模型 （適用於目標 AWS 帳戶） | 使用自有授權 (BYOL) 模型 | 
| ** ****合規** | 安全要求 | 請參閱 [Cloudera 文件中的 Cloudera 安全性概觀](https://docs.cloudera.com/cdp-private-cloud-base/7.1.6/security-overview/topics/cm-security-overview.html)。 | 
| 其他[合規認證](https://aws.amazon.com/compliance/programs) | 請參閱 Cloudera 網站上有關[一般資料保護法規 (GDPR](https://www.cloudera.com/solutions/lower-business-risks/general-data-protection-regulation.html)) 合規和 [CDP 信任中心](https://www.cloudera.com/products/trust-center.html)的資訊。 | 

## 先決條件和限制
<a name="migrate-on-premises-cloudera-workloads-to-cloudera-data-platform-on-aws-prereqs"></a>

**先決條件**
+ [AWS 帳戶需求](https://docs.cloudera.com/cdp-public-cloud/cloud/requirements-aws/topics/mc-requirements-aws.html)，包括帳戶、資源、服務和許可，例如 AWS Identity and Access Management (IAM) 角色和政策設定
+ 從 Cloudera [網站部署 CDP 的先決條件](https://docs.cloudera.com/cdp-public-cloud/cloud/getting-started/topics/cdp-set_up_cdp_prerequisites.html) 

遷移需要下列角色和專業知識：


| 
| 
| Role | 技能和責任 | 
| --- |--- |
| 遷移潛在客戶 | 確保執行支援、團隊協作、規劃、實作和評估 | 
| Cloudera 中小企業 | CDH、HDP 和 CDP 管理、系統管理和架構方面的專業技能 | 
| AWS 架構師 | AWS 服務、聯網、安全和架構的技能 | 

## Architecture
<a name="migrate-on-premises-cloudera-workloads-to-cloudera-data-platform-on-aws-architecture"></a>

建置適當的架構是確保遷移和效能符合您期望的關鍵步驟。為了滿足此手冊的假設，AWS 雲端中的目標資料環境，無論是在虛擬私有雲端 (VPC) 託管執行個體或 CDP 上，在作業系統和軟體版本以及主要機器規格方面，都必須與來源環境相當。

下圖 （透過 [Cloudera 共享資料體驗資料表](https://www.cloudera.com/content/dam/www/marketing/resources/datasheets/cloudera-sdx-datasheet.pdf?daqp=true)的許可而重新產生） 顯示 CDP 環境的基礎設施元件，以及層或基礎設施元件如何互動。

![\[CDP 環境元件\]](http://docs.aws.amazon.com/zh_tw/prescriptive-guidance/latest/patterns/images/pattern-img/bb47435e-2638-425c-ac37-7d55053452ac/images/91d62277-7fde-4ec6-8e2b-86a446e2f6ee.png)


架構包含下列 CDP 元件：
+ Data Hub 是一項服務，用於啟動和管理採用 Cloudera Runtime 技術的工作負載叢集。您可以使用 Data Hub 中的叢集定義，為自訂使用案例佈建和存取工作負載叢集，並定義自訂叢集組態。如需詳細資訊，請參閱 [Cloudera 網站](https://docs.cloudera.com/data-hub/cloud/index.html)。
+ 資料流程和串流可解決企業在處理資料時面臨的主要挑戰。它會管理下列項目：
  + 處理大量和大規模的即時資料串流
  + 追蹤串流資料的資料來源和歷程
  + 管理和監控邊緣應用程式和串流來源

  如需詳細資訊，請參閱 [Cloudera 網站上的 Cloudera DataFlow](https://www.cloudera.com/products/dataflow.html) 和 [CSP](https://www.cloudera.com/products/stream-processing.html)。
+ 資料工程包括資料整合、資料品質和資料控管，可協助組織建置和維護資料管道和工作流程。如需詳細資訊，請參閱 [Cloudera 網站](https://docs.cloudera.com/data-engineering/cloud/index.html)。了解 [Spot 執行個體的支援，以協助節省 AWS for Cloudera Data Engineering 工作負載的成本](https://docs.cloudera.com/data-engineering/cloud/cost-management/topics/cde-spot-instances.html)。
+ 資料倉儲** **可讓您建立獨立的資料倉儲和資料封送，以自動擴展以滿足工作負載需求。此服務為每個資料倉儲和資料智慧提供隔離的運算執行個體和自動化最佳化，並協助您在符合 SLAs 時節省成本。如需詳細資訊，請參閱 [Cloudera 網站](https://docs.cloudera.com/data-warehouse/cloud/index.html)。了解如何[管理 AWS 上 Cloudera Data Warehouse 的成本](https://docs.cloudera.com/data-warehouse/cloud/planning/topics/dw-manage-cloud-costs.html)和[自動擴展](https://docs.cloudera.com/data-warehouse/cloud/auto-scaling/topics/dw-public-cloud-autoscaling-overview.html)。
+ CDP 中的操作資料庫為可擴展、高效能應用程式提供了可靠且靈活的基礎。它提供即時、始終可用、可擴展的資料庫，可在統一的操作和倉儲平台上提供傳統的結構化資料以及新的非結構化資料。如需詳細資訊，請參閱 [Cloudera 網站](https://www.cloudera.com/products/operational-db.html)。
+ Machine Learning 是一種雲端原生機器學習平台，可將自助式資料科學和資料工程功能合併到企業資料雲端內的單一可攜式服務。它可在資料上的任何地方進行可擴展的機器學習和人工智慧 (AI) 部署。如需詳細資訊，請參閱 [Cloudera 網站](https://docs.cloudera.com/machine-learning/cloud/index.html)。

**AWS 上的 CDP**

下圖 （採用 Cloudera 網站的許可） 顯示 AWS 上 CDP 的高階架構。CDP 實作[自己的安全模型](https://docs.cloudera.com/runtime/7.1.0/cdp-security-overview/topics/security-management-console-security.html)來管理帳戶和資料流程。這些透過使用[跨帳戶角色](https://docs.cloudera.com/cdp-public-cloud/cloud/requirements-aws/topics/mc-aws-req-credential.html)與 [IAM](https://aws.amazon.com/iam/) 整合。 

![\[AWS 高階架構上的 CDP\]](http://docs.aws.amazon.com/zh_tw/prescriptive-guidance/latest/patterns/images/pattern-img/bb47435e-2638-425c-ac37-7d55053452ac/images/54420517-38b4-4e82-bd19-9ded50ed009c.png)


CDP 控制平面位於 Cloudera 主帳戶中自己的 VPC。每個客戶帳戶都有自己的子帳戶和唯一的 VPC。跨帳戶 IAM 角色和 SSL 技術會將進出控制平面的管理流量路由到位於每個客戶 VPC 內網際網路可路由公有子網路上的客戶服務。在客戶的 VPC 上，Cloudera 共享資料體驗 (SDX) 以統一的控管和合規提供企業級安全性，讓您可以更快地從資料中取得洞見。SDX 是併入所有 Cloudera 產品的設計理念。如需適用於 AWS 的 [SDX](https://docs.cloudera.com/cdp-public-cloud/cloud/overview/topics/cdp-services.html) 和 CDP 公有雲端網路架構的詳細資訊，請參閱 Cloudera 文件。 [https://docs.cloudera.com/cdp-public-cloud/cloud/aws-refarch/topics/cdp-pc-aws-refarch-overview.html](https://docs.cloudera.com/cdp-public-cloud/cloud/aws-refarch/topics/cdp-pc-aws-refarch-overview.html)

## 工具
<a name="migrate-on-premises-cloudera-workloads-to-cloudera-data-platform-on-aws-tools"></a>

**AWS 服務**
+ [Amazon Elastic Compute Cloud (Amazon EC2)](https://docs.aws.amazon.com/ec2/) 在 AWS 雲端中提供可擴展的運算容量。您可以視需要啟動任意數量的虛擬伺服器，，並快速進行擴展或縮減。
+ [Amazon Elastic Kubernetes Service (Amazon EKS)](https://docs.aws.amazon.com/eks/latest/userguide/getting-started.html) 可協助您在 AWS 上執行 Kubernetes，而無需安裝或維護您自己的 Kubernetes 控制平面或節點。
+ [AWS Identity and Access Management (IAM)](https://docs.aws.amazon.com/IAM/latest/UserGuide/introduction.html) 可透過控制已驗證並獲授權使用的人員，協助您安全地管理對 AWS 資源的存取。
+ [Amazon Relational Database Service (Amazon RDS)](https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/Welcome.html) 可協助您在 AWS 雲端中設定、操作和擴展關聯式資料庫。
+ [Amazon Simple Storage Service (Amazon S3)](https://docs.aws.amazon.com/AmazonS3/latest/userguide/Welcome.html) 是一種雲端型物件儲存服務，可協助您儲存、保護和擷取任何數量的資料。

**自動化和工具**
+ 如需其他工具，您可以使用 [Cloudera Backup Data Recovery (BDR)](https://docs.cloudera.com/documentation/enterprise/6/6.3/topics/cm_bdr_tutorials.html)、[AWS Snowball](https://aws.amazon.com/snowball/) 和 [AWS Snowmobile](https://aws.amazon.com/snowmobile/)，協助將資料從內部部署 CDH、HDP 和 CDP 遷移到 AWS 託管的 CDP。
+ 對於新的部署，我們建議您使用適用於 [CDP 的 AWS 合作夥伴解決方案](https://aws.amazon.com/solutions/partners/terraform-modules/cdp-public-cloud/)。

## 史詩
<a name="migrate-on-premises-cloudera-workloads-to-cloudera-data-platform-on-aws-epics"></a>

### 準備遷移
<a name="prepare-for-migration"></a>


| 任務 | Description | 所需的技能 | 
| --- | --- | --- | 
| 與 Cloudera 團隊互動。 | Cloudera 會與客戶一起追求標準化的參與模式，並可與您的系統整合商 (SI) 合作，以推廣相同的方法。請聯絡 Cloudera 客戶團隊，讓他們可以提供指引和必要的技術資源，以開始專案。聯絡 Cloudera 團隊可確保所有必要的團隊都能在日期接近時準備遷移。 您可以聯絡 Cloudera Professional Services，以較低成本和最高效能快速地將 Cloudera 部署從試行移至生產環境。如需方案的完整清單，請參閱 [Cloudera 網站](https://www.cloudera.com/about/services-and-support/professional-services.html)。 | 遷移潛在客戶 | 
| 在 AWS 上為您的 VPC 建立 CDP 公有雲端環境。 | 使用 Cloudera Professional Services 或您的 SI，在 AWS 上的 VPC 中規劃和部署 CDP 公有雲端。 | Cloudera SME 雲端架構師 | 
| 排定優先順序並評估工作負載以進行遷移。 | 評估所有現場部署工作負載，以判斷最容易遷移的工作負載。非關鍵任務的應用程式最好先移動，因為它們對您的客戶的影響最小。在您成功遷移其他工作負載之後，請儲存任務關鍵工作負載以供上次使用。暫時性 (CDP Data Engineering) 工作負載比持久性 (CDP Data Warehouse) 工作負載更容易遷移。在遷移時考慮資料磁碟區和位置也很重要。挑戰可能包括持續將資料從內部部署環境複寫到雲端，以及變更資料擷取管道以將資料直接匯入雲端。 | 遷移潛在客戶 | 
| 討論 CDH、HDP、CDP 和舊版應用程式遷移活動。 | 考慮並開始規劃下列 Cloudera Workload Manager 活動：[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/prescriptive-guidance/latest/patterns/migrate-on-premises-cloudera-workloads-to-cloudera-data-platform-on-aws.html) | 遷移潛在客戶 | 
| 完成 Cloudera Replication Manager 要求和建議。 | 使用 Cloudera Professional Services 和您的 SI 準備將工作負載遷移到 AWS 上的 CDP 公有雲端環境。了解下列要求和建議可協助您避免在安裝 Replication Manager 服務期間和之後的常見問題。[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/prescriptive-guidance/latest/patterns/migrate-on-premises-cloudera-workloads-to-cloudera-data-platform-on-aws.html) | 遷移潛在客戶 | 

### 將 CDP 遷移至 AWS
<a name="migrate-cdp-to-aws"></a>


| 任務 | Description | 所需的技能 | 
| --- | --- | --- | 
| 使用 Cloudera Workload Manager 遷移開發/測試環境的第一個工作負載。 | 您的 SI 可協助您將第一個工作負載遷移至 AWS 雲端。這應該是非面向客戶或關鍵任務的應用程式。開發/測試遷移的理想候選項目是具有雲端可輕鬆擷取資料的應用程式，例如 CDP Data Engineering 工作負載。這是一種暫時性工作負載，與 CDP Data Warehouse 工作負載等持續性工作負載相比，存取它的使用者通常較少，而 CDP Data Warehouse 工作負載可能有許多需要不間斷存取的使用者。Data Engineering 工作負載並非持久性，如果發生錯誤，這可將業務影響降至最低。不過，這些任務對於生產報告至關重要，因此請先排定低影響資料工程工作負載的優先順序。 | 遷移潛在客戶 | 
| 視需要重複遷移步驟。 | Cloudera Workload Manager 可協助識別最適合雲端的工作負載。它提供諸如雲端效能評分、目標環境的大小/容量計劃，以及複寫計劃的指標。遷移的最佳候選項目是季節性工作負載、臨機操作報告，以及不會耗用許多資源的間歇性任務。Cloudera Replication Manager 會將資料從內部部署移至雲端，以及從雲端移至內部部署。使用 Workload Manager 主動最佳化資料倉儲、資料工程和機器學習的工作負載、應用程式、效能和基礎設施容量。如需如何現代化資料倉儲的完整指南，請參閱 [Cloudera 網站](https://www.cloudera.com/content/dam/www/marketing/resources/webinars/modern-data-warehouse-fundamentals.png.landing.html)。 | Cloudera 中小企業 | 

## 相關資源
<a name="migrate-on-premises-cloudera-workloads-to-cloudera-data-platform-on-aws-resources"></a>

Cloudera 文件：
+ [向 CDP、Cloudera Manager 和 Replication Manager 註冊傳統叢集：](https://docs.cloudera.com/replication-manager/cloud/operations/topics/rm-requirements-for-bdr-cdh-clusters.html)
  + [管理主控台](https://docs.cloudera.com/management-console/cloud/overview/topics/mc-management-console.html)
  + [Replication Manager hive 複寫](https://docs.cloudera.com/replication-manager/cloud/core-concepts/topics/rm-replication-of-data-using-hive.html)
+ [Sentry 複寫](https://docs.cloudera.com/replication-manager/cloud/core-concepts/topics/rm-sentry-policy-replication.html) 
+ [Sentry 許可](https://docs.cloudera.com/replication-manager/cloud/core-concepts/topics/rm-sentry-ranger-permissions.html)
+ [Data Hub 叢集規劃檢查清單](https://docs.cloudera.com/data-hub/cloud/cluster-planning/topics/dh-cluster-checklist.html)
+ [Workload Manager 架構](https://docs.cloudera.com/workload-manager/cloud/configuration/topics/wm-public-architecture-wm.html)
+ [複寫管理員需求](https://docs.cloudera.com/replication-manager/cloud/index.html)
+ [Cloudera 資料平台可觀測性](https://www.cloudera.com/products/observability.html)
+ [AWS 需求](https://docs.cloudera.com/cdp-public-cloud/cloud/requirements-aws/topics/mc-requirements-aws.html)

AWS 文件：
+ [雲端資料遷移](https://aws.amazon.com/cloud-data-migration/)