本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 数据集成与分析
<a name="rise-data-integration-analytics"></a>

此部分介绍了与 RISE with SAP 相关的数据集成与分析

**Topics**
+ [

# 数据集成
](rise-data-integration.md)
+ [

# 数据分析
](rise-data-analytics.md)

# 数据集成
<a name="rise-data-integration"></a>

RISE with SAP 数据集成可扩展性 AWS 是一个技术框架，可在 SAP 系统、 AWS 服务和第三方解决方案之间实现数据流动。这种集成架构提供了标准化 APIs、连接器和协议，用于建立安全的通信渠道，满足了现代云环境中企业数据无缝集成的关键需求。

RISE with SAP 与数据集成的可扩展性框架概述了两种主要的数据处理与集成机制。

**Topics**
+ [

# 数据复制
](rise-data-replication.md)
+ [

# 使用 AWS 服务复制数据
](rise-data-replication-awsmanaged.md)
+ [

# 使用 SAP 服务复制数据
](rise-data-replication-sap.md)
+ [

# 使用 Partner Solutions 复制数据
](rise-data-replication-partner.md)
+ [

# 使用 AWS 服务进行数据联合
](rise-data-federation.md)

# 数据复制
<a name="rise-data-replication"></a>

从 SAP 复制数据是使数据能够用于报告、分析以及与其他系统集成的关键步骤。以下参考架构说明了如何在 AWS中执行此操作。

![\[总体数据复制\]](http://docs.aws.amazon.com/zh_cn/sap/latest/general/images/rise-data-replication.png)


# 使用 AWS 服务复制数据
<a name="rise-data-replication-awsmanaged"></a>

![\[使用托管服务进行数据复制\]](http://docs.aws.amazon.com/zh_cn/sap/latest/general/images/rise-data-replication-aws-services.png)


 ** AWS Glue** 

 [AWS G](https://aws.amazon.com/glue/) lue 是一项无服务器数据集成服务，可让分析用户轻松发现、准备、移动和整合来自多个来源的数据。借 AWS 助 Glue，您可以在集中式数据目录中使用 OData 和管理您的数据，发现并连接到 SAP。您可以直观地创建、运行和监控“提取、转换、加载（ETL）”管道，以将 SAP 数据加载到数据湖和数据仓库中。

[ OData 使用 Glue 连接到 SAP](https://docs.aws.amazon.com/glue/latest/dg/connecting-to-data-sap-odata.html) 用户指南提供了有关设置 Glue ETL 作业、配置 SAP OData 连接和从 SAP 读取数据（包括处理增量传输）的全面说明。

 [AWS Glue Zero-etl](https://docs.aws.amazon.com/glue/latest/dg/zero-etl-using.html) 是一组完全托管的集成 AWS ，它最大限度地减少了为常见的摄取和复制用例构建 ETL 数据管道的需求。它在 Amazon SageMaker Lakehouse 和 Amazon Redshift 中提供来自多个运营、交易和应用程序来源的数据。利用 SAP OData 连接器，您可以从 SAP 创建完整的数据复制作业，包括完全托管的复制（插入、更新和删除）以及架构演进。

 AWS Glue 和 Glue Zero-etl 在数据集成中扮演着不同的角色，它们都为不同的用例提供了独特的优势。而 AWS Glue 在复杂的 ETL 操作、数据发现、准备和提取方面表现出色，尤其适用于基于 SAP ODP 的复制等特殊场景。 AWS Glue Zero-etl 旨在为完全托管的数据复制场景提供更简化的无代码解决方案。

 AWS Glue 需要更多的动手管理，包括代码部署和维护，但它为数据转换过程提供了更大的灵活性和控制力。 AWS Glue 的性能因其无服务器横向扩展 Apache Spark 环境而得到增强，该环境允许您为可扩展计算分配数据处理单元 (DPUs)。进而支持并行处理和事件驱动型执行。

# 使用 SAP 服务复制数据
<a name="rise-data-replication-sap"></a>

![\[使用 SAP 服务进行数据复制\]](http://docs.aws.amazon.com/zh_cn/sap/latest/general/images/rise-data-replication-sap-services.png)


 **SAP BDC/Datasphere** 

 [SAP Datasphere](https://www.sap.com/products/data-cloud/datasphere.html) 提供多种连接类型，例如 SAP ABAP 连接、SAP ECC 连接、支持 RFC 和 ODP 协议的 SAP S/4HANA 云连接。请参阅 [SAP BDC/Datasphere 文档](https://help.sap.com/docs/SAP_DATASPHERE/be5967d099974c69b77f4549425ca4c0/eb85e157ab654152bd68a8714036e463.html)，选择最适当的连接来复制 SAP 数据。使用 [[Amazon Simple Storage 连接（Amazon S3）] 的高级出站集成](https://help.sap.com/docs/SAP_DATASPHERE/be5967d099974c69b77f4549425ca4c0/a7b660a0a4ef4a4fbee57b44f5b2147d.html)，配置 SAP Datasphere 复制流程以将数据摄取到 Amazon S3。

 **SAP Data Services** 

 [SAP Data Services](https://www.sap.com/products/technology-platform/data-services.html) 提供多种连接，可从 SAP ECC 数据中复制数据。请参阅 [SAP Data Services 文档](https://help.sap.com/docs/SAP_DATA_SERVICES)，选择最适当的连接。SAP Data Services 提供 [Amazon Redshift 数据存储](https://help.sap.com/docs/SAP_DATA_SERVICES/af6d8e979d0f40c49175007e486257f0/731d7026ae3b4fef9ebadfbe23ffff12.html)和 [Amazon S3 数据存储](https://help.sap.com/docs/SAP_DATA_SERVICES/af6d8e979d0f40c49175007e486257f0/e1ed075446344b5ca098e2382cfca78d.html)以将数据摄取到 AWS。它还提供 [Amazon S3 file location protocol](https://help.sap.com/docs/SAP_DATA_SERVICES/af6d8e979d0f40c49175007e486257f0/a611106693ea422eb0b04705298516b7.html) 选项，例如加密类型、压缩类型、批处理大小、线程数、Amazon S3 存储类别等。

# 使用 Partner Solutions 复制数据
<a name="rise-data-replication-partner"></a>

 AWS Partner Solutions 提供具有增强功能的即用型解决方案，例如预先构建的连接器、专门的数据管道和高级优化技术，可降低复杂性并提高部署速度。

要找到并部署符合您的特定需求的解决方案，您可以探索 [AWS Partner Solutions Finder](https://partners.amazonaws.com/search/partners)，或浏览 [AWS Marketplace](https://aws.amazon.com/marketplace)，可在其中搜索并快速部署专为您的独特 SAP 使用案例定制的合作伙伴解决方案。

 **更多资源** 

[AWS上的 SAP 数据集成与管理指南](https://aws.amazon.com/solutions/guidance/sap-data-integration-and-management-on-aws/)提供了构建数据与分析解决方案所需的核心数据基础。它展示了如何使用 AWS 服务、SAP 产品和 AWS 合作伙伴解决方案， AWS 以实时或批处理模式将来自 SAP ERP 源系统的数据与变更数据捕获进行集成。它包括一个概述参考架构，展示了如何将 SAP 系统引入，此外还有五种详细的架构模式，这些模式使用上面重点介绍的 AWS 服务 OData、SAP 产品和合作伙伴解决方案来补充 SAP 支持的机制（例如 ODP、SLT 和 BTP）。 AWS AWS 

# 使用 AWS 服务进行数据联合
<a name="rise-data-federation"></a>

数据联合是一种数据管理策略，可实现实时分析、单一 source-of-trust、无重复数据或昂贵的管道。

当业务需求涉及整合交易数据、分析数据和机器学习数据时，建议从数据来源直接访问数据而不是复制数据，这样做可避免延迟、数据不一致及额外的存储成本。

在 SAP 和 AWS 服务的背景下，它允许组织无缝访问、合并和分析来自 SAP 系统和 AWS 云服务的数据。

![\[数据联合\]](http://docs.aws.amazon.com/zh_cn/sap/latest/general/images/rise-data-federation.png)


 **Amazon Athena** 

 [Amazon](https://aws.amazon.com/athena/) Athena 是一项无服务器、可扩展且灵活的交互式查询服务 AWS ，允许直接在 Amazon S3 中分析数据。存储在 Amazon S3 中的、来自多个数据来源的数据，可通过 Amazon Athena 进一步转换为表和视图，且可对这些表和视图进行查询，以结构化的方式复制有用的信息。

可通过 SAP Datasphere 连接的[数据联合](https://discovery-center.cloud.sap/missiondetail/3401/3441/)功能，从 SAP Datasphere 访问 Athena 中的数据。用户还可以使用 [Athena Federated Query](https://docs.aws.amazon.com/athena/latest/ug/connect-to-a-data-source.html) 来[查询 SAP HANA](https://aws.amazon.com/blogs/big-data/query-sap-hana-using-athena-federated-query-and-join-with-data-in-your-amazon-s3-data-lake/)，从 Athena 访问 SAP Datasphere 表和视图。

也可以使用 [Smart Data Access – Athena adapter](https://community.sap.com/t5/technology-blogs-by-sap/federating-queries-in-hana-cloud-from-amazon-athena-using-athena-api/ba-p/13476091) 将 Athena 配置为远程源，从而将数据联合到 SAP HANA Cloud。[Athena Federated Query 连接](https://aws.amazon.com/blogs/big-data/query-sap-hana-using-athena-federated-query-and-join-with-data-in-your-amazon-s3-data-lake/)还可用于从独立的 SAP HANA Cloud 环境中读取数据。

 **Amazon Redshift** 

 [Amazon Redshift](https://aws.amazon.com/redshift/) 是一项完全托管的 PB 级数据仓库服务，来自于。 AWS利用此服务，客户可构建自己的数据仓库，并创建用于分析和报告的数据模型。

 通过 SAP HANA Smart Data Integration（SDI）或 SAP Data Provisioning Agent，可实现从 Amazon Redshift 到 SAP Datasphere 的[数据联合](https://discovery-center.cloud.sap/missiondetail/3406/3446/)。此外，也可通过 Athena Federated Query 数据来源连接器，对 Amazon Redshift 数据进行联合操作。

 **更多资源** 

SAP 之间的[数据联合指南](https://aws.amazon.com/solutions/guidance/data-federation-between-sap-and-aws/) AWS 概述了 SAP 和 AWS 云分析服务之间联合数据的过程，使您能够建立数据网格架构。通过在 SAP 和 AWS. 之间联合数据，你可以轻松地以可扩展、安全且经济实惠的方式转换和可视化数据，从而为决策提供依据。

# 数据分析
<a name="rise-data-analytics"></a>

SAP 客户需要实时获取业务见解，以应对业务变化并利用尚未开发的商机。为此，客户需借助现代化的云原生解决方案，从夜间数据处理转变为实时分析。利用 AWS 和 SAP 解决方案，客户可以利用专门构建的分析服务，在各自的行业中获得竞争优势。

[数据湖、数据仓库](https://aws.amazon.com/compare/the-difference-between-a-data-warehouse-data-lake-and-data-mart/)和[湖仓](https://aws.amazon.com/sagemaker/lakehouse/)等现代数据架构提供了多种模式与服务组合，可帮助组织处理海量结构化数据与非结构化数据以进行分析和报告，同时也为人工智能（AI）、机器学习（ML）应用程序（包括生成式人工智能）奠定了坚实的基础。这些架构提供的构建数据块既能独立部署，也能相互补充，具体取决于需求和偏好。

**Topics**
+ [

# 数据湖架构
](rise-data-lake-architecture.md)
+ [

# 数据仓库架构
](rise-data-warehouse-architecture.md)

# 数据湖架构
<a name="rise-data-lake-architecture"></a>

[数据湖](https://aws.amazon.com/what-is/data-lake/)架构提供了构建块，用于演示如何使用分析和机器学习服务，合并和整合来自不同来源的 SAP 和非 SAP 数据。 AWS

利用数据湖，客户可以处理结构化数据和非结构化数据。它基于 “schema-on-read” 方法设计，这意味着数据可以以原始形式存储，并且仅在使用时应用架构或结构（即：创建财务报告）。结构在从数据来源读取数据时进行定义，此时会确定数据类型和长度。因此，存储与计算实现解耦，依托低成本存储方案来扩展至 PB 级规模，且成本仅为传统数据库成本的一小部分。

借助数据湖，组织可以执行各类分析任务，例如创建交互式控制面板、生成可视化见解、处理大规模数据、开展实时分析，以及在各类数据来源中实施机器学习算法。

![\[数据湖架构\]](http://docs.aws.amazon.com/zh_cn/sap/latest/general/images/rise-data-lake-architecture.png)


数据湖参考架构提供了三个不同的层，可将原始数据转化为有价值的见解：

 **原始层** 

原始层是数据湖中的初始层，基于 [Amazon S3](https://aws.amazon.com/s3/) 而构建，来自源系统的数据会以原始格式直接进入该层，而不经过任何转换。该层的数据用于确定变更以及需整合到下一层的数据，这是因为原始层将包含同一数据的多个版本（变更、完全加载等）。

从 SAP 提取的数据（通过 [SAP ODP OData](https://help.sap.com/docs/SAP_NETWEAVER_750/825e9222e7ad4fe1988c6cc600bda779/c1c48cd6d78d4afe8ceb6a1ddc481db1.html) 或其他机制）需要做好进一步处理的准备。提取的数据将被打包成多个文件（文件数由提取工具中的数据包大小或页面大小决定），因此，单次提取操作可能会生成多个文件。

 **扩充层** 

扩充层基于 [Amazon S3](https://aws.amazon.com/s3/) 构建，包含源 SAP 系统中数据的真实呈现以及逻辑删除内容，并以内置 [Apache Iceberg 格式](https://aws.amazon.com/what-is/apache-iceberg/)存储在 [Amazon S3 表类数据存储服务](https://aws.amazon.com/s3/features/tables/)中。Iceberg 表文件格式支持在 [Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/catalog-and-crawler.html) 中创建 [Glue 或 Athena 表](https://docs.aws.amazon.com/athena/latest/ug/understanding-tables-databases-and-the-data-catalog.html)，可实现插入、更新和删除等数据库类型操作，其中文件操作（如记录删除等）采用 Iceberg 文件格式进行处理。此外，Iceberg 表还支持[时间迁移](https://docs.aws.amazon.com/athena/latest/ug/querying-iceberg-time-travel-and-version-travel-queries.html)概念，能够查询特定时间点的数据。

来自原始层的数据会基于表键按正确顺序插入或更新至扩充层，并以原始格式保留（不进行任何转换或修改）。每条记录均需补充特定属性，例如提取时间和记录编号，此操作可通过 [AWS Glue 作业](https://docs.aws.amazon.com/glue/latest/dg/author-glue-job.html)实现。

 **精选层** 

精选层用于存储数据以供使用。在此层上，将物理删除已从来源中删除的记录。任何计算结果（如平均值、日期间隔等）或数据操作（如格式更改、从其他表中查找等）均可存储在此层以供使用。使用 AWS Glue 作业更新此层中的数据。基于这些数据表创建的 Amazon Athena 视图可通过 Amazon Quick Sight 或类似工具以供下游使用。

《[包含 SAP 和非 SAP 数据的数据湖 AWS 解决方案指南》](https://aws.amazon.com/solutions/guidance/data-lakes-with-sap-and-non-sap-data-on-aws/)提供了详细的架构、实施步骤以及用于快速跟踪 SAP 和非 SAP 数据数据湖实施的加速器。有关将数据从 SAP 提取到数据湖的各种可用方案，可参考前面的“数据集成”部分。

# 数据仓库架构
<a name="rise-data-warehouse-architecture"></a>

[数据仓库](https://aws.amazon.com/what-is/data-warehouse/)是基于 “schema-on-write” 方法的集中式存储库，它汇总来自多个来源（SAP 和非 SAP）的结构化历史数据，以实现高级分析、报告和商业智能 (BI)。它使组织能够使用针对复杂查询（而非事务处理）优化的架构，分析海量集成数据以做出明智的决策。

业务分析师、数据工程师、数据科学家和决策者可通过商业智能（BI）工具、SQL 客户端及其他分析应用程序访问数据仓库。架构包含多个层：用于呈现结果的前端客户端、用于数据访问与分析的分析引擎，以及用于数据加载与存储的数据库服务器。

数据以表和列的形式存储在数据库中，并按模式进行组织。数据仓库整合来自多个来源的数据，支持历史数据分析，并确保数据质量、一致性和准确性。将分析处理与事务数据库分开可以增强两个系统的性能，通过高效存储数据来支持报告、仪表板和分析工具，从而最大限度地减少 I/O 查询结果并将其快速提供给大量并发用户。

![\[数据仓库架构\]](http://docs.aws.amazon.com/zh_cn/sap/latest/general/images/rise-data-warehouse-architecture.png)


主要特征
+ 整合：将来自不同来源（例如，CRM、ERP）的数据整合到统一的模式中，解决格式或命名规范不一致的问题。
+ 时变：跟踪历史数据，支持数月或数年的趋势分析。
+ 以主题为导向：围绕销售或库存等业务领域（而非基于运营流程）组织数据。
+ 非易失性：数据在存储后保持静态；更新通过定期的提取、转换、加载（ETL）流程（而非实时更改）进行。
+ 成本优化：SAP 数据与非 SAP 数据存储在成本优化的架构中。

架构组件
+ ETL 工具：自动完成从来源提取数据、转换（清洗与标准化）数据并将数据加载至仓库这一流程。
+ 存储层：
  + 结构化数据的关系数据库
  + 用于多维分析的 OLAP（联系分析处理）立方体
+ 元数据：描述数据来源、转换和关系。
+ 访问工具：SQL 客户端、BI 平台和机器学习接口。

![\[数据仓库层\]](http://docs.aws.amazon.com/zh_cn/sap/latest/general/images/rise-data-warehouse-layers.png)


数据仓库利用分层架构对不同粒度的数据进行组织，这有助于确保数据的一致性和灵活性。最常见的数据仓库架构层包括源层、暂存层、仓库层和使用层。SAP 系统的数据仓库同样采用基于层的架构。在构建 SAP 云数据仓库的背景下 AWS。该架构涉及用于数据采集、存储、转换和消费的几个关键层和组件。

 **企业级存储** 

Amazon S3 Intelligent-Tiering 是一种可自动优化存储成本的存储类别，可根据数据访问模式的变化，在不同访问层间迁移数据。这可确保频繁访问的数据随时可用，同时将访问频率较低的数据或“冷”数据存储在成本更低的层中。有关更多详细信息，您可以参阅 [Amazon S3 存储类别](https://aws.amazon.com/s3/storage-classes/#topic-0)。

 **操作型数据存储层** 

Amazon Redshift 用于实现操作型数据存储、传播和数据集市功能。提供脚本以创建数据模式并部署数据定义语言（DDL），且包含加载 SAP 源数据所需的结构。 DDLs 可以对其进行自定义，使其包含特定于 SAP 的字段。

 **数据传播层** 

通过 Glue 作业加载到 S3 中的增量数据用于生成缓慢变化的维度类型 2 (SCD2) 表，这些表保留了完整的更改历史记录。

 **数据集市层** 

利用 Redshift 中的实体化视图构建结构化的数据集市模型。事务数据通过主数据（属性和文本）进行扩充，从而构建出可直接用于数据使用的分析模型。

《[在 AWS 解决方案上构建 SAP 数据仓库指南](https://aws.amazon.com/solutions/guidance/building-a-sap-cloud-data-warehouse-on-aws/)》提供了详细的架构、实施步骤以及快速跟踪 SAP 数据仓库实施的加速措施。