

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 数据仓库架构
<a name="rise-data-warehouse-architecture"></a>

[数据仓库](https://aws.amazon.com/what-is/data-warehouse/)是基于 “schema-on-write” 方法的集中式存储库，它汇总来自多个来源（SAP 和非 SAP）的结构化历史数据，以实现高级分析、报告和商业智能 (BI)。它使组织能够使用针对复杂查询（而非事务处理）优化的架构，分析海量集成数据以做出明智的决策。

业务分析师、数据工程师、数据科学家和决策者可通过商业智能（BI）工具、SQL 客户端及其他分析应用程序访问数据仓库。架构包含多个层：用于呈现结果的前端客户端、用于数据访问与分析的分析引擎，以及用于数据加载与存储的数据库服务器。

数据以表和列的形式存储在数据库中，并按模式进行组织。数据仓库整合来自多个来源的数据，支持历史数据分析，并确保数据质量、一致性和准确性。将分析处理与事务数据库分开可以增强两个系统的性能，通过高效存储数据来支持报告、仪表板和分析工具，从而最大限度地减少 I/O 查询结果并将其快速提供给大量并发用户。

![\[数据仓库架构\]](http://docs.aws.amazon.com/zh_cn/sap/latest/general/images/rise-data-warehouse-architecture.png)


主要特征
+ 整合：将来自不同来源（例如，CRM、ERP）的数据整合到统一的模式中，解决格式或命名规范不一致的问题。
+ 时变：跟踪历史数据，支持数月或数年的趋势分析。
+ 以主题为导向：围绕销售或库存等业务领域（而非基于运营流程）组织数据。
+ 非易失性：数据在存储后保持静态；更新通过定期的提取、转换、加载（ETL）流程（而非实时更改）进行。
+ 成本优化：SAP 数据与非 SAP 数据存储在成本优化的架构中。

架构组件
+ ETL 工具：自动完成从来源提取数据、转换（清洗与标准化）数据并将数据加载至仓库这一流程。
+ 存储层：
  + 结构化数据的关系数据库
  + 用于多维分析的 OLAP（联系分析处理）立方体
+ 元数据：描述数据来源、转换和关系。
+ 访问工具：SQL 客户端、BI 平台和机器学习接口。

![\[数据仓库层\]](http://docs.aws.amazon.com/zh_cn/sap/latest/general/images/rise-data-warehouse-layers.png)


数据仓库利用分层架构对不同粒度的数据进行组织，这有助于确保数据的一致性和灵活性。最常见的数据仓库架构层包括源层、暂存层、仓库层和使用层。SAP 系统的数据仓库同样采用基于层的架构。在构建 SAP 云数据仓库的背景下 AWS。该架构涉及用于数据采集、存储、转换和消费的几个关键层和组件。

 **企业级存储** 

Amazon S3 Intelligent-Tiering 是一种可自动优化存储成本的存储类别，可根据数据访问模式的变化，在不同访问层间迁移数据。这可确保频繁访问的数据随时可用，同时将访问频率较低的数据或“冷”数据存储在成本更低的层中。有关更多详细信息，您可以参阅 [Amazon S3 存储类别](https://aws.amazon.com/s3/storage-classes/#topic-0)。

 **操作型数据存储层** 

Amazon Redshift 用于实现操作型数据存储、传播和数据集市功能。提供脚本以创建数据模式并部署数据定义语言（DDL），且包含加载 SAP 源数据所需的结构。 DDLs 可以对其进行自定义，使其包含特定于 SAP 的字段。

 **数据传播层** 

通过 Glue 作业加载到 S3 中的增量数据用于生成缓慢变化的维度类型 2 (SCD2) 表，这些表保留了完整的更改历史记录。

 **数据集市层** 

利用 Redshift 中的实体化视图构建结构化的数据集市模型。事务数据通过主数据（属性和文本）进行扩充，从而构建出可直接用于数据使用的分析模型。

《[在 AWS 解决方案上构建 SAP 数据仓库指南](https://aws.amazon.com/solutions/guidance/building-a-sap-cloud-data-warehouse-on-aws/)》提供了详细的架构、实施步骤以及快速跟踪 SAP 数据仓库实施的加速措施。