你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

SAP 数据集成示例体系结构

项目
06/25/2024

本文是“SAP 扩展和创新数据：最佳做法”一文系列的一部分。

本文介绍从源 SAP 系统到下游目标的 SAP 数据流。每个目标都在企业的数据旅程中提供一个目的。体系结构设计使用 Azure 数据服务扩展 SAP 解决方案。使用 Azure Synapse Analytics 构建新式数据平台，以引入、处理、存储、提供服务和可视化来自各种源的数据。

Apache Spark® 和 Apache Kafka® 是美国和/或其他国家/地区的 Apache Software Foundation 的注册商标或商标。使用这些标记并不暗示获得 Apache Software Foundation 的认可。

体系结构

下图是 Azure 上的 SAP 数据集成的示例体系结构。使用此示例体系结构作为起点。

下载此体系结构的 Visio 文件。

数据流

以下数据流对应于上图：

数据源。 系统连接到数据源以启用数据引入和分析。
数据引入。 Azure 数据工厂和 Synapse 管道启用数据集成。
数据存储。 数据存储在基于Azure Blob 存储的 Azure Data Lake Storage 中。
数据转换和使用。 数据分阶段转换，使用 Power BI 的报表或通过专用终结点启用消耗，以便通过专用链接安全地访问数据。
数据可视化和报告。 可以使用Power BI 服务或外部应用程序访问报表并可视化数据。

数据源

源 SAP 系统可以使用 Azure 上的 SAP RISE 或 Azure 上的 SAP 虚拟机在本地运行。它们可以是本地 SQL 服务器、JSON、XML 和日志文件中的半结构化数据，也可以是其他数据仓库系统。 Synapse 管道复制活动可以引入此原始数据。源系统托管在本地、私有云或公有云中，或者托管在 SAP RISE 订阅中。

SAP 联机事务数据处理（OLTP）和联机分析处理（OLAP）系统是业务数据和事务的中心存储库。从驻留在这些业务数据存储库中的数据中提取、存储和引入数据，以获取价值和见解。

使用 Azure 服务，可以从任何源位置集成数据。根据托管位置、安全控制、操作标准、带宽和合同义务规划提取配置。

数据引入

在此体系结构中，数据是使用 Synapse 管道引入的，并使用 Synapse Spark 池的 Data Lake 功能分阶段处理数据。

数据工厂和 Synapse 管道使用以下 SAP 连接器提取数据：

有关更多信息，请参见以下资源：

数据存储

在 Data Lake Storage Gen2 中，Azure 存储是构建 Azure 上的企业数据湖的基础。借助 Data Lake Storage Gen2，可以管理大量数据，因为它服务了数千兆字节的信息，同时保持数百千兆位的吞吐量。

将数据引入数据湖后静态加密。使用客户管理的密钥进一步增强加密并增加访问控制灵活性。

有关详细信息，请参阅 Data Lake Storage Gen2 简介和最佳做法。

数据转换和使用

在此体系结构中，从数据源引入的数据存储在 Data Lake Storage Gen2 位置。

可以使用自承载集成运行时（SHIR）在本地环境和云中的数据存储之间管理和运行复制活动。始终使 SHIR 系统靠近源系统。

使用特定于阶段的 Data Lake Storage Gen2 目录（如铜牌、银牌和黄金）将数据存储在存储帐户中。

铜牌： Synapse 管道复制从源系统引入数据的活动。此引入的数据使用 Data Lake 的铜牌目录以原始格式存储。
Silver： Synapse Spark 池运行数据质量规则来清理原始数据。此扩充数据存储在 Data Lake 的 Silver 目录中。
黄金： 清理过程后，Spark 池会将任何必需的规范化、数据转换和业务规则应用于 Silver 目录数据。此转换后的数据存储在 Data Lake 的 Gold 目录中。

Synapse Apache Spark 到 Synapse SQL 连接器将规范化数据推送到 Synapse SQL 池，供下游应用程序和 Reporting Services（如 Power BI）使用。此连接器以最佳方式在无服务器 Apache Spark 池与 Azure Synapse Analytics 工作区中的 SQL 池之间传输数据。

对于存储帐户，专用终结点为客户提供通过专用链接安全地访问虚拟网络上的数据。专用终结点使用存储帐户服务的虚拟网络地址空间中的 IP 地址。虚拟网络上的客户与存储帐户之间的网络流量通过虚拟网络和Microsoft主干网络上的专用链接进行遍历，以消除对公共 Internet 的暴露。

数据可视化和报告

在Power BI 服务中，使用 DirectQuery 从 Synapse SQL 池安全地提取数据。

在专用虚拟网络上的虚拟机中安装的数据网关提供Power BI 服务和 Synapse SQL 池之间的连接平台。为了安全连接，数据网关在同一虚拟网络中使用专用终结点。

外部应用程序可以使用连接到虚拟网络的专用终结点从 Synapse 无服务器池或专用 SQL 池访问数据。

组件

此体系结构使用多个 Azure 服务和功能。

数据分析

Azure Synapse Analytics 是引入、处理和分析数据的核心服务。
Data Lake Storage Gen2 基于存储服务构建，提供其他服务在存储和处理数据时使用的数据湖功能。
Azure Synapse Analytics 管道将数据从源复制到 Data Lake Storage Gen2 位置。
Apache Spark 清理、规范化和处理从源位置引入的数据。

存储

Azure Synapse Analytics 专用 SQL 池在处理和规范化数据后提供数据仓库功能，并已准备好供客户和应用程序使用。
使用 Azure Synapse Analytics 无服务器 SQL 池，可以快速查询和分析已处理和规范化的数据。

网络和负载均衡器

Azure Synapse Analytics 托管的虚拟网络为 Azure Synapse 工作区创建隔离和管理的环境，因此无需管理工作区资源的网络配置。
Azure Synapse 托管的专用终结点使用 Microsoft 主干网络建立到 Azure 资源的专用链接，并在 Azure Synapse 工作区和其他 Azure 资源之间路由流量。
Azure 虚拟网络为不属于 Azure Synapse 工作区的 Azure 资源提供专用网络功能。可以管理资源之间的访问、安全性和路由。
Azure 专用终结点使用解决方案虚拟网络中的专用 IP 地址将服务连接到虚拟网络，从而连接到 Azure 托管服务。此连接可保护 Azure Synapse 工作区和其他 Azure 服务（例如存储、Azure Cosmos DB、Azure SQL 数据库或你自己的Azure 专用链接服务）之间的网络。

正在报告

Power BI 对已处理的数据执行高级分析和见解。

通过