你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用面向中小型企业的新式数据仓库

Azure Data Lake
Azure SQL 数据库
Microsoft Fabric

本文介绍中小型企业 (SMB) 在不过度增加当前预算和技能集的前提下实现旧数据存储现代化和探索大数据工具和功能的多种方式。 这些全面的数据仓库解决方案可以与 Azure 机器学习、Azure AI 服务、Microsoft Power Platform、Microsoft Dynamics 365 和其他 Microsoft 技术无缝集成。 这些解决方案在 Microsoft Fabric 上提供完全托管的软件即服务 (SaaS) 数据平台的简单入口点,可随着需求的增长而扩展。

使用本地 SQL Server 进行 500 GB 以下数据仓库解决方案的 SMB 可能会从使用此模式中受益。 他们使用各种工具将数据引入到其数据仓库解决方案中,包括 SQL Server Integration Services (SSIS)、SQL Server Analysis Services (SSAS)、SQL Server Reporting Services (SSRS)、常见 SQL 存储过程、外部提取、转换和加载 (ETL) 以及提取、加载、转换 (ELT) 工具、SQL Server 代理作业和 SQL 快照复制。 数据同步操作通常基于快照,每天执行一次,并且没有实时报告要求。

简化的体系结构

说明简化的 SMB 体系结构的关系图。

下载此体系结构的 Visio 文件

概念性现代化机会涉及将旧数据仓库解决方案转换为 Azure SQL 数据库、Azure SQL 托管实例和 Fabric 的组合。 此策略确保与传统的 SQL Server 和 SQL 客户端工具(如 SQL Server Management Studio (SSMS) 广泛兼容。 它还为现有流程提供直接迁移选项,并且要求支持团队进行最低限度的技能提升。 该解决方案是实现全面现代化的初始步骤,随着数据仓库的扩展和团队技能的增长,它使组织能够全面采用湖屋方法。

体系结构

该图显示了一个旨在满足未来需求的扩展体系结构。

下载此体系结构的 Visio 文件

旧版 SMB 数据仓库可能包含多种类型的数据:

  • 非结构化数据,如文档和图形。

  • 半结构化数据,例如日志、CSV、JSON 和 XML 文件。

  • 结构化关系数据,包括使用存储过程进行 ETL 和 ELT 活动的数据库。

数据流

以下数据流与上图相对应。 它演示如何引入所选数据类型:

  1. 构造数据管道或 Azure 数据工厂管道协调将事务数据引入数据仓库解决方案中。

    • 管道将迁移或部分重构的旧数据库和 SSIS 包流编排到 SQL 数据库和 SQL 托管实例。 你可以快速实施这种直接迁移方法,这样可以确保从本地 SQL 解决方案无缝过渡到未来的 Fabric SaaS 环境。 在提升和移动后,可以增量实现数据库现代化。

    • 管道可以将非结构化、半结构化和结构化数据传递到 Azure Data Lake Storage,以与其他源进行集中存储和分析。 如果融合数据比重新构建数据平台更具业务优势,请采用这种方法。

  2. 使用 Fabric 无服务器分析工具,Microsoft Dynamics 365 数据源可在增强数据集上生成商业智能 (BI) 仪表板。 可以将融合的已处理数据返回到 Dynamics,并用其在 Fabric 中进行进一步分析。

  3. 流式处理源中的实时数据可通过 Azure 事件中心或其他流式处理解决方案进入系统。 对于具有实时仪表板要求的客户,Fabric 实施分析可以立即分析此数据。

  4. 通过使用 Data Lake Store 快捷方式,数据可以引入到集中式 Fabric OneLake 中以进行进一步的分析、存储和报告。 此过程可实现就地分析并促进下游消耗。

  5. 无服务器分析工具(如 SQL 分析终结点和 Fabric Spark 功能)可在 Fabric 内部按需使用,并且不需要任何预配的资源。 无服务器分析工具非常适合:

    • OneLake 数据的 ETL 和 ELT 活动。

    • 通过 DirectLake 功能向 Power BI 报表提供奖牌体系结构的 gold 层。

    • T-SQL 格式或 Python 中的即席数据科学探索。

    • 针对数据仓库实体的早期原型设计。

Fabric 与多资源数据集的潜在使用者紧密集成,包括 Power BI 前端报表、机器学习、Power Apps、Azure 逻辑应用、Azure Functions 和 Azure 应用程序服务 Web 应用。

组件

  • Fabric 是一种分析服务,它结合了数据工程、数据仓库、数据科学以及实时数据和 BI 功能。 在此解决方案中,Fabric 数据工程功能会为数据工程师、数据科学家、数据分析师和 BI 专业人员提供协作平台。 该关键组件由无服务器计算引擎提供支持,并通过生成分配给客户的见解来提供业务价值。

  • SQL 数据库SQL 托管实例是基于云的关系数据库服务。 SQL 数据库和 SQL 托管实例使用 SSMS 来开发和维护旧项目,如存储过程。 在此解决方案中,这些服务托管企业数据仓库,并且使用存储过程或外部包执行 ETL 和 ELT 活动。 SQL 数据库和 SQL 托管实例是平台即服务 (PaaS) 环境,可用于满足高可用性和灾难恢复要求。 请确保选择符合要求的 SKU。 有关详细信息,请参阅 SQL 数据库的高可用性SQL 托管实例的高可用性

  • SSMS 是用于管理 SQL 基础结构的集成环境,可用来开发和维护旧项目,例如存储过程。

  • 事件中心是一种实时数据流式处理平台和事件引入服务。 事件中心可与 Azure 数据服务无缝集成,并且可以从任何位置引入数据。

备选方法

  • 你可以使用 Azure IoT 中心替换或补充事件中心。 根据流式处理数据的来源,以及你是否需要克隆和与报告设备的双向通信,选择你的解决方案。

  • 你可以使用 Fabric 数据管道而不是数据工厂管道来进行数据集成。 你的决定将取决于若干因素。 有关详细信息,请参阅从 Azure 数据工厂到 Fabric 中的数据工厂

  • 你可以使用 Fabric 仓库而不是 SQL 数据库或 SQL 托管实例来存储企业数据。 本文为想要实现数据仓库现代化的客户设定上市时间优先顺序。 有关 Fabric 的数据存储选项的更多信息,请参阅 Fabric 决策指南

方案详细信息

当 SMB 为云实现本地数据仓库现代化时,他们可以采用大数据工具来实现未来的可伸缩性,或者使用传统的基于 SQL 的解决方案来实现成本效益、轻松维护和顺利转换。 混合方法是两全其美的方法,并且能够实现轻松迁移现有数据资产,同时使用新式工具和 AI 功能。 SMB 可以在云中持续运行基于 SQL 的数据源,并根据需要对其进行现代化。

本文介绍了一些策略,供中小企业在不超出当前预算和技能集的情况下实现旧数据存储的现代化,并探索大数据工具和功能。 这些全面的 Azure 数据仓库解决方案与 Azure 和 Microsoft 服务无缝集成,包括 AI 服务、Microsoft Dynamics 365 和 Microsoft Power Platform。

可能的用例

  • 迁移小于 1 TB 并使用 SSIS 包编排存储过程的传统本地关系数据仓库。

  • 使用批处理和实时数据湖源将现有 Dynamics 或 Microsoft Power Platform Dataverse 数据网格化。

  • 使用创新技术来与集中化的 Azure Data Lake Storage Gen2 数据交互。 这些技术包括无服务器分析、知识挖掘、域之间的数据融合和最终用户数据探索,包括 Fabric Copilot。

  • 设置电子商务公司以采用数据仓库来优化其运营。

不建议将此解决方案用于:

  • 数据仓库的绿地部署

  • 迁移大于 1 TB 或预计在一年内达到该大小的本地数据仓库。

注意事项

这些注意事项实施 Azure 架构良好的框架的支柱原则,即一套可用于改善工作负荷质量的指导原则。 有关详细信息,请参阅 Microsoft Azure 架构良好的框架

成本优化

成本优化是关于寻找减少不必要的费用和提高运营效率的方法。 有关详细信息,请参阅成本优化设计评审核对清单

  • Azure 定价计算器允许你修改值,以了解特定要求如何影响成本。 你可以参阅 Azure 定价计算器中的 SMB 数据仓库方案的定价示例。

  • SQL 数据库定价取决于所选的计算和服务层级以及 vCore 数和数据库事务单位数。 该示例介绍了一个数据库,该数据库具有预配的计算和八个 vCore,并假设你需要在 SQL 数据库中运行存储过程。

  • Data Lake Storage Gen2 定价取决于存储的数据量以及使用数据的频率。 示例定价涵盖 1 TB 的数据存储和其他事务性假设。 1 TB 是指数据湖的大小,而不是原始的旧数据库大小。

  • Fabric 定价取决于 Fabric F 容量价格或人均保费价格。 无服务器功能使用购买的专用容量中的 CPU 和内存。

  • 事件中心定价取决于所选分层、预配的吞吐量单位数和收到的入口流量。 该示例假设标准层中的一个吞吐量单位每月处理超过一百万个事件。

作者

本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。

主要作者:

要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。

后续步骤