数据工厂端到端方案:简介和体系结构
本教程通过在一小时内提供完整数据集成方案的分步指导,帮助你加速 Microsoft Fabric 中数据工厂的评估过程。 本教程结束时,你将了解到数据工厂的价值和关键功能,并了解如何完成常见的端到端数据集成方案。
概述:为什么要在 Microsoft Fabric 中使用数据工厂?
本部分可帮助你大致了解 Fabric 的作用,以及数据工厂在其中所扮演的角色。
了解 Microsoft Fabric 的价值
Microsoft Fabric 提供一站式商店,满足每个企业的所有分析需求。 它涵盖了完整的服务范围,包括数据移动、数据湖、数据工程、数据集成和数据科学、实时分析和商业智能。 使用 Fabric 时,无需将多个供应商的不同服务拼凑在一起。 相反,用户喜欢易于理解、载入、创建和操作的端到端、高度集成、单一且全面的产品。
了解 Microsoft Fabric 中数据工厂的价值
Fabric 中的数据工厂将 Power Query 的易用性与 Azure 数据工厂的规模和强大功能相结合。 它将这两种产品的最佳功能结合到一个统一的体验中。 目标是确保工厂中的数据集成适用于民众和专业数据开发人员。 它提供低代码、支持 AI 的数据准备和转换体验、PB 级转换、数百个具有混合多云连接的连接器。 Purview 提供治理,该服务具有企业规模数据/操作承诺、CI/CD、应用程序生命周期管理和监视功能。
简介 - 了解数据工厂的三个关键功能
- 数据引入:管道中的复制活动使你可以将 PB 级数据从数百个数据源移动到数据 Lakehouse 中,以便进行进一步处理。
- 数据转换和准备:Dataflow gen2 提供了一个低代码接口,用于使用超过 300 个数据转换来转换数据,并且能够将转换后的结果加载到多个目标中,例如 Azure SQL 数据库、Lakehouse 等。
- 端到端集成流自动化:管道提供活动业务流程,包括 复制、数据流和笔记本活动等。 这使你可以一站式管理所有活动。 管道中的活动可以链接在一起来按顺序执行,也可以独立并行执行。
在此端到端数据集成用例中,你将了解:
- 如何在管道中使用复制助手引入数据
- 如何使用具有无代码体验的数据流转换数据,或者通过编写自己的代码来使用脚本或笔记本活动处理数据
- 如何使用包含触发器和灵活控制流活动的管道自动执行整个端到端数据集成流。
体系结构
在接下来的 50 分钟内,你的任务是完成端到端的数据集成方案。 这包括将源存储中的原始数据引入 Lakehouse 的 Bronze 表,处理所有数据,将其移动到 Data Lakehouse 的 Gold 表,在完成所有作业后发送电子邮件以通知你,最后,将整个流设置为按计划运行。
此方案分为三个模块:
- 模块 1:使用数据工厂创建管道,将 Blob 存储中的原始数据引入 Data Lakehouse 中的 Bronze 表。
- 模块 2:使用数据工厂中的数据流转换数据,以处理 Bronze 表的原始数据,并将其移动到 Data Lakehouse 中的 Gold 表。
- 模块 3:完成第一个数据集成旅程,在完成所有作业后发送电子邮件通知你,最后,将整个流设置为按计划运行。
使用示例数据集 NYC-Taxi 作为本教程的数据源。 完成后,你将能够使用 Microsoft Fabric 中的数据工厂深入了解特定时间段内出租车费的每日折扣信息。
相关内容
在介绍我们在 Microsoft Fabric 中使用数据工厂进行首次数据集成的端到端教程中,你已了解:
- Microsoft Fabric 的价值和作用
- 结构中数据工厂的值和角色
- 数据工厂的关键功能
- 本教程将介绍的内容
请继续下一部分,创建数据管道。