什么是 Microsoft Fabric 中的数据工程?

Microsoft Fabric 中的数据工程使用户能够设计、生成和维护基础结构和系统,使组织能够收集、存储、处理和分析大量数据。

Microsoft Fabric 提供了各种数据工程功能,以确保数据易于访问、组织有序且质量高。 在数据工程主页中,可以:

  • 使用湖屋创建和管理数据

  • 设计将数据复制到湖屋的管道

  • 使用 Spark 作业定义将批处理/流式处理作业提交到 Spark 群集

  • 使用笔记本编写用于数据引入、准备和转换的代码

    显示数据工程对象的 屏幕截图。

Lakehouse

Lakehouses 是数据体系结构,允许组织使用各种工具和框架在单个位置存储和管理结构化和非结构化数据,以处理和分析这些数据。 这些工具和框架可以包括基于 SQL 的查询和分析,以及机器学习和其他高级分析技术。

Apache Spark 作业定义

Spark 作业定义是一组说明,用于定义如何在 Spark 群集上执行作业。 它包括输入和输出数据源、转换和 Spark 应用程序的配置设置等信息。 Spark 作业定义允许将批处理/流式处理作业提交到 Spark 群集,将不同的转换逻辑应用到 Lakehouse 上托管的数据以及其他许多操作。

笔记本

笔记本是一种交互式计算环境,允许用户创建和共享包含实时代码、公式、可视化效果和叙述文本的文档。 它们允许用户以各种编程语言(包括 Python、R 和 Scala)编写和执行代码。 可以使用笔记本执行数据引入、准备、分析和其他与数据相关的任务。

数据管道

数据管道是一系列步骤,可以收集、处理数据并将其从原始形式转换为可用于分析和决策的格式。 它们是数据工程的关键组成部分,因为它们提供了一种方法,以可靠、可缩放且高效的方式将数据从源移动到目标。

注册 Fabric 试用版时,可以免费在 Microsoft Fabric 中使用数据工程。 你还可以购买 Microsoft Fabric 容量Fabric 预留容量

数据工程入门: