Microsoft Fabric 术语
了解 Microsoft Fabric 中使用的术语的定义,包括特定于 Fabric 数据仓库、Fabric 数据工程、Fabric 数据科学、Real-Time 智能、数据工厂和 Power BI 的术语。
常规术语
容量:容量是在给定时间可用的一组专用资源。 容量定义资源执行活动或生成输出的能力。 不同项在特定时间使用不同的容量。 Fabric 通过 Fabric SKU 和试用版提供容量。 有关详细信息,请参阅 什么是容量?
体验:针对特定功能的能力集合。 Fabric 体验包括 Fabric 数据仓库、Fabric 数据工程、Fabric 数据科学、Real-Time 智能、数据工厂和 Power BI。
项:一个项就是体验中的一组功能。 用户可以创建、编辑和删除它们。 每个项类型提供不同的功能。 例如,数据工程体验包括湖屋、笔记本和 Spark 作业定义项。
租户:一个租户是组织的单个 Fabric 实例,与 Microsoft Entra ID 保持一致。
工作区: 工作区是一个集合,它将不同的功能整合在一个设计用于协作的单一环境中。 它充当一个容器,利用执行工作所需的容量,并控制谁可以访问其中的项目。 例如,在工作区中,用户创建报表、笔记本、语义模型等。有关详细信息,请参阅 工作区 一文。
Fabric 数据工程
湖屋:湖屋是文件、文件夹和表的集合,它们表示 Apache Spark 引擎和 SQL 引擎在进行大数据处理时使用的数据湖上的数据库。 使用开源 Delta 格式的表时,湖屋包含 ACID 事务的增强功能。 湖屋项托管在 Microsoft OneLake 中的唯一工作区文件夹中。 它包含以各种格式(结构化和非结构化)存在的文件,并且这些文件组织在文件夹和子文件夹中。 有关详细信息,请参阅 什么是湖屋?
笔记本:Fabric 笔记本是一种具有丰富功能的多语言交互式编程工具。 其中包括创作代码和 Markdown、运行和监视 Spark 作业、查看和可视化结果以及与团队协作。 它可帮助数据工程师和数据科学家探索和处理数据,以及构建具有代码和低代码体验的机器学习试验。 可以轻松地将其转换为管道活动以用于业务流程。
Spark 应用程序: Apache Spark 应用程序是由用户使用 Spark API 语言之一(Scala、Python、Spark SQL 或 Java)或Microsoft添加的语言(使用 C# 或 F# 的.NET)编写的程序。 当应用程序运行时,它分为一个或多个并行运行的 Spark 作业,以便更快地处理数据。 有关详细信息,请参阅 Spark 应用监控。
Apache Spark 作业: Spark 作业是与应用程序中其他作业并行运行的 Spark 应用程序的一部分。 作业由多个任务组成。 有关详细信息,请参阅 Spark 作业监视。
Apache Spark 作业定义: Spark 作业定义是由用户设置的一组参数,指示应如何运行 Spark 应用程序。 它允许将批处理或流式处理作业提交到 Spark 群集。 有关详细信息,请参阅 什么是 Apache Spark 作业定义?
V-order:对 parquet 文件格式的写入优化,可实现快速读取并提供成本效益和更好的性能。 默认情况下,所有 Fabric 引擎都会写入经过 V-order 的 parquet 文件。
数据工厂
连接器: 数据工厂提供了一组丰富的连接器,可用于连接到不同类型的数据存储。 连接后,可以转换数据。 有关详细信息,请参阅 连接器。
数据管道: 数据工厂中,数据管道用于协调数据移动和转换。 这些管道与 Fabric 中的部署管道不同。 有关详细信息,请参阅数据工厂概述中的 管道。
Dataflow Gen2:数据流提供了一个低代码接口,用于从数百个数据源引入数据并转换数据。 在 Fabric 中,数据流被称为数据流 Gen2。 数据流 Gen1 存在于 Power BI 中。 与 Azure 数据工厂或 Power BI 中的数据流相比,数据流 Gen2 提供额外的功能。 无法从 Gen1 升级到 Gen2。 有关详细信息,请参阅数据工厂概述中的 数据流。
触发器: 数据工厂中的自动化功能,该功能根据特定条件(例如计划或数据可用性)启动管道。
Fabric 数据科学
Data Wrangler: Data Wrangler 是一种基于笔记本的工具,为用户提供沉浸式体验来执行探索数据分析。 此功能将网格化的数据展示与动态摘要统计数据及一组常用的数据清理操作结合在一起,所有这些功能都可以通过几个精选图标实现。 每个操作都会生成代码,这些代码可以保存回笔记本作为可重用脚本。
试验: 机器学习试验是所有相关机器学习运行的组织和控制的主要单元。 有关详细信息,请参阅 Microsoft Fabric 中的机器学习试验。
模型: 机器学习模型是经过训练以识别某些模式类型的文件。 通过一组数据训练模型,并为其提供一种算法,该算法用于推理并从该数据集中学习。 有关详细信息,请参阅 机器学习模型。
运行:一次运行对应于模型代码的单次执行。 在 MLflow 中,跟踪基于试验和运行。
Fabric 数据仓库
SQL 分析终结点:每个湖屋都有一个 SQL 分析终结点,允许用户通过 TDS 使用 TSQL 查询 Delta 表数据。 有关详细信息,请参阅 SQL 分析终结点。
Fabric 数据仓库: Fabric 数据仓库充当传统数据仓库,并支持企业数据仓库所需的完整事务性 T-SQL 功能。 有关详细信息,请参阅 Fabric 数据仓库。
实时智能
激活器: 激活器是一种无代码、低代码工具,可用于针对数据创建警报、触发器和操作。 激活器用于在数据流上创建警报。 有关详细信息,请参阅 激活器。
Eventhouse: Eventhouses 提供了一种用于处理和分析大量数据的解决方案,尤其是在需要实时分析和探索的方案中。 它们旨在高效地处理实时数据流,使组织能够近乎实时地引入、处理和分析数据。 单个工作区可以保存多个 Eventhouse,一个事件库可以保存多个 KQL 数据库,每个数据库可以保存多个表。 有关详细信息,请参阅 Eventhouse 概述。
事件流: Microsoft Fabric 事件流功能在 Fabric 平台中提供了一个集中位置,用于捕获、转换和将实时事件路由到没有代码体验的目标。 事件流由各种流式处理数据源、引入目标以及需要转换时的事件处理器组成。 有关详细信息,请参阅 Microsoft Fabric 事件流。
KQL 数据库: KQL 数据库以可以对其执行 KQL 查询的格式保存数据。 KQL 数据库是 Eventhouse 下的一个项目。 有关详细信息,请参阅 KQL 数据库。
KQL 查询集: KQL 查询集是用于运行查询、查看结果和操作数据资源管理器数据库中数据的查询结果的项。 查询集包括数据库和表、查询和结果。 使用 KQL 查询集,可以保存查询以供将来使用,或与他人导出和共享查询。 有关详细信息,请参阅在 KQL 查询集中查询数据
实时中心
- Real-Time 枢纽: Real-Time 枢纽是整个组织中所有动态数据流动的唯一中央位置。 会自动为每个 Microsoft Fabric 租户预配该中心。 有关详细信息,请参阅 Real-Time 中心概述。
OneLake
- 快捷方式: 快捷方式是在 OneLake 中指向其他文件存储位置的嵌入式引用。 它们提供了一种连接到现有数据的方法,而无需直接复制它。 有关详细信息,请参阅 OneLake 快捷方式。
相关内容
- 从 Microsoft Fabric 主页导航到你的项
- Microsoft Fabric 中的端到端教程