Microsoft Fabric 中 Fabric 数据工程师的新增功能和计划
重要
发布计划描述了可能或可能尚未发布的功能。 交付时间线和投影功能可能会更改或未交付。 有关详细信息,请参阅Microsoft策略。
Fabric 数据工程师使数据工程师能够使用 Spark 大规模转换其数据,并构建其 Lakehouse 体系结构。
针对所有组织数据的 Lakehouse: Lakehouse 在单个体验中将 Data Lake 和数据仓库的最佳组合在一起。 它使用户能够以开放格式在湖中引入、准备和共享组织数据。 稍后可以通过多个引擎(如 Spark、T-SQL 和 Power BI)访问它。 它提供了各种数据集成选项,例如数据流和管道、外部数据源的快捷方式和数据产品共享功能。
高性能 Spark 引擎和运行时: Fabric 数据工程为客户提供了具有最新版本的 Spark、Delta 和 Python 的优化 Spark 运行时。 它使用 Delta Lake 作为所有引擎的通用表格式,因此无需移动数据即可轻松共享和报告数据。 运行时附带 Spark 优化,无需任何配置即可增强查询性能。 它还提供初学者池和高并发模式,以加快和重复使用 Spark 会话,从而节省时间和成本。
Spark 管理员和配置: 具有适当权限的工作区管理员可以创建和配置自定义池,以优化其 Spark 工作负载的性能和成本。 创建者可以配置环境以安装库、选择运行时版本,并为其笔记本和 Spark 作业设置 Spark 属性。
开发人员体验: 开发人员可以使用笔记本、Spark 作业或其首选 IDE 在 Fabric 中创作和执行 Spark 代码。 他们可以本机访问 Lakehouse 数据,与他人协作,安装库,跟踪历史记录,进行内联监视,并从 Spark 顾问获取建议。 它们还可以使用 Data Wrangler 轻松准备低代码 UI 的数据。
平台集成: 所有 Fabric 数据工程项(包括笔记本、Spark 作业、环境和 Lakehouses)都深入集成到 Fabric 平台(企业信息管理功能、世系、敏感度标签和认可)。
投资领域
功能 | 预计发布时间线 |
---|---|
Python 笔记本 | 2024 年第 4 季度 |
适用于 Microsoft Fabric Spark 的 ArcGIS GeoAnalytics | 2024 年第 4 季度 |
从 ADLS Gen2 存储帐户安装库 | 2024 年第 4 季度 |
笔记本实时版本控制 | 2025 年第 1 季度 |
Fabric 中用户数据函数的 VSCode 附属扩展 | 2025 年第 1 季度 |
Fabric 中的用户数据函数 | 2025 年第 1 季度 |
公共监视 API | 2025 年第 1 季度 |
git 和部署管道上的 Lakehouse 快捷方式元数据 | 2025 年第 1 季度 |
Spark 体验中的 Delta Lake 改进 | 2025 年第 1 季度 |
支持正在进行的 Notebook 作业的快照 | 2025 年第 1 季度 |
Spark 和 Lakehouse 的 RLS/CLS 支持 | 2025 年第 1 季度 |
Fabric 数据仓库的 Spark 连接器 - 正式发布 | 2025 年第 1 季度 |
能够在 Lakehouse 中对表和文件夹进行排序和筛选 | 发货(2024 年第 4 季度) |
应用中的笔记本 | 发货(2024 年第 4 季度) |
适用于 Fabric 的 VSCode 核心扩展 | 发货(2024 年第 3 季度) |
T-SQL 笔记本 | 发货(2024 年第 3 季度) |
Web 的 VS Code - 调试支持 | 发货(2024 年第 3 季度) |
管道中的高并发性 | 发货(2024 年第 3 季度) |
Lakehouse 命名空间中的架构支持和工作区 | 发货(2024 年第 3 季度) |
Spark 本机执行引擎 | 发货(2024 年第 2 季度) |
Fabric 数据仓库的 Spark 连接器 | 发货(2024 年第 2 季度) |
适用于 GraphQL 的 Microsoft Fabric API | 发货(2024 年第 2 季度) |
创建和附加环境 | 发货(2024 年第 2 季度) |
笔记本作业的作业队列 | 发货(2024 年第 2 季度) |
Fabric Spark 的乐观作业允许 | 发货(2024 年第 2 季度) |
Spark 自动优化 | 发货(2024 年第 1 季度) |
Python 笔记本
估计发布时间线:2024 年第 4 季度
发布类型:公共预览版
结构笔记本支持纯 Python 体验。 此新解决方案面向 BI 开发人员,数据科学家使用较小的数据集(最多几 GB),并使用 Pandas 和 Python 作为主要语言。 通过这种新体验,他们将能够从本机 Python 语言及其本机功能和库中受益,能够从 Python 版本切换到另一个版本(最初支持两个版本),最后通过使用较小的 2VCore 计算机获得更好的资源利用率。
适用于 Microsoft Fabric Spark 的 ArcGIS GeoAnalytics
估计发布时间线:2024 年第 4 季度
发布类型:公共预览版
Microsoft和 Esri 已合作将空间分析引入 Microsoft Fabric。 此协作引入了一个新的库 ArcGIS GeoAnalytics for Microsoft Fabric,从而在 Microsoft Fabric Spark 笔记本和 Spark 作业定义(跨数据工程师和数据科学体验/工作负载)中启用一组广泛的空间分析。
这种集成的产品体验使 Spark 开发人员或数据科学家能够本机使用 Esri 功能在 Fabric Spark 中运行 ArcGIS GeoAnalytics 函数和工具,以便对数据进行空间转换、扩充和模式/趋势分析(甚至是大数据),而无需单独安装和配置。
从 ADLS Gen2 存储帐户安装库
估计发布时间线:2024 年第 4 季度
发布类型:公共预览版
支持用户安装库的新源。 通过创建托管在其存储帐户上的自定义 conda/PyPI 通道,用户可以在其 Fabric 环境中从其存储帐户安装库。
笔记本实时版本控制
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
使用实时版本控制 Fabric Notebook 开发人员可以跟踪对其笔记本所做的更改的历史记录,根据需要比较不同的版本并还原以前的版本。
Fabric 中用户数据函数的 VSCode 附属扩展
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
用户数据函数的 VSCode 卫星扩展将为 Fabric 中的用户数据函数提供开发人员支持(编辑、生成、调试、发布)。
Fabric 中的用户数据函数
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
用户数据函数将提供一种强大的机制,用于实现和使用 Fabric 数据科学和数据工程工作流中的自定义专用业务逻辑,提高效率和灵活性。
公共监视 API
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
Fabric Spark 的公共监视 API 功能旨在公开 Spark 监视 API,允许用户以编程方式监视 Spark 作业进度、查看执行任务和访问日志。 此功能符合公共 API 标准,为 Spark 应用程序提供无缝监视体验。
git 和部署管道上的 Lakehouse 快捷方式元数据
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
若要提供引人注目的应用程序生命周期管理故事,必须跟踪 git 中的对象元数据和支持部署管道。 在数据工程师模块中,工作区集成到 git。
在此第一次迭代中,OneLake 快捷方式将自动跨管道阶段和工作区部署。 可以使用名为变量库的新Microsoft Fabric 项跨阶段重新映射快捷方式连接,确保客户预期的正确隔离和环境分段。
Spark 体验中的 Delta Lake 改进
估计发布时间线:2025 年第 1 季度
发布类型:正式发布
在 Microsoft Fabric 中,具有适当的默认值并符合最新标准对 Delta Lake 标准至关重要。 INT64 将是所有时间戳值的新默认编码类型。 这远离了 Apache Parquet 几年前弃用的 INT96 编码。 这些更改不会影响任何读取功能,默认情况下它是透明的和兼容的,但可确保 Delta Lake 表中的所有新 parquet 文件都以更高效、更未来的证明方式编写。
我们还发布了 OPTIMIZE 命令的更快实现,使其跳过已按 V 排序的文件。
支持正在进行的 Notebook 作业的快照
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
此功能允许用户在笔记本快照仍在运行时查看该快照,这对于监视进度和排查性能问题至关重要。 用户可以查看原始源代码、输入参数和单元格输出,以更好地了解 Spark 作业,并且可以跟踪单元格级别的 Spark 执行进度。 用户还可以查看已完成单元格的输出,以验证 Spark 应用程序的准确性并估计剩余工时。 此外,将显示已执行的单元格中的任何错误或异常,帮助用户尽早识别和解决问题。
Spark 和 Lakehouse 的 RLS/CLS 支持
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
此功能允许用户在 Spark 引擎中实现数据访问的安全策略。 用户可以定义对象、行或列级安全性,确保在通过 Fabric Spark 访问数据时保护这些策略定义的数据,并与跨 Microsoft Fabric 启用的 OneSecurity 计划保持一致。
Fabric 数据仓库的 Spark 连接器 - 正式发布
估计发布时间线:2025 年第 1 季度
发布类型:正式发布
用于 Microsoft Fabric 数据仓库的 Spark 连接器使 Spark 开发人员和数据科学家能够访问和使用 Lakehouse 的仓库和 SQL 分析终结点中的数据。 它提供简化的 Spark API、抽象基础复杂性,并仅使用一行代码运行,同时维护对象级安全性(OLS)、行级安全性(RLS)和列级安全性(CLS)等安全模型。
发货功能(s)
能够在 Lakehouse 中对表和文件夹进行排序和筛选
发货(2024 年第 4 季度)
发布类型:正式发布
此功能允许客户按多种不同的方法在 Lakehouse 中对表和文件夹进行排序和筛选,包括按字母顺序排列、创建日期等。
应用中的笔记本
发货(2024 年第 4 季度)
发布类型:公共预览版
组织应用作为 Fabric 中的新项提供,你可以在 Fabric 应用中包括笔记本以及 Power BI 报表和仪表板,并将其分发给业务用户。 应用使用者可以与笔记本中的小组件和视觉对象进行交互,作为替代报告和数据浏览机制。 这使你能够创建和共享丰富的和引人入胜的故事与你的数据。
适用于 Fabric 的 VSCode 核心扩展
发货(2024 年第 3 季度)
发布类型:公共预览版
适用于 Fabric 的核心 VSCode 扩展将为 Fabric 服务提供常见的开发人员支持。
T-SQL 笔记本
发货(2024 年第 3 季度)
发布类型:公共预览版
构造笔记本支持 T-SQL 语言,以针对数据仓库使用数据。 通过将数据仓库或 SQL 分析终结点添加到笔记本,T-SQL 开发人员可以直接在连接的终结点上运行查询。 BI 分析师还可以执行跨数据库查询,从多个仓库和 SQL 分析终结点收集见解。 T-SQL Notebook 为 SQL 用户提供了现有工具的出色创作替代方法,并包括 Fabric 本机功能,例如共享、GIT 集成和协作。
Web 的 VS Code - 调试支持
发货(2024 年第 3 季度)
发布类型:公共预览版
目前预览版支持用于 Web 的 Visual Studio Code 进行创作和执行方案。 我们向功能列表添加了使用此笔记本扩展调试代码的功能列表。
管道中的高并发性
发货(2024 年第 3 季度)
发布类型:正式发布
除了笔记本中的高并发性外,我们还会在管道中启用高并发性。 此功能允许在包含单个会话的管道中运行多个笔记本。
Lakehouse 命名空间中的架构支持和工作区
发货(2024 年第 3 季度)
发布类型:公共预览版
这将允许跨工作区使用架构和查询数据来组织表。
Spark 本机执行引擎
发货(2024 年第 2 季度)
发布类型:公共预览版
本机执行引擎是 Microsoft Fabric 中 Apache Spark 作业执行的突破性增强功能。 此矢量化引擎通过直接在 Lakehouse 基础结构上运行 Spark 查询来优化这些查询的性能和效率。 引擎的无缝集成意味着无需修改代码,并可避免供应商锁定。 其支持 Apache Spark API,并且与运行时 1.2 (Spark 3.4) 兼容,适用于 Parquet 和 Delta 格式。 无论数据在 OneLake 中的位置如何,或者如果通过快捷方式访问数据,本机执行引擎都会最大限度地提高效率和性能
Fabric 数据仓库的 Spark 连接器
发货(2024 年第 2 季度)
发布类型:公共预览版
Spark Connector for Fabric DW(数据仓库)使 Spark 开发人员或数据科学家能够使用简化的 Spark API 来访问和处理 Fabric 数据仓库中的数据,该 API 实际上只使用一行代码。 它提供从 Fabric 数据仓库并行查询数据的功能,以便在访问表或视图时,通过增加的数据量进行缩放,并遵循在数据仓库级别定义的安全模型(OLS/RLS/CLS)。 此第一个版本仅支持读取数据,并且即将推出对写回数据的支持。
适用于 GraphQL 的 Microsoft Fabric API
发货(2024 年第 2 季度)
发布类型:公共预览版
适用于 GraphQL 的 API 将允许 Fabric 数据工程师、科学家、数据解决方案架构师毫不费力地公开和集成 Fabric 数据,从而利用 GraphQL 的强大功能和灵活性,实现响应更快速、高性能和丰富的分析应用程序。
创建和附加环境
发货(2024 年第 2 季度)
发布类型:正式发布
若要更精细地自定义 Spark 体验,可以创建环境并将其附加到笔记本和 Spark 作业。 在环境中,可以安装库、配置新池、设置 Spark 属性并将脚本上传到文件系统。 这样,便可以更灵活地控制 Spark 工作负载,而不会影响工作区的默认设置。 作为正式版的一部分,我们正在对 API 支持和 CI/CD 集成等环境进行各种改进。
笔记本作业的作业队列
发货(2024 年第 2 季度)
发布类型:正式发布
此功能允许计划 Spark 笔记本在 Spark 使用率达到其可并行执行的作业数上限时排队,然后在使用量下降到允许的最大并行作业数以下后执行。
Fabric Spark 的乐观作业允许
发货(2024 年第 2 季度)
发布类型:正式发布
对于乐观作业允许,Fabric Spark 仅根据作业可缩减到的最小节点数保留作业需要启动的最小核心数。 这样,如果有足够的资源来满足最低要求,就可以接纳更多的作业。 如果以后需要纵向扩展作业,则会根据容量中的可用核心批准或拒绝纵向扩展请求。
Spark 自动优化
发货(2024 年第 1 季度)
发布类型:公共预览版
Autotune 使用机器学习来自动分析先前的 Spark 作业运行,并优化配置以优化性能。 它配置了 Spark 对数据进行分区、联接和读取的方式。 这样,它就会显著提高性能。 我们已看到客户作业使用此功能更快地运行 2 倍。