Fabric Runtime 1.3 (GA)

Fabric 运行时可与 Azure 无缝集成。 它为使用 Apache Spark 的数据工程和数据科学项目提供了先进的环境。 Fabric 运行时 1.3 是用于大数据计算的最新运行时,本文概述了它的基本功能和组件。

Microsoft Fabric Runtime 1.3 是最新的 GA 运行时版本,包含以下组件和升级,旨在增强数据处理功能:

  • Apache Spark 3.5
  • 操作系统:Mariner 2.0
  • Java:11
  • 标量:2.12.17
  • Python:3.11
  • Delta Lake:3.2
  • R:4.4.1

提示

Fabric Runtime 1.3 包含对本机执行引擎的支持,这可以显著提升性能,而无需额外的成本。 若要在环境中的所有作业和笔记本中启用本机执行引擎,请导航到环境设置,选择 Spark 计算,转到“加速”选项卡,并选中“启用本机执行引擎”。 保存和发布后,此设置将在整个环境中应用,因此所有新作业和笔记本都会自动继承并受益于增强的性能功能。

按照以下说明将运行时 1.3 集成到工作区中,然后即可使用其新功能:

  1. 导航到 Fabric 工作区中的“工作区设置”选项卡。
  2. 转到“数据工程/科学”并选择“Spark 设置”
  3. 选择环境选项卡。
  4. 在“Runtime 版本”下展开下拉列表。
  5. 选择“1.3(Spark 3.5、Delta 3.2)”并保存所做的更改。 此操作会将 1.3 设置为工作区的默认运行时。

屏幕截图显示在何处选择运行时版本。

你现在可以开始使用 Fabric 运行时 1.3 中引入的最新改进和功能(Spark 3.5 和 Delta Lake 3.2)。

关键重点

Apache Spark 3.5

Apache Spark 3.5.0 是 3.x 系列中的第六个版本。 此版本是开源社区中广泛协作的成果,解决了 Jira 中记录的 1,300 多个问题。

此版本包含一项有关结构化流兼容性的升级。 此外,此版本还扩展了 PySpark 和 SQL 中的功能。 它增加了多项功能,例如 SQL 标识符子句、SQL 函数调用中的命名参数以及纳入适用于 HyperLogLog 近似聚合的 SQL 函数等。 其他新功能还包括 Python 用户定义表函数、通过 DeepSpeed 简化分布式训练,以及水印传播和 dropDuplicatesWithinWatermark 操作等新的结构化流功能。

要了解完整的列表和详细更改,请访问此处:https://spark.apache.org/releases/spark-release-3-5-0.html

Delta Spark

Delta Lake 3.2 标志着一项集体承诺,使 Delta Lake 可跨格式互操作、更易于使用且性能更高。 Delta Spark 3.2 基于 Apache Spark™ 3.5 构建。 Delta Spark maven 项目已从 delta-core 更名为 delta-spark

要了解完整的列表和详细更改,请访问此处:https://docs.delta.io/3.2.0/index.html

提示

有关最新信息并获取有关 Fabric 运行时的详细更改列表和具体发行说明,请检查并订阅 Spark 运行时版本和更新