通过运行 Spark 作业定义来转换数据

可通过 Microsoft Fabric 数据工厂中的 Spark 作业定义活动创建与 Spark 作业定义的连接,并从数据管道运行。

先决条件

如果要开始,必须满足以下先决条件:

通过 UI 将 Spark 作业定义活动添加到管道

  1. 在工作区中创建新数据管道。

  2. 从主屏幕卡搜索Spark 作业定义并选中,或者从“活动”栏选择活动以将其添加到管道画布。

    • 从主屏幕卡创建活动:

      屏幕截图显示了在何处创建新的 Spark 作业定义活动。

    • 从“活动”栏创建活动:

      屏幕截图显示了从管道编辑器窗口中的“活动”栏创建新的 Spark 作业定义活动的位置。

  3. 如果尚未选择管道编辑器画布上的新 Spark 作业定义活动,请选择该活动。

    显示管道编辑器画布上的Spark 作业定义活动的屏幕截图。

    请参阅常规设置指南,以配置常规设置选项卡中的选项。

Spark 作业定义活动设置

选择活动属性窗格中的设置选项卡,然后选择包含要运行的 Spark 作业定义的 Fabric 工作区。

显示管道编辑器窗口中Spark 作业定义属性页的设置选项卡的屏幕截图。

已知限制

此处列出了 Fabric 数据工厂的 Spark 作业定义活动中的当前限制。 此部分可能随时发生变化。

  • 目前不支持在活动中创建新的 Spark 作业定义活动(在“设置”下)
  • 参数化支持不可用。
  • 尽管我们支持通过输出选项卡监视活动,但还无法在更精细的级别监视 Spark 作业定义。 例如,指向监视页、状态、持续时间和以前的 Spark 作业定义运行的链接在数据工厂中不可直接提供。 但是,可以在 Spark 作业定义监视页中查看更详细的详细信息。

进行保存,并运行或计划管道

配置管道所需的任何其他活动后,切换到管道编辑器顶部的“主页”选项卡,然后选择“保存”按钮以保存管道。 选择“运行”来直接运行它,或者选择“计划”进行计划。 还可以在此处查看运行历史记录,或者配置其他设置。

显示管道编辑器的“主页”选项卡的屏幕截图,突出显示了“保存”、“运行”和“计划”按钮。

如何监视管道运行