将 Spark 池从 Azure Synapse Analytics 迁移到 Fabric

Azure Synapse 提供 Spark 池,而 Fabric 则提供入门池自定义池。 如果你在 Azure Synapse 中使用一个没有自定义配置或库的池,并且中等节点大小满足你的要求,则入门池可能是个不错的选择。 但是,如果你希望在 Spark 池配置方面获得更好的灵活性,则我们建议使用自定义池。 这里有两个选项:

  • 选项 1:将 Spark 池移动到工作区的默认池。
  • 选项 2:将 Spark 池移动到 Fabric 中的自定义环境。

如果你有多个 Spark 池,并打算将其移动到同一个 Fabric 工作区,我们建议使用选项 2,并创建多个自定义环境和池。

有关 Spark 池注意事项,请参阅 Azure Synapse Spark 和 Fabric 之间的差异

先决条件

在租户中创建一个 Fabric 工作区(如果没有)。

选项 1:从 Spark 池移动到工作区的默认池

可以从 Fabric 工作区创建自定义 Spark 池,并将其用作工作区中的默认池。 默认池由同一工作区中的所有笔记本和 Spark 作业定义使用。

若要将现有 Spark 池从 Azure Synapse 移动到工作区默认池,请执行以下操作:

  1. 访问 Azure Synapse 工作区:登录到 Azure。 导航到你的 Azure Synapse 工作区,转到“分析池”,然后选择“Apache Spark 池”。
  2. 找到 Spark 池:在“Apache Spark 池”中,找到要移动到 Fabric 的 Spark 池,然后检查该池的“属性”。
  3. 获取属性:获取 Spark 池属性,例如 Apache Spark 版本、节点大小系列、节点大小或自动缩放。 请参阅 Spark 池注意事项以了解任何差异。
  4. 在 Fabric 中创建自定义 Spark 池
    • 转到你的 Fabric 工作区并选择“工作区设置”。
    • 转到“数据工程/科学”并选择“Spark 设置”。
    • 在“”选项卡的“工作区默认池”部分,展开下拉菜单并选择“新建池”。
    • 使用相应的目标值创建自定义池。 填写名称、节点系列、节点大小、自动缩放和动态执行程序分配选项。
  5. 选择运行时版本
    • 转到“环境”选项卡,然后选择所需的“运行时版本”。 在此处了解可用的运行时。
    • 禁用“设置默认环境”选项。

显示默认池的屏幕截图。

注意

此选项不支持池级库或配置。 但是,你可以调整单个项(如笔记本和 Spark 作业定义)的计算配置,并添加内联库。 如果需要向环境添加自定义库和配置,请考虑创建自定义环境

选项 2:从 Spark 池移动到自定义环境

使用自定义环境可以设置自定义 Spark 属性和库。 若要创建自定义环境,请执行以下操作:

  1. 访问 Azure Synapse 工作区:登录到 Azure。 导航到你的 Azure Synapse 工作区,转到“分析池”,然后选择“Apache Spark 池”。
  2. 找到 Spark 池:在“Apache Spark 池”中,找到要移动到 Fabric 的 Spark 池,然后检查该池的“属性”。
  3. 获取属性:获取 Spark 池属性,例如 Apache Spark 版本、节点大小系列、节点大小或自动缩放。 请参阅 Spark 池注意事项以了解任何差异。
  4. 创建自定义 Spark 池
    • 转到你的 Fabric 工作区并选择“工作区设置”。
    • 转到“数据工程/科学”并选择“Spark 设置”。
    • 在“”选项卡的“工作区默认池”部分,展开下拉菜单并选择“新建池”。
    • 使用相应的目标值创建自定义池。 填写名称、节点系列、节点大小、自动缩放和动态执行程序分配选项。
  5. 创建一个环境项(如果没有)。
  6. 配置 Spark 计算
    • 在“环境”中,转到“Spark 计算”>“计算”。
    • 为新环境选择新建的池。
    • 可以配置驱动程序和执行程序核心与内存。
  7. 为环境选择运行时版本。 在此处了解可用的运行时。
  8. 单击“保存”,然后单击“发布”以发布更改。

详细了解如何创建和使用环境

显示自定义环境的屏幕截图。