如何在 Microsoft Fabric 中创建自定义 Spark 池

本文档介绍如何在 Microsoft Fabric 中为分析工作负载创建自定义 Apache Spark 池。 Apache Spark 池使用户能够根据其特定要求创建定制的计算环境,确保最佳性能和资源利用率。

指定用于自动缩放的最小和最大节点数。 根据这些值,系统在作业的计算要求发生变化时动态获取和停用节点,从而有效缩放并提高性能。 Spark 池中执行程序的动态分配还可缓解手动执行程序配置的需求。 相反,系统会根据数据量和作业级别的计算需求调整执行程序的数量。 此过程使你能够专注于工作负载,而无需担心性能优化和资源管理。

注意

若要创建自定义 Spark 池,需要对工作区具有管理员访问权限。 容量管理员必须在“容量管理员设置”的“Spark 计算”部分中启用“自定义工作区池”选项。 若要了解详细信息,请参阅 Fabric 容量的 Spark 计算设置

创建自定义 Spark 池

创建或管理与工作区关联的 Spark 池:

  1. 转到工作区并选择“工作区设置”

    Screenshot showing where to select Data Engineering in the Workspace settings menu.

  2. 选择“数据工程/科学”选项以展开菜单,然后选择“Spark 计算”

    Screenshot showing Spark Settings detail view.

  3. 选择“新建池”选项。 在“创建池”屏幕中,对 Spark 池命名。 同时,根据工作负载的计算要求,从可用大小(“小型”、“中型”、“大型”、“加大”和“加加大”)中选择“节点系列”和“节点大小”

    Screenshot showing custom pool creation options.

  4. 可以将自定义池的最小节点配置设置为 1。 由于 Fabric Spark 为具有单个节点的群集提供可还原的可用性,因此你不必担心作业失败、失败期间的会话丢失,或者为较小的 Spark 作业支付超额计算费用。

  5. 可以为自定义 Spark 池启用或禁用自动缩放。 启用自动缩放后,池将动态获取新节点,最高可达用户指定的最大节点限制,然后在作业执行后停用这些节点。 此功能通过根据作业要求调整资源来确保更好的性能。 你可以调整节点的大小,这些节点适合作为 Fabric 容量 SKU 的一部分购买的容量单位。

    Screenshot showing custom pool creation options for autoscaling and dynamic allocation.

  6. 还可以选择为 Spark 池启用动态执行程序分配,这将自动确定用户指定的最大边界内的最佳执行程序数。 此功能根据数据量调整执行程序的数量,从而提高性能和资源利用率。

这些自定义池的默认自动暂停持续时间为 2 分钟。 达到自动暂停持续时间后,会话将过期,群集将取消分配。 将据节点数和使用自定义 Spark 池的持续时间向你收费。