如何在 Microsoft Fabric 中创建自定义 Spark 池
本文档介绍如何在 Microsoft Fabric 中为分析工作负荷创建自定义 Apache Spark 池。 Apache Spark 池使用户能够根据其特定要求创建定制的计算环境,确保最佳性能和资源利用率。
指定自动缩放的最小节点和最大节点数。 根据这些值,当作业的计算要求发生更改时,系统动态获取和停用节点,从而有效缩放并提高性能。 Spark 池中执行程序的动态分配也缓解了手动执行程序配置的需求。 相反,系统会根据数据量和作业级计算需求调整执行程序的数量。 此过程使你能够专注于工作负荷,而无需担心性能优化和资源管理。
注意
若要创建自定义 Spark 池,需要对工作区拥有管理员访问权限。 容量管理员必须在“容量管理员设置”的“Spark 计算”部分中启用“自定义工作区池”选项。 若要了解详细信息,请参阅 Fabric 容量的 Spark 计算设置。
创建自定义 Spark 池
若要创建或管理与工作区关联的 Spark 池,请执行以下操作:
转到工作区并选择“工作区设置”。
选择 数据工程/科学 选项以展开菜单,然后选择 Spark 设置。
选择“新建池”选项。 在“创建池”屏幕中,对 Spark 池命名。 此外,请选择 节点系列,并根据工作负荷的计算要求从可用大小(小型、中型、大型、X 大型和 XX 大型)中选择 节点 大小。
可以将自定义池的最小节点配置设置为 1。 由于 Fabric Spark 为具有单个节点的群集提供可还原的可用性,因此无需担心作业故障、故障期间会话丢失或为较小的 Spark 作业支付计算费用。
可以为自定义 Spark 池启用或禁用自动缩放。 启用自动缩放后,池会动态获取新节点,达到用户指定的最大节点限制,然后在作业执行后移除它们。 此功能通过根据作业要求调整资源来确保更好的性能。 你可以调整节点的大小,这些节点适合作为 Fabric 容量 SKU 的一部分购买的容量单位。
还可以选择为 Spark 池启用动态执行程序分配,该池会自动确定用户指定的最大边界内的最佳执行程序数。 此功能根据数据量调整执行程序的数量,从而提高了性能和资源利用率。
这些自定义池的默认自动暂停持续时间为 2 分钟。 达到自动暂停持续时间后,会话将过期,群集将取消分配。 将据节点数和使用自定义 Spark 池的持续时间向你收费。
相关内容
- 从 Apache Spark 公共文档中了解详细信息。
- 请在 Microsoft Fabric中,开始设置
Spark 工作区管理。