如何在 Microsoft Fabric 中创建自定义 Spark 池
本文档介绍如何在 Microsoft Fabric 中为分析工作负载创建自定义 Apache Spark 池。 Apache Spark 池使用户能够根据其特定要求创建定制的计算环境,确保最佳性能和资源利用率。
指定用于自动缩放的最小和最大节点数。 根据这些值,系统在作业的计算要求发生变化时动态获取和停用节点,从而有效缩放并提高性能。 Spark 池中执行程序的动态分配还可缓解手动执行程序配置的需求。 相反,系统会根据数据量和作业级别的计算需求调整执行程序的数量。 此过程使你能够专注于工作负载,而无需担心性能优化和资源管理。
注意
若要创建自定义 Spark 池,需要对工作区具有管理员访问权限。 容量管理员必须在“容量管理员设置”的“Spark 计算”部分中启用“自定义工作区池”选项。 若要了解详细信息,请参阅 Fabric 容量的 Spark 计算设置。
创建自定义 Spark 池
创建或管理与工作区关联的 Spark 池:
转到工作区并选择“工作区设置”。
选择“数据工程/科学”选项以展开菜单,然后选择“Spark 计算”。
选择“新建池”选项。 在“创建池”屏幕中,对 Spark 池命名。 同时,根据工作负载的计算要求,从可用大小(“小型”、“中型”、“大型”、“加大”和“加加大”)中选择“节点系列”和“节点大小”。
可以将自定义池的最小节点配置设置为 1。 由于 Fabric Spark 为具有单个节点的群集提供可还原的可用性,因此你不必担心作业失败、失败期间的会话丢失,或者为较小的 Spark 作业支付超额计算费用。
可以为自定义 Spark 池启用或禁用自动缩放。 启用自动缩放后,池将动态获取新节点,最高可达用户指定的最大节点限制,然后在作业执行后停用这些节点。 此功能通过根据作业要求调整资源来确保更好的性能。 你可以调整节点的大小,这些节点适合作为 Fabric 容量 SKU 的一部分购买的容量单位。
还可以选择为 Spark 池启用动态执行程序分配,这将自动确定用户指定的最大边界内的最佳执行程序数。 此功能根据数据量调整执行程序的数量,从而提高性能和资源利用率。
这些自定义池的默认自动暂停持续时间为 2 分钟。 达到自动暂停持续时间后,会话将过期,群集将取消分配。 将据节点数和使用自定义 Spark 池的持续时间向你收费。
相关内容
- 有关详细信息,请参阅 Apache Spark 公共文档。
- Microsoft Fabric 中的 Spark 工作区管理设置入门。