使用 pyspark.ml.connect 在 Databricks Connect 上训练 Spark ML 模型

重要

此功能目前以公共预览版提供。

本文提供了一个示例,演示如何使用 pyspark.ml.connect 模块执行分布式训练,以训练 Spark ML 模型并在 Databricks Connect 上运行模型推理。

pyspark.ml.connect 是什么?

Spark 3.5 引入了 pyspark.ml.connect,旨在支持 Spark 连接模式和 Databricks Connect。 详细了解 Databricks Connect

pyspark.ml.connect 模块包括常见的学习算法和实用工具,包括分类、功能转换器、ML 管道和交叉验证。 此模块提供与旧版 pyspark.ml 模块类似的接口,但 pyspark.ml.connect 模块目前仅包含 pyspark.ml 中的一部分算法。 下面列出了支持的算法:

  • 分类算法:pyspark.ml.connect.classification.LogisticRegression
  • 功能转换器:pyspark.ml.connect.feature.MaxAbsScalerpyspark.ml.connect.feature.StandardScaler
  • 计算器:pyspark.ml.connect.RegressionEvaluatorpyspark.ml.connect.BinaryClassificationEvaluatorMulticlassClassificationEvaluator
  • 管道:pyspark.ml.connect.pipeline.Pipeline
  • 模型优化:pyspark.ml.connect.tuning.CrossValidator

要求

  • 对群集设置 Databricks Connect。 请参阅 Databricks Connect 的计算配置。
  • 已安装 Databricks Runtime 14.0 ML 或更高版本。
  • Assigned 的群集访问模式。

示例笔记本

以下笔记本演示如何在 Databricks Connect 上使用分布式 ML:

Databricks Connect 上的分布式 ML

获取笔记本

对于 pyspark.ml.connect 中 API 的相关参考信息,Databricks 建议使用 Apache Spark API 参考