Поделиться через


Обучение моделей машинного обучения Spark в Databricks Connect с помощью pyspark.ml.connect

Внимание

Эта функция предоставляется в режиме общедоступной предварительной версии.

В этой статье приведен пример использования pyspark.ml.connect модуля для обучения моделей машинного обучения Spark и вывода модели в Databricks Connect.

Что такое pyspark.ml.connect?

В Spark 3.5 представлена pyspark.ml.connect поддержка режима подключения Spark и Databricks Connect. Дополнительные сведения о Databricks Connect.

Модуль pyspark.ml.connect состоит из распространенных алгоритмов обучения и служебных программ, включая классификацию, преобразователи признаков, конвейеры машинного обучения и перекрестную проверку. Этот модуль предоставляет аналогичные интерфейсы для устаревшего pyspark.ml модуля, но pyspark.ml.connect модуль в настоящее время содержит только подмножество алгоритмов.pyspark.ml Ниже перечислены поддерживаемые алгоритмы.

  • Алгоритм классификации: pyspark.ml.connect.classification.LogisticRegression
  • Преобразователи функций: pyspark.ml.connect.feature.MaxAbsScaler и pyspark.ml.connect.feature.StandardScaler
  • Вычислитель: pyspark.ml.connect.RegressionEvaluatorpyspark.ml.connect.BinaryClassificationEvaluator иMulticlassClassificationEvaluator
  • Трубопровод: pyspark.ml.connect.pipeline.Pipeline
  • Настройка модели: pyspark.ml.connect.tuning.CrossValidator

Требования

Пример записной книжки

В следующей записной книжке показано, как использовать распределенное машинное обучение в Databricks Connect:

Распределенное машинное обучение в Databricks Connect

Получение записной книжки

Справочные сведения об API в pyspark.ml.connectDatabricks рекомендует справочник по API Apache Spark