Обучение моделей машинного обучения Spark в Databricks Connect с помощью pyspark.ml.connect
Внимание
Эта функция предоставляется в режиме общедоступной предварительной версии.
В этой статье приведен пример использования pyspark.ml.connect
модуля для обучения моделей машинного обучения Spark и вывода модели в Databricks Connect.
Что такое pyspark.ml.connect
?
В Spark 3.5 представлена pyspark.ml.connect
поддержка режима подключения Spark и Databricks Connect. Дополнительные сведения о Databricks Connect.
Модуль pyspark.ml.connect
состоит из распространенных алгоритмов обучения и служебных программ, включая классификацию, преобразователи признаков, конвейеры машинного обучения и перекрестную проверку. Этот модуль предоставляет аналогичные интерфейсы для устаревшего pyspark.ml
модуля, но pyspark.ml.connect
модуль в настоящее время содержит только подмножество алгоритмов.pyspark.ml
Ниже перечислены поддерживаемые алгоритмы.
- Алгоритм классификации:
pyspark.ml.connect.classification.LogisticRegression
- Преобразователи функций:
pyspark.ml.connect.feature.MaxAbsScaler
иpyspark.ml.connect.feature.StandardScaler
- Вычислитель:
pyspark.ml.connect.RegressionEvaluator
pyspark.ml.connect.BinaryClassificationEvaluator
иMulticlassClassificationEvaluator
- Трубопровод:
pyspark.ml.connect.pipeline.Pipeline
- Настройка модели:
pyspark.ml.connect.tuning.CrossValidator
Требования
- Настройте Databricks Connect в кластерах. См . сведения о конфигурации вычислений для Databricks Connect.
- Databricks Runtime 14.0 ML или более поздней версии.
- Режим доступа к кластеру
Assigned
.
Пример записной книжки
В следующей записной книжке показано, как использовать распределенное машинное обучение в Databricks Connect:
Распределенное машинное обучение в Databricks Connect
Справочные сведения об API в pyspark.ml.connect
Databricks рекомендует справочник по API Apache Spark