Delen via


Spark ML-modellen trainen in Databricks Connect met pyspark.ml.connect

Belangrijk

Deze functie is beschikbaar als openbare preview.

Dit artikel bevat een voorbeeld dat laat zien hoe u de pyspark.ml.connect module gebruikt om gedistribueerde training uit te voeren om Spark ML-modellen te trainen en modeldeductie uit te voeren op Databricks Connect.

Wat is pyspark.ml.connect?

Spark 3.5 introduceert pyspark.ml.connect dat is ontworpen voor het ondersteunen van de Spark-verbindingsmodus en Databricks Connect. Meer informatie over Databricks Connect.

De pyspark.ml.connect module bestaat uit algemene leeralgoritmen en hulpprogramma's, waaronder classificatie, functietransformaties, ML-pijplijnen en kruisvalidatie. Deze module biedt vergelijkbare interfaces als de verouderde pyspark.ml module, maar de pyspark.ml.connect module bevat momenteel alleen een subset van de algoritmen in pyspark.ml. De ondersteunde algoritmen worden hieronder vermeld:

  • Classificatie-algoritme: pyspark.ml.connect.classification.LogisticRegression
  • Functietransformatoren: pyspark.ml.connect.feature.MaxAbsScaler en pyspark.ml.connect.feature.StandardScaler
  • Evaluator: pyspark.ml.connect.RegressionEvaluatoren pyspark.ml.connect.BinaryClassificationEvaluatorMulticlassClassificationEvaluator
  • Pijpleiding: pyspark.ml.connect.pipeline.Pipeline
  • Modelafstemming: pyspark.ml.connect.tuning.CrossValidator

Vereisten

Voorbeeld van notebook

In het volgende notebook ziet u hoe u gedistribueerde ML gebruikt in Databricks Connect:

Gedistribueerde ML op Databricks Connect

Notitieblok ophalen

Voor referentie-informatie over API's in pyspark.ml.connect, raadt Databricks de Apache Spark-API-verwijzing aan