Spark ML-modellen trainen in Databricks Connect met pyspark.ml.connect
Belangrijk
Deze functie is beschikbaar als openbare preview.
Dit artikel bevat een voorbeeld dat laat zien hoe u de pyspark.ml.connect
module gebruikt om gedistribueerde training uit te voeren om Spark ML-modellen te trainen en modeldeductie uit te voeren op Databricks Connect.
Wat is pyspark.ml.connect
?
Spark 3.5 introduceert pyspark.ml.connect
dat is ontworpen voor het ondersteunen van de Spark-verbindingsmodus en Databricks Connect. Meer informatie over Databricks Connect.
De pyspark.ml.connect
module bestaat uit algemene leeralgoritmen en hulpprogramma's, waaronder classificatie, functietransformaties, ML-pijplijnen en kruisvalidatie. Deze module biedt vergelijkbare interfaces als de verouderde pyspark.ml
module, maar de pyspark.ml.connect
module bevat momenteel alleen een subset van de algoritmen in pyspark.ml
. De ondersteunde algoritmen worden hieronder vermeld:
- Classificatie-algoritme:
pyspark.ml.connect.classification.LogisticRegression
- Functietransformatoren:
pyspark.ml.connect.feature.MaxAbsScaler
enpyspark.ml.connect.feature.StandardScaler
- Evaluator:
pyspark.ml.connect.RegressionEvaluator
enpyspark.ml.connect.BinaryClassificationEvaluator
MulticlassClassificationEvaluator
- Pijpleiding:
pyspark.ml.connect.pipeline.Pipeline
- Modelafstemming:
pyspark.ml.connect.tuning.CrossValidator
Vereisten
- Stel Databricks Connect in op uw clusters. Zie de compute-configuratie voor Databricks Connect.
- Databricks Runtime 14.0 ML of hoger geïnstalleerd.
- Clustertoegangsmodus van
Assigned
.
Voorbeeld van notebook
In het volgende notebook ziet u hoe u gedistribueerde ML gebruikt in Databricks Connect:
Gedistribueerde ML op Databricks Connect
Voor referentie-informatie over API's in pyspark.ml.connect
, raadt Databricks de Apache Spark-API-verwijzing aan