Trainieren von Spark ML-Modellen in Databricks Connect mit pyspark.ml.connect
Wichtig
Dieses Feature befindet sich in der Public Preview.
In diesem Artikel wird ein Beispiel bereitgestellt, das veranschaulicht, wie Sie das pyspark.ml.connect
-Modul verwenden, um verteiltes Training durchzuführen, um Spark ML-Modelle zu trainieren und den Modellrückschluss in Databricks Connect auszuführen.
Was ist pyspark.ml.connect
?
Spark 3.5 führt das pyspark.ml.connect
-Modell ein, das für die Unterstützung des Spark Connect-Modus und von Databricks Connect entwickelt wurde. Weitere Informationen zu Databricks Connect.
Das pyspark.ml.connect
-Modul besteht aus allgemeinen Lernalgorithmen und Hilfsprogrammen, einschließlich Klassifizierung, Funktionstransformatoren, ML-Pipelines und Kreuzvalidierung. Dieses Modul bietet ähnliche Schnittstellen zum älteren pyspark.ml
-Modul, aber das pyspark.ml.connect
-Modul enthält derzeit nur eine Teilmenge der Algorithmen in pyspark.ml
. Es werden die folgenden Algorithmen unterstützt:
- Klassifizierungsalgorithmus:
pyspark.ml.connect.classification.LogisticRegression
- Featuretransformatoren:
pyspark.ml.connect.feature.MaxAbsScaler
undpyspark.ml.connect.feature.StandardScaler
- Auswerter:
pyspark.ml.connect.RegressionEvaluator
,pyspark.ml.connect.BinaryClassificationEvaluator
undMulticlassClassificationEvaluator
- Pipeline:
pyspark.ml.connect.pipeline.Pipeline
- Modelloptimierung:
pyspark.ml.connect.tuning.CrossValidator
Anforderungen
- Richten Sie Databricks Connect auf Ihren Clustern ein. Siehe Computekonfiguration für Databricks Connect.
- Databricks Runtime 14.0 ML oder höher ist installiert.
- Clusterzugriffsmodus von
Assigned
.
Notebook mit Beispielen
Das folgende Notebook veranschaulicht die Verwendung von verteiltem ML auf Databricks Connect:
Verteiltes ML auf Databricks Connect
Für Referenzinformationen zu APIs in pyspark.ml.connect
empfiehlt Databricks die Apache Spark API-Referenz