Träna Spark ML-modeller på Databricks Connect med pyspark.ml.connect
Viktigt!
Den här funktionen finns som allmänt tillgänglig förhandsversion.
Den här artikeln innehåller ett exempel som visar hur du använder modulen pyspark.ml.connect
för att utföra distribuerad träning för att träna Spark ML-modeller och köra modellinferens på Databricks Connect.
Vad är pyspark.ml.connect
?
Spark 3.5 introducerar pyspark.ml.connect
som är utformat för stöd för Spark-anslutningsläge och Databricks Connect. Läs mer om Databricks Connect.
Modulen pyspark.ml.connect
består av vanliga inlärningsalgoritmer och verktyg, inklusive klassificering, funktionstransformatorer, ML-pipelines och korsvalidering. Den här modulen tillhandahåller liknande gränssnitt som den äldre pyspark.ml
modulen, men modulen pyspark.ml.connect
innehåller för närvarande bara en delmängd av algoritmerna i pyspark.ml
. De algoritmer som stöds visas nedan:
- Klassificeringsalgoritm:
pyspark.ml.connect.classification.LogisticRegression
- Funktionstransformatorer:
pyspark.ml.connect.feature.MaxAbsScaler
ochpyspark.ml.connect.feature.StandardScaler
- Utvärderare:
pyspark.ml.connect.RegressionEvaluator
,pyspark.ml.connect.BinaryClassificationEvaluator
ochMulticlassClassificationEvaluator
- Rörledning:
pyspark.ml.connect.pipeline.Pipeline
- Modelljustering:
pyspark.ml.connect.tuning.CrossValidator
Krav
- Konfigurera Databricks Connect i dina kluster. Se Beräkningskonfiguration för Databricks Connect.
- Databricks Runtime 14.0 ML eller senare installerat.
- Klusteråtkomstläge
Assigned
för .
Exempelnotebook-fil
Följande notebook-fil visar hur du använder distribuerad ML på Databricks Connect:
Distribuerad ML på Databricks Connect
För referensinformation om API:er i pyspark.ml.connect
rekommenderar Databricks Apache Spark API-referensen