Trénování modelů Spark ML v Databricks Connect s využitím pyspark.ml.connect
Důležité
Tato funkce je ve verzi Public Preview.
Tento článek obsahuje příklad, který ukazuje, jak pomocí pyspark.ml.connect
modulu provádět distribuované trénování pro trénování modelů Spark ML a spouštění odvozování modelů v Databricks Connect.
Co je pyspark.ml.connect
?
Spark 3.5 zavádí pyspark.ml.connect
, který je navržený pro podporu režimu připojení Sparku a Databricks Connect. Přečtěte si další informace o službě Databricks Connect.
Tento pyspark.ml.connect
modul se skládá z běžných algoritmů učení a nástrojů, včetně klasifikace, transformátorů funkcí, kanálů ML a křížového ověřování. Tento modul poskytuje podobná rozhraní jako starší pyspark.ml.connect
pyspark.ml
Podporované algoritmy jsou uvedené níže:
- Klasifikační algoritmus:
pyspark.ml.connect.classification.LogisticRegression
- Transformátory funkcí:
pyspark.ml.connect.feature.MaxAbsScaler
apyspark.ml.connect.feature.StandardScaler
- Vyhodnocovače:
pyspark.ml.connect.RegressionEvaluator
pyspark.ml.connect.BinaryClassificationEvaluator
aMulticlassClassificationEvaluator
- Potrubí:
pyspark.ml.connect.pipeline.Pipeline
- Ladění modelů:
pyspark.ml.connect.tuning.CrossValidator
Požadavky
- Set Nastavte Databricks Connect na vašich clusterech. Viz Konfigurace výpočetních prostředků pro Databricks Connect.
- Nainstalovaná verze Databricks Runtime 14.0 ML nebo vyšší.
- Režim přístupu ke clusteru .
Assigned
Příklad poznámkového bloku
Následující poznámkový blok ukazuje použití distribuovaného strojového učení ve službě Databricks Connect:
Distribuované strojové učení ve službě Databricks Connect
Referenční informace o rozhraních API v pyspark.ml.connect
nástroji Databricks doporučuje referenční informace k rozhraní Apache Spark API.