Sdílet prostřednictvím


Trénování modelů Spark ML v Databricks Connect s využitím pyspark.ml.connect

Důležité

Tato funkce je ve verzi Public Preview.

Tento článek obsahuje příklad, který ukazuje, jak pomocí pyspark.ml.connect modulu provádět distribuované trénování pro trénování modelů Spark ML a spouštění odvozování modelů v Databricks Connect.

Co je pyspark.ml.connect?

Spark 3.5 zavádí pyspark.ml.connect , který je navržený pro podporu režimu připojení Sparku a Databricks Connect. Přečtěte si další informace o službě Databricks Connect.

Tento pyspark.ml.connect modul se skládá z běžných algoritmů učení a nástrojů, včetně klasifikace, transformátorů funkcí, kanálů ML a křížového ověřování. Tento modul poskytuje podobná rozhraní jako starší pyspark.ml.connectpyspark.ml Podporované algoritmy jsou uvedené níže:

  • Klasifikační algoritmus: pyspark.ml.connect.classification.LogisticRegression
  • Transformátory funkcí: pyspark.ml.connect.feature.MaxAbsScaler a pyspark.ml.connect.feature.StandardScaler
  • Vyhodnocovače: pyspark.ml.connect.RegressionEvaluatorpyspark.ml.connect.BinaryClassificationEvaluator aMulticlassClassificationEvaluator
  • Potrubí: pyspark.ml.connect.pipeline.Pipeline
  • Ladění modelů: pyspark.ml.connect.tuning.CrossValidator

Požadavky

Příklad poznámkového bloku

Následující poznámkový blok ukazuje použití distribuovaného strojového učení ve službě Databricks Connect:

Distribuované strojové učení ve službě Databricks Connect

Get poznámkový blok

Referenční informace o rozhraních API v pyspark.ml.connectnástroji Databricks doporučuje referenční informace k rozhraní Apache Spark API.