Compartilhar via


Treinar modelos de ML do Spark no Databricks Connect com pyspark.ml.connect

Importante

Esse recurso está em uma versão prévia.

Este artigo fornece um exemplo que demonstra como usar o módulo pyspark.ml.connect para executar o treinamento distribuído para treinar modelos de ML do Spark e executar inferência de modelo no Databricks Connect.

O que é pyspark.ml.connect?

O Spark 3.5 apresenta pyspark.ml.connect que foi projetado para dar suporte ao modo de conexão do Spark e ao Databricks Connect. Saiba mais sobre o Databricks Connect.

O módulo pyspark.ml.connect consiste em algoritmos e utilitários de aprendizado comuns, incluindo classificação, transformadores de recursos, pipelines de ML e validação cruzada. Este módulo fornece interfaces semelhantes ao módulo herdado pyspark.ml, mas atualmente o módulo pyspark.ml.connect contém apenas um subconjunto dos algoritmos em pyspark.ml. Os algoritmos com suporte são listados abaixo:

  • Algoritmo de classificação: pyspark.ml.connect.classification.LogisticRegression
  • Transformadores de recursos: pyspark.ml.connect.feature.MaxAbsScaler e pyspark.ml.connect.feature.StandardScaler
  • Avaliador: pyspark.ml.connect.RegressionEvaluator, pyspark.ml.connect.BinaryClassificationEvaluator e MulticlassClassificationEvaluator
  • Pipeline: pyspark.ml.connect.pipeline.Pipeline
  • Ajuste de modelo: pyspark.ml.connect.tuning.CrossValidator

Requisitos

Caderno de exemplo

O notebook a seguir demonstra como usar o ML Distribuído no Databricks Connect:

ML distribuído no Databricks Connect

Obter notebook

Para obter informações de referência sobre APIs em pyspark.ml.connect, o Databricks recomenda a referência da API do Apache Spark