Treinar modelos de ML do Spark no Databricks Connect com pyspark.ml.connect
Importante
Esse recurso está em uma versão prévia.
Este artigo fornece um exemplo que demonstra como usar o módulo pyspark.ml.connect
para executar o treinamento distribuído para treinar modelos de ML do Spark e executar inferência de modelo no Databricks Connect.
O que é pyspark.ml.connect
?
O Spark 3.5 apresenta pyspark.ml.connect
que foi projetado para dar suporte ao modo de conexão do Spark e ao Databricks Connect. Saiba mais sobre o Databricks Connect.
O módulo pyspark.ml.connect
consiste em algoritmos e utilitários de aprendizado comuns, incluindo classificação, transformadores de recursos, pipelines de ML e validação cruzada. Este módulo fornece interfaces semelhantes ao módulo herdado pyspark.ml
, mas atualmente o módulo pyspark.ml.connect
contém apenas um subconjunto dos algoritmos em pyspark.ml
. Os algoritmos com suporte são listados abaixo:
- Algoritmo de classificação:
pyspark.ml.connect.classification.LogisticRegression
- Transformadores de recursos:
pyspark.ml.connect.feature.MaxAbsScaler
epyspark.ml.connect.feature.StandardScaler
- Avaliador:
pyspark.ml.connect.RegressionEvaluator
,pyspark.ml.connect.BinaryClassificationEvaluator
eMulticlassClassificationEvaluator
- Pipeline:
pyspark.ml.connect.pipeline.Pipeline
- Ajuste de modelo:
pyspark.ml.connect.tuning.CrossValidator
Requisitos
- Configure o Databricks Connect em seus clusters. Consulte Configuração de computação para o Databricks Connect.
- Databricks Runtime 14.0 ML ou superior instalado.
- Modo de acesso de cluster de
Assigned
.
Caderno de exemplo
O notebook a seguir demonstra como usar o ML Distribuído no Databricks Connect:
ML distribuído no Databricks Connect
Para obter informações de referência sobre APIs em pyspark.ml.connect
, o Databricks recomenda a referência da API do Apache Spark