Compartir vía


Entrenamiento de modelos de Spark ML en Databricks Connect con pyspark.ml.connect

Importante

Esta característica está en versión preliminar pública.

En este artículo, se proporciona un ejemplo que muestra cómo usar el módulo pyspark.ml.connect para realizar el entrenamiento distribuido para entrenar modelos de Spark ML y ejecutar la inferencia de modelos en Databricks Connect.

¿Qué es pyspark.ml.connect?

Spark 3.5 presenta pyspark.ml.connect, que está diseñado para admitir el modo de conexión de Spark y Databricks Connect. Obtenga más información sobre Databricks Connect.

El módulo pyspark.ml.connect consta de algoritmos y utilidades de aprendizaje comunes, como la clasificación, los transformadores de características, las canalizaciones de ML y la validación cruzada. Este módulo proporciona interfaces similares al módulo heredado pyspark.ml, pero actualmente el módulo pyspark.ml.connect solo contiene un subconjunto de los algoritmos de pyspark.ml. A continuación, se enumeran los algoritmos admitidos:

  • Algoritmo de clasificación: pyspark.ml.connect.classification.LogisticRegression
  • Transformadores de características: pyspark.ml.connect.feature.MaxAbsScaler y pyspark.ml.connect.feature.StandardScaler
  • Evaluador: pyspark.ml.connect.RegressionEvaluator, pyspark.ml.connect.BinaryClassificationEvaluator y MulticlassClassificationEvaluator
  • Canalización: pyspark.ml.connect.pipeline.Pipeline
  • Ajuste de modelos: pyspark.ml.connect.tuning.CrossValidator

Requisitos

Cuaderno de ejemplo

En el cuaderno siguiente, se muestra cómo usar Distributed ML en Databricks Connect:

Distributed ML en Databricks Connect

Obtener el cuaderno

Para obtener información de referencia sobre las API en pyspark.ml.connect, Databricks recomienda la referencia de la API de Apache Spark