Entrenamiento de modelos de Spark ML en Databricks Connect con pyspark.ml.connect
Importante
Esta característica está en versión preliminar pública.
En este artículo, se proporciona un ejemplo que muestra cómo usar el módulo pyspark.ml.connect
para realizar el entrenamiento distribuido para entrenar modelos de Spark ML y ejecutar la inferencia de modelos en Databricks Connect.
¿Qué es pyspark.ml.connect
?
Spark 3.5 presenta pyspark.ml.connect
, que está diseñado para admitir el modo de conexión de Spark y Databricks Connect. Obtenga más información sobre Databricks Connect.
El módulo pyspark.ml.connect
consta de algoritmos y utilidades de aprendizaje comunes, como la clasificación, los transformadores de características, las canalizaciones de ML y la validación cruzada. Este módulo proporciona interfaces similares al módulo heredado pyspark.ml
, pero actualmente el módulo pyspark.ml.connect
solo contiene un subconjunto de los algoritmos de pyspark.ml
. A continuación, se enumeran los algoritmos admitidos:
- Algoritmo de clasificación:
pyspark.ml.connect.classification.LogisticRegression
- Transformadores de características:
pyspark.ml.connect.feature.MaxAbsScaler
ypyspark.ml.connect.feature.StandardScaler
- Evaluador:
pyspark.ml.connect.RegressionEvaluator
,pyspark.ml.connect.BinaryClassificationEvaluator
yMulticlassClassificationEvaluator
- Canalización:
pyspark.ml.connect.pipeline.Pipeline
- Ajuste de modelos:
pyspark.ml.connect.tuning.CrossValidator
Requisitos
- Configure Databricks Connect en los clústeres. Consulte Configuración de proceso para Databricks Connect.
- Databricks Runtime 14.0 ML o superior instalado.
- Modo de acceso al clúster de
Assigned
.
Cuaderno de ejemplo
En el cuaderno siguiente, se muestra cómo usar Distributed ML en Databricks Connect:
Distributed ML en Databricks Connect
Para obtener información de referencia sobre las API en pyspark.ml.connect
, Databricks recomienda la referencia de la API de Apache Spark