Entrenamiento de modelos de clasificación con la API de Python de AutoML
En este artículo se muestra cómo entrenar un modelo con AutoML mediante la API de Python de AutoML. Consulte Referencia de la API de Python de AutoML para obtener más detalles.
La API proporciona funciones para iniciar las ejecuciones de AutoML de clasificación, regresión y previsión. Cada llamada de función entrena un conjunto de modelos y genera un cuaderno de prueba para cada modelo.
Consulte los requisitos para los experimentos de AutoML.
Configuración de experimentos mediante la API de AutoML
En los siguientes pasos se describe a grandes rasgos cómo configurar un experimento de AutoML mediante la API:
Cree un cuaderno y adjúntelo a un clúster que ejecute Databricks Runtime ML.
Identifique qué tabla desea usar desde el origen de datos existente o cargue un archivo de datos en DBFS y cree una tabla.
Para iniciar una ejecución de AutoML, use la
automl.regress()
función ,automl.classify()
oautoml.forecast()
y pase la tabla, junto con cualquier otro parámetro de entrenamiento. Para ver todas las funciones y parámetros, consulte Referencia de la API de Python de AutoML.Nota:
La
automl.forecast()
función solo está disponible para la previsión en el proceso clásico.Por ejemplo:
# Regression example summary = automl.regress(dataset=train_pdf, target_col="col_to_predict") # Classification example summary = automl.classification(dataset=train_pdf, target_col="col_to_predict") # Forecasting example summary = automl.forecast(dataset=train_pdf, target_col="col_to_predic", time_col="date_col", horizon=horizon, frequency="d", output_database="default")
Cuando se inicia la ejecución de AutoML, aparece una URL del experimento de MLflow en la consola. Use esta dirección URL para supervisar el progreso de la ejecución. Actualice el experimento de MLflow para ver las pruebas a medida que se completan.
Una vez completada la ejecución de AutoML:
- Use los vínculos del resumen de salida para ir al experimento de MLflow o al cuaderno que generó los mejores resultados.
- Use el vínculo al cuaderno de exploración de datos para obtener información sobre los datos pasados a AutoML. También puede adjuntar este cuaderno al mismo clúster y volver a ejecutarlo para reproducir los resultados o realizar análisis de datos adicionales.
- Use el objeto de resumen devuelto por la llamada a AutoML para explorar más detalles sobre las pruebas, o para cargar un modelo entrenado por una prueba determinada. Obtenga más información sobre el objeto AutoMLSummary.
- Clone los cuadernos generados a partir de las pruebas, y vuelva a ejecutarlo asociándolo al mismo clúster para reproducir los resultados. También puede realizar las modificaciones necesarias y volver a ejecutarlas, para entrenar modelos adicionales y registrarlos en el mismo experimento.
Importación de un cuaderno
Para importar un cuaderno guardado como un artefacto de MLflow, use la Python API databricks.automl.import_notebook
. Para más información, consulte Importación de cuadernos.
Registro e implementación de un modelo
El modelo entrenado de AutoML se puede registrar e implementar igual que cualquier otro modelo registrado en el registro de modelos de MLflow. Consulte Registro, carga e implementación de modelos de MLflow.
No hay ningún módulo denominado pandas.core.indexes.numeric
Al atender un modelo compilado mediante AutoML con el servicio de modelos, puede obtener este error: No module named pandas.core.indexes.numeric
.
Esto se debe a una versión de pandas
incompatible entre AutoML y el entorno de punto de conexión del servicio de modelos. Para resolver el error:
- Descargue el script de add-pandas-dependency.py.
El script edita
requirements.txt
yconda.yaml
para que el modelo registrado incluya la versión de dependencia adecuadapandas
:pandas==1.5.3
. - Modifique el script para incluir el
run_id
de la ejecución de MLflow donde se ha registrado el modelo. - Vuelva a registrar el modelo en el registro de modelos de MLflow.
- Pruebe a servir la nueva versión del modelo de MLflow.
Ejemplo de cuaderno
El siguiente cuaderno muestra cómo hacer la clasificación con AutoML.
Cuaderno de ejemplo de clasificación de AutoML
Pasos siguientes
Referencia de api de Python de AutoML.