Entrenamiento de modelos de Machine Learning con la API de Python de AutoML de Mosaico
En este artículo se muestra cómo entrenar un modelo con Mosaic AutoML mediante la API de Python de AutoML. Consulte La referencia de la API de Python de AutoML de Mosaico para obtener más detalles.
La API proporciona funciones para iniciar las ejecuciones de AutoML de clasificación, regresión y previsión. Cada llamada de función entrena un conjunto de modelos y genera un cuaderno de prueba para cada modelo.
Consulte los requisitos para los experimentos de AutoML.
Configuración de experimentos mediante la API de AutoML
En los siguientes pasos se describe a grandes rasgos cómo configurar un experimento de AutoML mediante la API:
Cree un cuaderno y adjúntelo a un clúster que ejecute Databricks Runtime ML.
Identifique qué tabla desea usar desde el origen de datos existente o cargue un archivo de datos en DBFS y cree una tabla.
Para iniciar una ejecución de AutoML, use las funciones
automl.regress()
oautoml.classify()
y pase la tabla, junto con cualesquiera otros parámetro de entrenamiento. Para ver todas las funciones y parámetros, consulte Mosaico de referencia de la API de Python de AutoML.Por ejemplo:
summary = automl.regress(dataset=train_pdf, target_col="col_to_predict")
Cuando se inicia la ejecución de AutoML, aparece una URL del experimento de MLflow en la consola. Use esta dirección URL para supervisar el progreso de la ejecución. Actualice el experimento de MLflow para ver las pruebas a medida que se completan.
Una vez completada la ejecución de AutoML:
- Use los vínculos del resumen de salida para ir al experimento de MLflow o al cuaderno que generó los mejores resultados.
- Use el vínculo al cuaderno de exploración de datos para obtener información sobre los datos pasados a AutoML. También puede adjuntar este cuaderno al mismo clúster y volver a ejecutarlo para reproducir los resultados o realizar análisis de datos adicionales.
- Use el objeto de resumen devuelto por la llamada a AutoML para explorar más detalles sobre las pruebas, o para cargar un modelo entrenado por una prueba determinada. Obtenga más información sobre el objeto AutoMLSummary.
- Clone los cuadernos generados a partir de las pruebas, y vuelva a ejecutarlo asociándolo al mismo clúster para reproducir los resultados. También puede realizar las modificaciones necesarias y volver a ejecutarlas, para entrenar modelos adicionales y registrarlos en el mismo experimento.
Importación de un cuaderno
Para importar un cuaderno guardado como un artefacto de MLflow, use la Python API databricks.automl.import_notebook
. Para más información, consulte Importación de cuadernos.
Registro e implementación de un modelo
El modelo entrenado de AutoML se puede registrar e implementar igual que cualquier otro modelo registrado en el registro de modelos de MLflow. Consulte Registro, carga e implementación de modelos de MLflow.
No hay ningún módulo denominado pandas.core.indexes.numeric
Al atender un modelo compilado mediante AutoML con el servicio de modelos, puede obtener este error: No module named 'pandas.core.indexes.numeric
.
Esto se debe a una versión de pandas
incompatible entre AutoML y el entorno de punto de conexión del servicio de modelos. Para resolver este error, ejecute el script add-pandas-dependency.py. El script edita requirements.txt
y conda.yaml
para que el modelo registrado incluya la versión de dependencia adecuada pandas
: pandas==1.5.3
.
- Modifique el script para incluir el
run_id
de la ejecución de MLflow donde se ha registrado el modelo. - Vuelva a registrar el modelo en el registro del modelo de MLflow.
- Pruebe a servir la nueva versión del modelo de MLflow.
Ejemplos de cuadernos
Revise estos cuadernos para empezar a trabajar con AutoML.
El siguiente cuaderno muestra cómo hacer la clasificación con AutoML.
Cuaderno de ejemplo de clasificación de AutoML
El siguiente cuaderno muestra cómo hacer una regresión con AutoML.
Cuaderno de ejemplo de regresión de AutoML
El siguiente cuaderno muestra cómo hacer previsiones con AutoML.
Cuaderno de ejemplo de previsión de AutoML
Pasos siguientes
Referencia de la API de Python de Mosaic AutoML.