Compartir a través de


Entrenamiento de modelos de clasificación con la API de Python de AutoML

En este artículo se muestra cómo entrenar un modelo con AutoML mediante la API de Python de AutoML. Consulte Referencia de la API de Python de AutoML para obtener más detalles.

La API proporciona funciones para iniciar las ejecuciones de AutoML de clasificación, regresión y previsión. Cada llamada de función entrena un conjunto de modelos y genera un cuaderno de prueba para cada modelo.

Consulte los requisitos para los experimentos de AutoML.

Configuración de experimentos mediante la API de AutoML

En los siguientes pasos se describe a grandes rasgos cómo configurar un experimento de AutoML mediante la API:

  1. Cree un cuaderno y adjúntelo a un clúster que ejecute Databricks Runtime ML.

  2. Identifique qué tabla desea usar desde el origen de datos existente o cargue un archivo de datos en DBFS y cree una tabla.

  3. Para iniciar una ejecución de AutoML, use la automl.regress()función , automl.classify()o automl.forecast() y pase la tabla, junto con cualquier otro parámetro de entrenamiento. Para ver todas las funciones y parámetros, consulte Referencia de la API de Python de AutoML.

    Nota:

    La automl.forecast() función solo está disponible para la previsión en el proceso clásico.

    Por ejemplo:

    # Regression example
    summary = automl.regress(dataset=train_pdf, target_col="col_to_predict")
    
    # Classification example
    summary = automl.classification(dataset=train_pdf, target_col="col_to_predict")
    
    # Forecasting example
    summary = automl.forecast(dataset=train_pdf, target_col="col_to_predic", time_col="date_col", horizon=horizon, frequency="d", output_database="default")
    
  4. Cuando se inicia la ejecución de AutoML, aparece una URL del experimento de MLflow en la consola. Use esta dirección URL para supervisar el progreso de la ejecución. Actualice el experimento de MLflow para ver las pruebas a medida que se completan.

  5. Una vez completada la ejecución de AutoML:

  • Use los vínculos del resumen de salida para ir al experimento de MLflow o al cuaderno que generó los mejores resultados.
  • Use el vínculo al cuaderno de exploración de datos para obtener información sobre los datos pasados a AutoML. También puede adjuntar este cuaderno al mismo clúster y volver a ejecutarlo para reproducir los resultados o realizar análisis de datos adicionales.
  • Use el objeto de resumen devuelto por la llamada a AutoML para explorar más detalles sobre las pruebas, o para cargar un modelo entrenado por una prueba determinada. Obtenga más información sobre el objeto AutoMLSummary.
  • Clone los cuadernos generados a partir de las pruebas, y vuelva a ejecutarlo asociándolo al mismo clúster para reproducir los resultados. También puede realizar las modificaciones necesarias y volver a ejecutarlas, para entrenar modelos adicionales y registrarlos en el mismo experimento.

Importación de un cuaderno

Para importar un cuaderno guardado como un artefacto de MLflow, use la Python API databricks.automl.import_notebook. Para más información, consulte Importación de cuadernos.

Registro e implementación de un modelo

El modelo entrenado de AutoML se puede registrar e implementar igual que cualquier otro modelo registrado en el registro de modelos de MLflow. Consulte Registro, carga e implementación de modelos de MLflow.

No hay ningún módulo denominado pandas.core.indexes.numeric

Al atender un modelo compilado mediante AutoML con el servicio de modelos, puede obtener este error: No module named pandas.core.indexes.numeric.

Esto se debe a una versión de pandas incompatible entre AutoML y el entorno de punto de conexión del servicio de modelos. Para resolver el error:

  1. Descargue el script de add-pandas-dependency.py. El script edita requirements.txt y conda.yaml para que el modelo registrado incluya la versión de dependencia adecuada pandas: pandas==1.5.3.
  2. Modifique el script para incluir el run_id de la ejecución de MLflow donde se ha registrado el modelo.
  3. Vuelva a registrar el modelo en el registro de modelos de MLflow.
  4. Pruebe a servir la nueva versión del modelo de MLflow.

Ejemplo de cuaderno

El siguiente cuaderno muestra cómo hacer la clasificación con AutoML.

Cuaderno de ejemplo de clasificación de AutoML

Obtener el cuaderno

Pasos siguientes

Referencia de api de Python de AutoML.