Treinar modelos de classificação com a API do AutoML Python
Este artigo demonstra como treinar um modelo com o AutoML usando a API do AutoML Python. Consulte Referência da API do AutoML Python para obter mais detalhes.
A API fornece funções para iniciar execuções de classificação, regressão e regressão do AutoML. Cada chamada de função treina um conjunto de modelos e gera um notebook de avaliação para cada modelo.
Consulte Requisitos para experimentos do AutoML.
Configurar um experimento usando a API do AutoML
As seguintes etapas descrevem geralmente como configurar um experimento de AutoML usando a API:
Crie um notebook e anexe-o a um cluster Databricks Runtime ML.
Identifique qual tabela você deseja usar da fonte de dados existente ou carregue um arquivo de dados no DBFS e crie uma tabela.
Para iniciar uma execução do AutoML, use a
automl.regress()
função ,automl.classify()
ouautoml.forecast()
e passe a tabela, juntamente com quaisquer outros parâmetros de treinamento. Para ver todas as funções e parâmetros, consulte Referência da API do AutoML Python.Observação
A
automl.forecast()
função só está disponível para previsão na computação clássica.Por exemplo:
# Regression example summary = automl.regress(dataset=train_pdf, target_col="col_to_predict") # Classification example summary = automl.classification(dataset=train_pdf, target_col="col_to_predict") # Forecasting example summary = automl.forecast(dataset=train_pdf, target_col="col_to_predic", time_col="date_col", horizon=horizon, frequency="d", output_database="default")
Quando a executar o AutoML é iniciada, uma URL de experimento do MLflow é exibida no console. Use essa URL para monitorar o progresso da execução. Atualize o experimento do MLflow para ver as avaliação conforme elas são concluídas.
Após a conclusão da executar o AutoML:
- Use os links no resumo de saída para navegar até o experimento do MLflow ou para o notebook que gerou os melhores resultados.
- Use o link para o notebook de exploração de dados para obter algumas informações sobre os dados passados para o AutoML. Você também pode anexar esse notebook ao mesmo cluster e executá-lo novamente para reproduzir os resultados ou fazer análises de dados adicionais.
- Use o objeto de resumo retornado da chamada AutoML para explorar mais detalhes sobre as avaliação ou carregar um modelo treinado por uma determinada avaliação. Saiba mais sobre o objeto AutoMLSummary.
- Clone qualquer notebook gerado das avaliações e execute-o novamente anexando-o ao mesmo cluster para reproduzir os resultados. Você também pode fazer as edições necessárias e executá-las novamente para treinar modelos adicionais e registrá-los no mesmo experimento.
Importar um notebook
Para importar um notebook salvo como um artefato do MLflow, use a API do Python databricks.automl.import_notebook
. Para obter mais informações, consulte Importar um notebook
Registrar e implantar um modelo
Você pode registrar e implantar seu modelo treinado de AutoML como qualquer modelo registrado no registro de modelo do MLflow. Consulte Registrar em log, carregar, registrar e implantar modelos do MLflow.
Nenhum módulo chamado pandas.core.indexes.numeric
Ao servir um modelo criado usando o AutoML com o Serviço de Modelo, você pode receber o erro: No module named pandas.core.indexes.numeric
.
Isso ocorre devido a uma versão incompatível pandas
entre o AutoML e o modelo que atende ao ambiente de ponto de extremidade. Para resolver o erro:
- Baixe o script add-pandas-dependency.py.
O script edita o
requirements.txt
econda.yaml
para o modelo registrado incluir a versão de dependência apropriadapandas
:pandas==1.5.3
. - Modifique o script para incluir o
run_id
da execução do MLflow em que o modelo foi registrado. - Registre novamente o modelo no registro de modelo do MLflow.
- Tente fornecer a nova versão do modelo MLflow.
Exemplo de notebook
O notebook a seguir mostra como fazer a classificação com o AutoML.
Notebook de exemplo de classificação de AutoML
Próximas etapas
Referência da API do AutoML Python.