O que é AutoML?
O AutoML simplifica o processo de aplicação do aprendizado de máquina aos seus conjuntos de dados, encontrando automaticamente o melhor algoritmo e a melhor configuração de hiperparâmetro para você.
Como o AutoML funciona?
Forneça seu conjunto de dados e especifique o tipo de problema de aprendizado de máquina. Em seguida, o AutoML fará o seguinte:
- Limpa e prepara seus dados.
- Orquestra o treinamento de modelo distribuído e o ajuste de hiperparâmetro em vários algoritmos.
- Localiza o melhor modelo usando algoritmos de avaliação de software livre de scikit-learn, xgboost, LightGBM, Prophet e ARIMA.
- Apresenta os resultados. O AutoML também gera notebooks de código-fonte para cada avaliação, permitindo que você examine, reproduza e modifique o código conforme necessário.
Comece a usar os experimentos do AutoML por meio de uma interface do usuário de baixo código para regressão; classificação; ou previsão, ou a API Python.
Requisitos
O Azure Databricks recomenda o Databricks Runtime 10.4 LTS ML ou superior para disponibilidade geral do AutoML.
O AutoML depende do
databricks-automl-runtime
pacote, que contém componentes que são úteis fora do AutoML e também ajuda a simplificar os blocos de anotações gerados pelo treinamento do AutoML.databricks-automl-runtime
está disponível em PyPI.Nenhuma biblioteca adicional, além daquelas instaladas previamente no Databricks Runtime for Machine Learning, deve ser instalada no cluster.
- Qualquer modificação (remoção, atualizações ou realização de downgrade) para as versões de bibliotecas existentes resulta em falhas de execução devido à incompatibilidade.
Para acessar arquivos no seu workspace, você deve ter as portas de rede 1017 e 1021 abertas para experimentos de AutoML. Para abrir essas portas ou confirmar se estão abertas, revise a configuração do firewall da VPN na nuvem e as regras do grupo de segurança ou contate o administrador da nuvem local. Para obter informações adicionais sobre a configuração e a implantação do workspace, consulte Criar um workspace.
Use um recurso de computação com um modo de acesso de computação compatível. Nem todos os modos de acesso de computação têm acesso ao Catálogo do Unity:
Computar modo de acesso Suporte ao AutoML Suporte ao Catálogo do Unity Usuário único Com suporte (deve ser o usuário único designado para o cluster) Com suporte Modo de acesso compartilhado Sem suporte Sem suporte Sem isolamento compartilhado Com suporte Sem suporte
Algoritmos AutoML
O AutoML treina e avalia modelos com base nos algoritmos da tabela a seguir.
Observação
Para os modelos de classificação e regressão, a árvore de decisão, as florestas aleatórias, a regressão logística e a regressão linear com algoritmos de descendente de gradiente estocástico são baseadas no scikit-learn.
Modelos de classificação | Modelos de regressão | Modelos de previsão |
---|---|---|
Árvores de decisão | Árvores de decisão | Prophet |
Florestas aleatórias | Florestas aleatórias | Auto-ARIMA (disponível no Databricks Runtime 10.3 ML e superior.) |
Regressão logística | Regressão linear com espaço descendente de gradiente aleatório | |
XGBoost | XGBoost | |
LightGBM | LightGBM |
Geração de notebook de avaliação
O AutoML de computação clássico gera notebooks do código-fonte por trás das avaliações para que você possa revisar, reproduzir e modificar o código conforme necessário.
Para previsão de experimentos, os notebooks gerados pelo AutoML são importados automaticamente para o workspace para todas as avaliações do experimento.
Para experimentos de classificação e regressão, os notebooks gerados pelo AutoML para exploração de dados e a melhor avaliação em seu experimento são automaticamente importados para o seu workspace. Os notebooks gerados para outras avaliações de experimento são salvos como artefatos do MLflow no DBFS, em vez de importados automaticamente para o seu workspace. Para todas as avaliações além da melhor avaliação, o notebook_path
e notebook_url
na API do Python TrialInfo
não estão definidos. Se você precisar usar esses notebooks, poderá importá-los manualmente para seu workspace com a interface do usuário do experimento AutoML ou a databricks.automl.import_notebook
API do Python.
Se você usar apenas o notebook de exploração de dados ou o bloco de anotações de melhor avaliação gerado pelo AutoML, a coluna Origem na interface do usuário do experimento AutoML conterá o link para o notebook gerado para a melhor avaliação.
Se você usar outros notebooks gerados na interface do usuário do experimento AutoML, eles não serão importados automaticamente para o workspace. Você pode encontrar os blocos de anotações clicando em cada execução do MLflow. O notebook IPython é salvo na seção Artefatos da página de execução. Você pode baixar esse notebook e importá-lo para o workspace se o download de artefatos tiver sido habilitado pelos administradores do seu workspace.
Valores de Shapley (SHAP) para explicabilidade de modelo
Observação
Para o MLR 11.1 e versões anteriores, os gráficos SHAP não serão gerados se o conjunto de dados contiver uma coluna datetime
.
Os notebooks produzidos pela regressão de AutoML e execuções de classificação incluem código para calcular valores de Shapley. Os valores de Shapley são baseados na teoria do jogo e estimam a importância de cada recurso para as previsões de um modelo.
Os notebooks AutoML calculam valores Shapley usando o pacote SHAP. Como esses cálculos têm uso muito intenso de memória, eles não são executados por padrão.
Para calcular e exibir valores de Shapley:
- Vá para a seção Importância do recurso em um notebook de avaliação gerado por AutoML.
- Defina
shap_enabled = True
. - Execute novamente o notebook.