O que é AutoML?
O AutoML simplifica o processo de aplicação de aprendizado de máquina aos seus conjuntos de dados, encontrando automaticamente o melhor algoritmo e configuração de hiperparâmetro para você.
Como funciona o AutoML?
Forneça seu conjunto de dados e especifique o tipo de problema de aprendizado de máquina e, em seguida, o AutoML faz o seguinte:
- Limpa e prepara os seus dados.
- Orquestra o treinamento de modelos distribuídos e o ajuste de hiperparâmetros em vários algoritmos.
- Encontra o melhor modelo usando algoritmos de avaliação de código aberto de scikit-learn, xgboost, LightGBM, Prophet e ARIMA.
- Apresenta os resultados. O AutoML também gera blocos de anotações de código-fonte para cada avaliação, permitindo que você revise, reproduza e modifique o código conforme necessário.
Get começou com experiências de AutoML através de uma interface de usuário de pouco código para regressão , classificação , ou previsão , ou através da Python API .
Requerimentos
O Azure Databricks recomenda o Databricks Runtime 10.4 LTS ML ou superior para disponibilidade geral do AutoML.
O AutoML depende do
databricks-automl-runtime
pacote, que contém componentes que são úteis fora do AutoML e também ajuda a simplificar os notebooks gerados pelo treinamento AutoML.databricks-automl-runtime
está disponível no PyPI.Nenhuma biblioteca adicional além daquelas pré-instaladas no Databricks Runtime for Machine Learning deve ser instalada no cluster.
- Qualquer modificação (remoção, upgrades ou downgrades) em versões de bibliotecas existentes resulta em falhas de execução devido a incompatibilidade.
Para acessar arquivos em seu espaço de trabalho, você deve ter as portas de rede 1017 e 1021 abertas para experimentos AutoML. Para abrir essas portas ou confirmar que estão abertas, revise a configuração do firewall VPN na nuvem e as regras do grupo de segurança ou entre em contato com o administrador da nuvem local. Para obter informações adicionais sobre configuração e implantação de espaços de trabalho, consulte Criar um espaço de trabalho.
Use um recurso de computação com um modo de acesso de computação suportado. Nem todos os modos de acesso de computação têm acesso ao Unity Catalog.
Modo de acesso de computação Suporte a AutoML suporte Unity Catalog Modo de acesso dedicado Suportado Suportado Utilizador único Suportado (deve ser o único usuário designado para o cluster) Suportado Modo de acesso compartilhado Não suportado Não suportado Nenhum isolamento compartilhado Suportado Não suportado
Algoritmos AutoML
O AutoML treina e avalia modelos com base nos algoritmos das seguintes table.
Nota
Para modelos de classificação e regressão, a árvore de decisão, florestas aleatórias, regressão logística e regressão linear com algoritmos de descida de gradiente estocástico são baseados em scikit-learn.
Modelos de classificação | Modelos de regressão | Modelos de previsão | Modelos de previsão (sem servidor) |
---|---|---|---|
Árvores de decisões | Árvores de decisões | Profeta | Profeta |
Florestas aleatórias | Florestas aleatórias | Auto-ARIMA (Disponível no Databricks Runtime 10.3 ML e superior.) | Auto-ARIMA |
Regressão logística | Regressão linear com descida de gradiente estocástico | DeepAR | |
XGBoost | XGBoost | ||
LightGBM | LightGBM |
Geração de notebook de avaliação
O AutoML de computação clássica gera blocos de anotações do código-fonte por trás das avaliações para que você possa revisar, reproduzir e modificar o código conforme necessário.
Para experiências de previsão, os blocos de notas gerados pelo AutoML são automaticamente importados para a sua área de trabalho para todas as versões experimentais da sua experiência.
Para experimentos de classificação e regressão, os blocos de anotações gerados pelo AutoML para exploração de dados e a melhor avaliação em seu experimento são importados automaticamente para seu espaço de trabalho. Os blocos de anotações gerados para outras avaliações de experimentos são salvos como artefatos MLflow no DBFS em vez de importados automaticamente para seu espaço de trabalho. Para todos os ensaios, exceto o melhor ensaio, os notebook_path
e notebook_url
na API TrialInfo
do Python não são set. Se você precisar usar esses blocos de anotações, poderá importá-los manualmente para seu espaço de trabalho com a interface do usuário do experimento AutoML ou a API do databricks.automl.import_notebook
Python.
Se apenas utilizar o caderno de exploração de dados ou o melhor caderno de ensaios gerado pelo AutoML, o
Se você usar outros blocos de anotações gerados na interface do usuário do experimento AutoML, eles não serão importados automaticamente para o espaço de trabalho. Você pode encontrar os blocos de anotações clicando em cada execução do MLflow. O bloco de anotações IPython é salvo na seção Artefatos da página de execução. Você pode baixar este bloco de anotações e importá-lo para o espaço de trabalho, se o download de artefatos estiver habilitado pelos administradores do espaço de trabalho.
Shapley values (SHAP) para explicação do modelo
Nota
Para MLR 11.1 e inferior, os gráficos SHAP não são gerados se o conjunto de dados contiver uma datetime
column.
Os notebooks produzidos pelas execuções de regressão e classificação do AutoML incluem código para calcular Shapley values. Shapley values são baseados na teoria dos jogos e estimam a importância de cada característica para as previsões de um modelo.
Os notebooks AutoML calculam Shapley values com o pacote SHAP . Como esses cálculos consomem muita memória, os cálculos não são executados por padrão.
Para calcular e exibir Shapley values:
- Vá para a seção Importância do recurso em um bloco de anotações de avaliação gerado pelo AutoML.
-
Set
shap_enabled = True
. - Execute novamente o bloco de notas.