O que é AutoML?
O AutoML é um recurso do Azure Databricks que permite automatizar o treinamento e a avaliação de um modelo de aprendizado de máquina usando diferentes combinações de valores de algoritmo e hiperparâmetro. Usando o AutoML, você pode reduzir o esforço envolvido em um processo de treinamento de modelo iterativo e criar um modelo ideal para seus dados mais rapidamente.
Como funciona o AutoML?
O AutoML funciona gerando várias execuções de experimento, cada uma treinando um modelo usando um algoritmo diferente e uma combinação de hiperparâmetros. Em cada execução, um modelo é treinado e avaliado com base nos dados e na métrica preditiva que você especificar. O Azure Databricks controla as execuções e os modelos que elas produzem usando MLflow, permitindo que você identifique o modelo de melhor desempenho e implante-o na produção.
- Você inicia um experimento AutoML, especificando uma tabela em seu espaço de trabalho do Azure Databricks como a fonte de dados para treinamento e a métrica de desempenho específica para a qual deseja otimizar.
- O experimento AutoML gera várias execuções de MLflow, cada uma produzindo um notebook com código para pré-processar os dados antes de treinar e validar um modelo. Os modelos treinados são salvos como artefatos nas execuções MLflow ou arquivos no armazenamento DBFS.
- As execuções experimentais são listadas em ordem de desempenho, com os modelos de melhor desempenho mostrados primeiro. Você pode explorar os blocos de anotações que foram gerados para cada execução, escolher o modelo que deseja usar e, em seguida, registrá-lo e implantá-lo.
Gorjeta
Para obter detalhes sobre as transformações de pré-processamento específicas e os algoritmos de treinamento usados pelo AutoML, consulte Como o Azure Databricks AutoML funciona na documentação do Azure Databricks.
Preparar dados para AutoML
O AutoML precisa de uma fonte de dados de treinamento que inclua valores de recursos e rótulos. Para fornecer esses dados, crie uma tabela no metastore do Hive em seu espaço de trabalho do Azure Databricks.
Uma maneira simples de criar uma tabela de dados de treinamento para o AutoML é carregar um arquivo de dados no portal do Azure Databricks, conforme mostrado aqui.
O AutoML gera código para lidar com tarefas comuns de pré-processamento de dados; como codificar variáveis categóricas, escalar variáveis numéricas, manipular valores nulos e lidar com conjuntos de dados desequilibrados.