Entenda como treinar modelos de aprendizado de máquina
Como você treina um modelo de aprendizado de máquina depende do tipo de modelo que você deseja treinar. Vamos explorar algumas estruturas comumente usadas que você pode usar para treinar um modelo de aprendizado de máquina no Microsoft Fabric.
Explore estruturas de aprendizado de máquina
Muitos cientistas de dados trabalham em Python e muitas bibliotecas de aprendizado de máquina são projetadas para funcionar bem com Python.
Algumas bibliotecas e seus usos populares com os quais você pode trabalhar no Microsoft Fabric são:
- Scikit-learn: Treine modelos tradicionais de aprendizado de máquina para tarefas como classificação, regressão e clustering.
- PyTorch e TensorFlow: Treine modelos de aprendizagem profunda para processamento de linguagem natural ou tarefas de visão computacional.
- SynapseML: Permite criar pipelines de aprendizado de máquina escaláveis para um treinamento de modelo mais otimizado.
Trabalhar com blocos de anotações no Microsoft Fabric
Quando quiser treinar um modelo no Microsoft Fabric, você pode usar blocos de anotações.
Como cientista de dados, você já deve estar familiarizado com os notebooks Jupyter. Os blocos de anotações disponíveis em seu espaço de trabalho do Microsoft Fabric são semelhantes aos blocos de anotações Jupyter, facilitando a execução do código conforme o esperado.
Os notebooks no Microsoft Fabric são alimentados por computação Spark, o que significa que você pode usar PySpark e Python. A maioria das estruturas de aprendizado de máquina como scikit-learn, PyTorch e TensorFlow funcionam com Python e Pandas DataFrames.
PySpark é uma biblioteca Python que é construída para processamento de dados distribuídos. Sempre que você notar a necessidade de um pipeline de treinamento de máquina mais escalável, poderá explorar o uso do PySpark e do SynapseML em seus projetos.
Preparar um modelo
Como você aborda o treinamento de um aprendizado de máquina depende do tipo de modelo que você treina. Uma abordagem comum com os modelos tradicionais é iterar através das seguintes etapas:
- Carregue os dados disponibilizando-os no bloco de anotações como um DataFrame.
- Explore os dados visualizando os dados e entendendo a relação entre os recursos (entrada do modelo) e como isso afeta o rótulo (saída do modelo).
- Prepare os dados, também conhecidos como engenharia de recursos.
- Divida os dados em um conjunto de dados de treinamento e um conjunto de dados de teste.
- Treine o modelo.
- Avalie o modelo inspecionando as métricas de desempenho.
Vamos explorar um exemplo e supor que você já tenha um conjunto de dados que explorou e preparou para o treinamento do modelo. Imagine que você quer treinar um modelo de regressão e você escolhe usar scikit-learn.
Você pode dividir o conjunto de dados preparado com o seguinte código:
from sklearn.model_selection import train_test_split
X, y = df[['feature1','feature2','feature3']].values, df['label'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)
Como resultado da divisão do conjunto de dados, você terá quatro DataFrames:
X_train
: Conjunto de dados de treinamento incluindo apenas os recursos.X_test
: Conjunto de dados de teste incluindo apenas os recursos.y_train
: Conjunto de dados de treinamento incluindo apenas o rótulo.y_test
: Conjunto de dados de teste incluindo apenas o rótulo.
Quando você quiser treinar um modelo, você pode selecionar um dos algoritmos (por exemplo, regressão linear) para sua tarefa (por exemplo, regressão) que estão disponíveis na estrutura de sua escolha (por exemplo, scikit-learn). O código a seguir mostra um exemplo de treinamento de um modelo de regressão:
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
Depois de ajustar o modelo, você pode usá-lo para gerar previsões no conjunto de dados de teste para criar métricas de desempenho do modelo. Ao usar o MLflow para acompanhar seu modelo, você pode acompanhar as métricas de desempenho calculadas. Como alternativa, você pode permitir que o MLflow crie e acompanhe métricas de desempenho padrão para você.
Ao acompanhar com o MLflow, você também pode garantir que seu modelo seja salvo em um formato para habilitar a pontuação do modelo em um estágio posterior.