Entenda como treinar modelos de machine learning

Concluído

A maneira como se treina um modelo de machine learning depende do tipo de modelo que você deseja treinar. Vamos explorar algumas estruturas comumente utilizadas que você pode utilizar para treinar um modelo de aprendizado de máquina no Microsoft Fabric.

Explore as estruturas do aprendizado de máquina

Muitos cientistas de dados trabalham em Python, e muitas bibliotecas de aprendizado de máquina são projetadas para funcionar bem com Python.

Algumas bibliotecas e seus usos populares com os quais você pode trabalhar no Microsoft Fabric são:

  • Scikit-learn: treina modelos tradicionais de aprendizado de máquina para tarefas como classificação, regressão e clustering.
  • PyTorch e TensorFlow: treina modelos de aprendizado profundo para processamento de linguagem natural ou tarefas de pesquisa visual computacional.
  • SynapseML: permite que você crie pipelines escaláveis de aprendizado de máquina para um treinamento de modelo mais otimizado.

Trabalhar com notebooks do Microsoft Fabric

Quando você quiser treinar um modelo no Microsoft Fabric, poderá usar os notebooks.

Como cientista de dados, talvez você já esteja familiarizado com os notebooks Jupyter. Os notebooks disponíveis em seu workspace do Microsoft Fabric são semelhantes aos notebooks Jupyter, o que facilita a execução do código conforme o esperado.

Os notebooks do Microsoft Fabric são da plataforma computação Spark, o que significa que você pode utilizar o PySpark e o Python. A maioria das estruturas de aprendizado de máquina, como scikit-learn, PyTorch e TensorFlow, trabalha com Python e Pandas DataFrames.

O PySpark é uma biblioteca Python criada para o processamento de dados distribuídos. Sempre que você observar a necessidade de um pipeline de treinamento de computador mais escalonável, poderá explorar o uso do PySpark e do SynapseML em seus projetos.

Treinar um modelo

A maneira como você aborda o treinamento de um aprendizado de máquina depende do tipo de modelo que você treina. Uma abordagem comum com modelos tradicionais é a iteração por meio das etapas a seguir:

  • Carregue os dados, disponibilizando-os no notebook como um DataFrame.
  • Explore os dados visualizando-os e compreendendo o relacionamento entre os recursos (entrada do modelo) e como eles afetam o rótulo (entrada do modelo). (entrada do modelo) e como isso afeta o rótulo (saída do modelo).
  • Preparar os dados, também conhecido como engenharia de recursos.
  • Dividir os dados em um conjunto de dados de treinamento e um conjunto de dados de teste.
  • Treinar o modelo.
  • Avalie o modelo inspecionando as métricas de desempenho.

Vamos explorar um exemplo e supor que você já tenha um conjunto de dados que explorou e preparou para o treinamento do modelo. Imagine que você deseja treinar um modelo de regressão e optou por utilizar o scikit-learn.

Você pode dividir o conjunto de dados preparado com o código a seguir:

from sklearn.model_selection import train_test_split

X, y = df[['feature1','feature2','feature3']].values, df['label'].values

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

Como resultado da divisão de seu conjunto de dados, você deve ter quatro DataFrames:

  • X_train: Conjunto de dados de treinamento que inclui apenas os recursos.
  • X_test: Conjunto de dados de teste que inclui apenas os recursos.
  • y_train: Conjunto de dados de treinamento que inclui apenas o rótulo.
  • y_test: Conjunto de dados de teste incluindo apenas o rótulo.

Quando você quiser treinar um modelo, poderá selecionar um dos algoritmos (por exemplo, regressão linear) para sua tarefa (por exemplo, regressão) que estão disponíveis em uma estrutura de sua escolha (por exemplo, scikit-learn). O código a seguir mostra um exemplo de treinamento de um modelo de regressão:

from sklearn.linear_model import LinearRegression

model = LinearRegression() 
model.fit(X_train, y_train)

Após o ajuste do modelo, você pode utilizar o modelo para gerar previsões no conjunto de dados de teste para criar as métricas de desempenho do modelo. Ao utilizar o MLflow para acompanhar seu modelo, você pode acompanhar as métricas de desempenho calculadas. Alternativamente, você pode permitir que o MLflow crie e acompanhe as métricas de desempenho padrão para você.

Ao acompanhar com o MLflow, você também pode garantir que seu modelo seja salvo em um formato que habilite a pontuação do modelo em uma fase posterior.