Introdução

Concluído

Como um cientista de dados, boa parte do seus tempo é dedica ao treinamento modelos de machine learning para identificar padrões complexos em seus dados. Após o treinamento, o objetivo é usar os modelos para recuperar insights valiosos.

Por exemplo, depois de treinar um modelo com dados históricos de vendas, você pode gerar previsões para a próxima semana. Da mesma forma, usando dados de clientes, é possível treinar um modelo para identificar clientes com maior probabilidade de rotatividade. Seja qual for o caso de uso, após o treinamento do modelo, a intenção é aplicá-lo a um novo conjunto de dados para gerar previsões.

O Microsoft Fabric auxilia nesse processo, permitindo a aplicação do modelo após acompanhá-lo com o MLflow.

Entender o processo de ciência de dados

Um projeto de ciência de dados geralmente inclui as seguintes fases:

Diagram of sequential steps in the data science process.

  1. Definir o problema: com usuários empresariais e analistas, decida o que o modelo deve prever e quando ele é bem-sucedido.
  2. Obter os dados: encontre fontes de dados e obtenha acesso armazenando dados em um lakehouse.
  3. Preparar os dados: explore os dados lendo-os de um lakehouse em um notebook. Limpe e transforme os dados com base nos requisitos do modelo.
  4. Treinar o modelo: escolha um algoritmo e valores de hiperparâmetros com base em tentativa e erro, acompanhando os experimentos com o MLflow.
  5. Gerar previsões: use a pontuação em lote do modelo para gerar as previsões solicitadas.

Neste módulo, seu foco será em como gerar previsões em lote. Para obter previsões de um modelo treinado, você precisa salvar o modelo no workspace do Microsoft Fabric. Em seguida, você pode preparar seus novos dados e aplicar o modelo e eles para gerar previsões em lote. Por fim, você pode salvar as previsões no Microsoft Fabric para fazer mais processamentos, como a visualização dos dados em um relatório do Power BI.