Introdução

Concluído

Para obter insights valiosos de seus dados, você pode treinar um modelo de machine learning usando a ciência de dados. Como cientista de dados, você pode estar familiarizado com o uso de estruturas de software livre como o scikit-learn e o TensorFlow para treinar modelos. O Microsoft Fabric oferece uma experiência familiar de notebook para você treinar seus modelos, integrando-se ao MLflow de estrutura de software livre para acompanhar e gerenciar facilmente seus modelos.

Entender o processo de ciência de dados

Um projeto de ciência de dados geralmente inclui as seguintes fases:

Diagram of sequential steps in the data science process.

  1. Definir o problema: com usuários empresariais e analistas, decida o que o modelo deve prever e quando ele é bem-sucedido.
  2. Obter os dados: encontre fontes de dados e obtenha acesso armazenando dados em um lakehouse.
  3. Preparar os dados: explore os dados lendo-os de um lakehouse em um notebook. Limpe e transforme os dados com base nos requisitos do modelo.
  4. Treinar o modelo: escolha um algoritmo e valores de hiperparâmetros com base em tentativa e erro, acompanhando os experimentos com o MLflow.
  5. Gerar previsões: use a pontuação em lote do modelo para gerar as previsões solicitadas.

Nesse módulo, você se concentra em como treinar e acompanhar o modelo. Ao trabalhar em um notebook no Microsoft Fabric, você trabalha com o Python para treinar um modelo. Você aprenderá a usar o MLflow para acompanhar seus modelos de machine learning e seus metadados. Por fim, você explora seus modelos usando a biblioteca do MLflow e a interface do usuário do Microsoft Fabric.