Introdução

Concluído

Para obter informações valiosas de seus dados, você pode treinar um modelo de aprendizado de máquina usando ciência de dados. Como cientista de dados, você pode estar familiarizado com o uso de estruturas de código aberto como scikit-learn e TensorFlow para treinar modelos. O Microsoft Fabric oferece uma experiência de notebook familiar para você treinar seus modelos, integrando-se com a estrutura de código aberto MLflow para rastrear e gerenciar facilmente seus modelos.

Compreender o processo de ciência de dados

Um projeto de ciência de dados geralmente inclui as seguintes fases:

Diagram of sequential steps in the data science process.

  1. Defina o problema: Juntamente com usuários de negócios e analistas, decida o que o modelo deve prever e quando é bem-sucedido.
  2. Obter os dados: encontre fontes de dados e obtenha acesso armazenando seus dados em uma casa do lago.
  3. Preparar os dados: explore os dados lendo-os de uma casa do lago para um caderno. Limpe e transforme os dados com base nos requisitos do modelo.
  4. Treinar o modelo: escolha um algoritmo e valores de hiperparâmetros com base em tentativa e erro rastreando seus experimentos com MLflow.
  5. Gerar previsões: use a pontuação em lote do modelo para gerar as previsões solicitadas.

Neste módulo, você se concentra em como treinar e acompanhar o modelo. Trabalhando em um bloco de anotações no Microsoft Fabric, você trabalha com Python para treinar um modelo. Você aprende a usar o MLflow para rastrear seus modelos de aprendizado de máquina e seus metadados. Finalmente, você explora seus modelos usando a biblioteca MLflow e a interface do usuário do Microsoft Fabric.