Introdução
Para obter informações valiosas de seus dados, você pode treinar um modelo de aprendizado de máquina usando ciência de dados. Como cientista de dados, você pode estar familiarizado com o uso de estruturas de código aberto como scikit-learn e TensorFlow para treinar modelos. O Microsoft Fabric oferece uma experiência de notebook familiar para você treinar seus modelos, integrando-se com a estrutura de código aberto MLflow para rastrear e gerenciar facilmente seus modelos.
Compreender o processo de ciência de dados
Um projeto de ciência de dados geralmente inclui as seguintes fases:
- Defina o problema: Juntamente com usuários de negócios e analistas, decida o que o modelo deve prever e quando é bem-sucedido.
- Obter os dados: encontre fontes de dados e obtenha acesso armazenando seus dados em uma casa do lago.
- Preparar os dados: explore os dados lendo-os de uma casa do lago para um caderno. Limpe e transforme os dados com base nos requisitos do modelo.
- Treinar o modelo: escolha um algoritmo e valores de hiperparâmetros com base em tentativa e erro rastreando seus experimentos com MLflow.
- Gerar previsões: use a pontuação em lote do modelo para gerar as previsões solicitadas.
Neste módulo, você se concentra em como treinar e acompanhar o modelo. Trabalhando em um bloco de anotações no Microsoft Fabric, você trabalha com Python para treinar um modelo. Você aprende a usar o MLflow para rastrear seus modelos de aprendizado de máquina e seus metadados. Finalmente, você explora seus modelos usando a biblioteca MLflow e a interface do usuário do Microsoft Fabric.