Introducción

Completado

Para obtener información valiosa de los datos, puede entrenar un modelo de Machine Learning mediante la ciencia de datos. Como científico de datos, es posible que esté familiarizado con el uso de marcos de código abierto como scikit-learn y TensorFlow para entrenar modelos. Microsoft Fabric ofrece una experiencia de cuaderno familiar para entrenar los modelos, que se integra con el marco de código abierto MLflow para realizar un seguimiento y administrar fácilmente los modelos.

Descripción del proceso de ciencia de datos

Un proyecto de ciencia de datos suele incluir las siguientes fases:

Diagram of sequential steps in the data science process.

  1. Definir el problema: junto con los usuarios y analistas empresariales, decida qué debe predecir el modelo y cuándo lo hace correctamente.
  2. Obtener los datos: busque orígenes de datos y obtenga acceso almacenando los datos en un almacén de lago.
  3. Preparar los datos: explore los datos leyéndolos de un almacén de lago en un cuaderno. Limpie y transforme los datos en función de los requisitos del modelo.
  4. Entrenar el modelo: elija un algoritmo y valores de hiperparámetros según el método de prueba y error mediante el seguimiento de los experimentos con MLflow.
  5. Generar predicciones: use la puntuación por lotes del modelo para generar las predicciones solicitadas.

En este módulo, se centra en cómo entrenar y realizar un seguimiento del modelo. Al trabajar en un cuaderno de Microsoft Fabric, se trabaja con Python para entrenar un modelo. Aprenderá a usar MLflow para realizar un seguimiento de los modelos de Machine Learning y sus metadatos. Por último, explorará los modelos mediante la biblioteca MLflow y la interfaz de usuario de Microsoft Fabric.