Introducción
Como científico de datos, dedicará la mayor parte del tiempo al entrenamiento de modelos de aprendizaje automático para identificar patrones complejos en los datos. Después del entrenamiento, querrá usar los modelos para recuperar información valiosa.
Por ejemplo, después de entrenar un modelo sobre datos históricos de ventas, podrá generar la previsión de la semana siguiente. O bien, con los datos de los clientes, podrá entrenar un modelo para identificar a aquellos clientes que, probablemente, vaya a perder. Sea cual sea el caso de uso que tenga, después de entrenar un modelo, querrá aplicarlo a un nuevo conjunto de datos para generar predicciones.
Microsoft Fabric le ayuda a aplicar modelos después de realizar el seguimiento con MLflow.
Descripción del proceso de ciencia de datos
Un proyecto de ciencia de datos suele incluir las siguientes fases:
- Definir el problema: junto con los usuarios y analistas empresariales, decida qué debe predecir el modelo y cuándo lo hace correctamente.
- Obtener los datos: busque orígenes de datos y obtenga acceso almacenando los datos en un almacén de lago.
- Preparar los datos: explore los datos leyéndolos de un almacén de lago en un cuaderno. Limpie y transforme los datos en función de los requisitos del modelo.
- Entrenar el modelo: elija un algoritmo y valores de hiperparámetros según el método de prueba y error mediante el seguimiento de los experimentos con MLflow.
- Generar predicciones: use la puntuación por lotes del modelo para generar las predicciones solicitadas.
En este módulo, se centrará en cómo generar predicciones por lotes. Para recuperar predicciones de un modelo entrenado, primero deberá guardarlo en el área de trabajo de Microsoft Fabric. A continuación, podrá preparar los nuevos datos y aplicar el modelo a estos para generar predicciones por lotes. Por último, puede guardar las predicciones en Microsoft Fabric para su posterior procesamiento, como visualizar los datos en un informe de Power BI.