Introducción
Ciencia de datos es un campo multidisciplinario que usa métodos científicos, procesos, algoritmos y herramientas para extraer conocimientos e información de datos estructurados y no estructurados.
En un proyecto típico de ciencia de datos, es una práctica común comenzar con el Análisis Exploratorio de Datos (AED), que implica la comprensión de los patrones, la detección de anomalías y la comprobación de los supuestos relacionados con los datos subyacentes.
Una vez comprendido esto, puede pasar a la fase de preprocesamiento. Aquí es donde se abordan los problemas de calidad de datos identificados durante el AED y se preparan los datos para el modelado. El preprocesamiento transforma los datos sin procesar en un formato comprensible para los algoritmos de aprendizaje automático, lo que mejora su capacidad de realizar predicciones precisas.
Data Wrangler en Microsoft Fabric proporciona una experiencia gráfica en la que puede generar fácilmente código con fines de exploración y preprocesamiento, y garantiza que sus datos estén en la mejor forma posible antes de utilizarlos para entrenar un modelo de aprendizaje automático.
Descripción del proceso de ciencia de datos
El preprocesamiento de datos es una preparación preliminar de los datos que sienta las bases para todos los pasos posteriores del proceso de la ciencia de datos.
- Definir el problema: junto con los usuarios y analistas empresariales, decida qué debe predecir el modelo y cuándo lo hace correctamente.
- Obtener los datos: busque orígenes de datos y obtenga acceso almacenando los datos en un almacén de lago.
- Preparar los datos: explore los datos leyéndolos de un almacén de lago en un cuaderno. Limpie y transforme los datos en función de los requisitos del modelo.
- Entrenar el modelo: elija un algoritmo y valores de hiperparámetros según el método de prueba y error mediante el seguimiento de los experimentos con MLflow.
- Generación de información: use la puntuación por lotes del modelo para generar las predicciones solicitadas.
En este módulo, el enfoque se centra en el preprocesamiento de datos mediante Data Wrangler. Trabaja en un cuaderno Microsoft Fabric, utilizando tanto Data Wrangler como Python para la exploración de datos. Aprenderá a administrar los datos que faltan y a utilizar diversos operadores para transformar los datos en un proceso de canalización de compilación de modelos. Por último, obtendrá experiencia práctica en el preprocesamiento de datos mediante Data Wrangler en cuadernos Microsoft Fabric a través de un ejercicio práctico.