Introducción
Ciencia de datos es un campo multidisciplinario que usa métodos científicos, procesos, algoritmos y herramientas para extraer conocimientos e información de datos estructurados y no estructurados.
En un proyecto típico de ciencia de datos, es una práctica común comenzar con el Análisis Exploratorio de Datos (AED), que implica la comprensión de los patrones, la detección de anomalías, la prueba de hipótesis y la comprobación de los supuestos relacionados con los datos subyacentes.
La información obtenida de EDA puede guiar a los científicos de datos al elegir los modelos estadísticos o de aprendizaje automático adecuados que mejor se ajusten a los datos.
Los cuadernos de Microsoft Fabric permiten integrar sin problemas los resultados de exploración en un flujo de trabajo de ciencia de datos. A continuación, se puede usar para alimentar una solución de informes ascendente, como un informe de Power BI.
Descripción del proceso de ciencia de datos
La exploración de datos es una investigación preliminar de los datos que establece la fase de todos los pasos posteriores en el proceso de la ciencia de datos.
- Definir el problema: junto con los usuarios y analistas empresariales, decida qué debe predecir el modelo y cuándo lo hace correctamente.
- Obtener los datos: busque orígenes de datos y obtenga acceso almacenando los datos en un almacén de lago.
- Preparar los datos: explore los datos leyéndolos de un almacén de lago en un cuaderno. Limpie y transforme los datos en función de los requisitos del modelo.
- Entrenar el modelo: elija un algoritmo y valores de hiperparámetros según el método de prueba y error mediante el seguimiento de los experimentos con MLflow.
- Generación de información: use la puntuación por lotes del modelo para generar las predicciones solicitadas.
En este módulo, se centra en cómo cargar datos y realizar la exploración de datos. Trabajar en un cuaderno dentro de Microsoft Fabric: trabajará con Python para comprender los distintos tipos de distribución de datos. Aprenderá el concepto de datos que faltan y las estrategias para controlar los datos que faltan de forma eficaz. Por último, visualizará los datos mediante diversas técnicas y bibliotecas de visualización de datos.