Exploración y transformación de datos en un almacén de lago
Transformación y carga de datos
La mayoría de los datos requieren transformaciones antes de cargarlos en tablas. Puede ingerir datos sin procesar directamente en una instancia de almacén de lago y luego transformarlos y cargarlos en tablas. Independientemente del diseño de ETL, puede transformar y cargar datos simplemente con las mismas herramientas para ingerir datos. Después, los datos transformados se pueden cargar como un archivo o una tabla Delta.
- Los ingenieros de datos familiarizados con diferentes lenguajes de programación, como PySpark, SQL y Scala, prefieren los cuadernos.
- Los flujos de datos Gen2 son excelentes para los desarrolladores familiarizados con Power BI o Excel, ya que usan la interfaz de PowerQuery.
- Las canalizaciones proporcionan una interfaz visual para realizar y organizar procesos ETL. Las canalizaciones pueden ser tan simples o tan complejas como se quiera.
Análisis y visualización de datos en un almacén de lago
Una vez que los datos se ingieren, transforman y cargan, están listos para que otros los usen. Los elementos de tejido proporcionan la flexibilidad necesaria para que cada organización pueda usar las herramientas que mejor le funcionen.
- Los científicos de datos pueden usar cuadernos o Data Wrangler para explorar y entrenar modelos de aprendizaje automático para la inteligencia artificial.
- Los desarrolladores de informes pueden usar el modelo semántico para crear informes de Power BI.
- Los analistas pueden usar el punto de conexión de SQL Analytics para consultar, filtrar, agregar y explorar datos en tablas de almacén de lago.
Al combinar las funcionalidades de visualización de datos de Power BI con el almacenamiento centralizado y el esquema tabular de un almacén de lago de datos, puede implementar una solución de análisis de un extremo a otro en una sola plataforma.