Escenario de un extremo a otro de un almacén de lago: introducción y arquitectura
Microsoft Fabric es una solución de análisis todo en uno para empresas que abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real y la inteligencia empresarial. Ofrece un conjunto completo de servicios que incluye un lago de datos, ingeniería de datos e integración de datos, todo en un solo lugar. Para obtener más información, consulte ¿Qué es Microsoft Fabric?
Este tutorial le guiará a través de un escenario de un extremo a otro, desde la adquisición de datos hasta el consumo de datos. Le ayuda a crear un conocimiento básico de Fabric, incluidas las diferentes experiencias y cómo se integran, así como las experiencias profesionales y de desarrollador civil que vienen con el trabajo en esta plataforma. Este tutorial no está pensado para ser una arquitectura de referencia, una lista exhaustiva de características y funcionalidades, o una recomendación de procedimientos recomendados específicos.
Escenario de un extremo a otro de un almacén de lago
Tradicionalmente, las organizaciones han estado creando almacenes de datos modernos para sus necesidades de análisis de datos transaccionales y estructurados. Y almacenes de lago de datos para las necesidades de análisis de macrodatos (semiestructurados/no estructurados). Estos dos sistemas se ejecutaban en paralelo, creando silos, duplicación de datos y un mayor costo total de propiedad.
Fabric con su unificación del almacén de datos y la estandarización en formato Delta Lake permite eliminar silos, eliminar la duplicación de datos y reducir drásticamente el costo total de propiedad.
Con la flexibilidad que ofrece Fabric, puede implementar arquitecturas de almacén de lago o almacenamiento de datos, o combinarlas para obtener lo mejor de ambas con una implementación sencilla. En este tutorial, se va a tomar el ejemplo de una organización minorista y construiremos su almacén de lago de principio a fin. Usa la arquitectura medallion, donde la capa de bronce tiene los datos sin procesar, la capa de plata tiene los datos validados y desduplicados, y la capa dorada tiene datos muy refinados. Puede adoptar el mismo enfoque para implementar un almacén de lago para cualquier organización de cualquier sector.
En este tutorial se explica cómo un desarrollador de la empresa ficticia Wide World Importers del dominio minorista completa los pasos siguientes:
Inicie sesión en su cuenta de Power BI y regístrese para obtener la prueba gratuita de Microsoft Fabric. Si no tiene una licencia de Power BI, regístrese para obtener una licencia gratuita de Fabric y entonces puede iniciar la versión de prueba de Fabric.
Cree e implemente un almacén de lago de un extremo a otro para su organización:
- Cree un área de trabajo de Fabric.
- Cree un almacén de lago.
- Ingiera datos, transfórmelos y cárguelos en el almacén de lago. También puede explorar OneLake, una copia de los datos a través del modo de almacén de lago y el modo de punto de conexión de análisis SQL.
- Conéctese a un almacén de lago mediante el punto de conexión de análisis SQL y cree un informe de Power BI mediante DirectLake para analizar los datos de ventas en diferentes dimensiones.
- De manera opcional, puede orquestar y programar el flujo de ingesta y transformación de los datos con una canalización.
Limpie los recursos eliminando el área de trabajo y otros elementos.
Architecture
En la imagen siguiente se muestra la arquitectura de un extremo a otro del almacén de lago. Los componentes implicados se describen en la lista siguiente.
Orígenes de datos: Fabric facilita la conexión rápida y sencilla a Azure Data Services, así como a otras plataformas basadas en la nube y orígenes de datos locales, para una ingesta de datos simplificada.
Ingesta: puede crear rápidamente información para su organización con más de 200 conectores nativos. Estos conectores se integran en la canalización de Fabric y usan la transformación de datos de arrastrar y colocar fácil de usar con el flujo de datos. Además, con la característica de acceso directo de Fabric, puede conectarse a los datos existentes sin tener que copiarlos ni moverlos.
Transformación y almacenamiento: Fabric normaliza el formato Delta Lake. Esto significa que todos los motores de Fabric pueden acceder y manipular el mismo conjunto de datos almacenado en OneLake sin duplicar los datos. Este sistema de almacenamiento proporciona la flexibilidad de crear almacenes de lago mediante una arquitectura medallion o una malla de datos, según sus necesidades organizativas. Puede elegir entre una experiencia de poco código o sin código para la transformación de datos, mediante canalizaciones/flujos de datos, o cuadernos/Spark para una experiencia de código primero.
Consumo: Power BI puede consumir datos de la instancia de Lakehouse para la creación de informes y la visualización. Cada almacén de lago tiene un punto de conexión de TDS integrado denominado punto de conexión de análisis SQL para facilitar la conectividad y la consulta de datos en las tablas Lakehouse desde otras herramientas de informes. El punto de conexión de análisis SQL proporciona a los usuarios la funcionalidad de conexión de SQL.
Conjunto de datos de ejemplo
En este tutorial se usa la base de datos de ejemplo Wide World Importers (WWI), que se importará en el lakehouse en el siguiente tutorial. Para el escenario de un extremo a otro de almacén de lago, hemos generado datos suficientes para explorar las funcionalidades de escala y rendimiento de la plataforma Fabric.
Wide World Importers (WWI) es un importador y distribuidor mayorista de artículos de novedades que opera desde el área de la bahía de San Francisco. Como mayorista, los clientes de WWI principalmente incluyen empresas que revenden a particulares. WWI vende a clientes minoristas de todos los Estados Unidos, incluyendo tiendas especializadas, supermercados, tiendas de informática, tiendas de atracciones turísticas y algunos particulares. WWI también vende a otros mayoristas a través de una red de agentes que promocionan los productos en nombre de WWI. Para obtener más información sobre el perfil y el funcionamiento de la empresa, consulte Bases de datos de ejemplo de Wide World Importers para Microsoft SQL.
En general, los datos proceden de sistemas transaccionales o aplicaciones de línea de negocio en un almacén de lago. Sin embargo, por motivos de simplicidad en este tutorial, usamos el modelo dimensional proporcionado por WWI como origen de datos inicial. Lo usamos como origen para ingerir los datos en un almacén de lago y transformarlos a través de diferentes fases (Bronce, Plata y Oro) de una arquitectura medallion.
Modelo de datos
Aunque el modelo dimensional de WWI contiene numerosas tablas de hechos, para este tutorial, usamos la tabla de hechos Sale y sus dimensiones correlacionadas. En el ejemplo siguiente se muestra el modelo de datos de WWI:
Flujo de datos y transformación
Como se ha descrito anteriormente, se usan los datos de ejemplo de los datos de ejemplo de Wide World Importers (WWI) para crear este almacén de lago de un extremo a otro. En esta implementación, los datos de ejemplo se almacenan en una cuenta de almacenamiento de Azure Data en formato de archivo Parquet para todas las tablas. Sin embargo, en escenarios reales, los datos normalmente se originan en varios orígenes y en distintos formatos.
En la imagen siguiente se muestra el origen, el destino y la transformación de datos:
Origen de datos: los datos de origen están en formato de archivo Parquet y en una estructura sin particiones. Se almacenan en una carpeta para cada tabla. En este tutorial, configuramos una canalización para ingerir los datos históricos completos o únicos en el almacén de lago.
En este tutorial, usamos la tabla de hechos Sale, que tiene una carpeta principal con datos históricos de 11 meses (con una subcarpeta por cada mes) y otra carpeta que contiene datos incrementales durante tres meses (una subcarpeta para cada mes). Durante la ingesta de datos inicial, se ingieren 11 meses de datos en la tabla del almacén de lago. Sin embargo, cuando llegan los datos incrementales, incluyen datos actualizados para octubre y noviembre, y los nuevos datos de diciembre, octubre y noviembre se combinan con los datos existentes y los nuevos datos de diciembre se escriben en la tabla del almacén de lago, como se muestra en la siguiente imagen:
Almacén de lago: en este tutorial, crea un almacén de lago, ingiere datos en la sección de archivos del almacén de lago y, a continuación, crea tablas de delta lake en la sección Tablas del almacén de lago.
Transformación: para la preparación y transformación de los datos, verá dos enfoques diferentes. Se muestra el uso de Notebooks/Spark para los usuarios que prefieren una experiencia de código primero y el uso de canalizaciones/flujos de datos para los usuarios que prefieren una experiencia de poco código o sin código.
Consumo: para demostrar el consumo de los datos, verá cómo puede usar la característica DirectLake de Power BI para crear informes, paneles y consultar directamente los datos desde el almacén de lago. Además, se muestra cómo puede hacer que los datos estén disponibles para herramientas de informes de terceros mediante el punto de conexión de análisis de TDS/SQL. Este punto de conexión le permite conectarse al almacenamiento y ejecutar consultas SQL para el análisis.