Creación de un almacén de lago para Direct Lake
En este artículo se describe cómo crear un almacén de lago, una tabla Delta en el almacén de lago y, a continuación, un modelo semántico básico para el almacén de lago en un área de trabajo de Microsoft Fabric.
Antes de empezar a crear un almacén de lago para Direct Lake, asegúrese de leer la introducción a Direct Lake.
Crear un almacén de lago
En el área de trabajo de Microsoft Fabric, seleccione Nuevo>Más opciones y, a continuación, en Ingeniería de datos, seleccione el icono Almacén de lago .
En el cuadro de diálogo Almacén de lago nuevo, introduzca un nombre y, a continuación, seleccione Crear. El nombre solo puede contener caracteres alfanuméricos y de subrayado.
Compruebe que el nuevo almacén de lago se crea y se abre correctamente.
Creación de una tabla Delta en un almacén de lago
Después de crear un almacén de lago nuevo, debe crear al menos una tabla Delta para que Direct Lake pueda acceder a algunos datos. Direct Lake puede leer archivos con formato parquet, pero para obtener el mejor rendimiento, es mejor comprimir los datos mediante el método de compresión VORDER. VORDER comprime los datos mediante el algoritmo de compresión nativo del motor de Power BI. De este modo, el motor puede cargar los datos en la memoria lo antes posible.
Hay varias opciones para cargar datos en un almacén de lago, incluidas las canalizaciones de datos y los scripts. En los pasos siguientes se usa PySpark para agregar una tabla Delta a un almacén de lago en función de un conjunto de datos abierto de Azure:
En el almacén de lago recién creado, seleccione Abrir cuaderno y, a continuación, seleccione Nuevo cuaderno.
Copie y pegue el siguiente fragmento de código en la primera celda de código para permitir que SPARK acceda al modelo abierto y, a continuación, presione Mayús + Entrar para ejecutar el código.
# Azure storage access info blob_account_name = "azureopendatastorage" blob_container_name = "holidaydatacontainer" blob_relative_path = "Processed" blob_sas_token = r"" # Allow SPARK to read from Blob remotely wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path) spark.conf.set( 'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name), blob_sas_token) print('Remote blob path: ' + wasbs_path)
Compruebe que el código genera correctamente una ruta de acceso de blob remota.
Copie y pegue el código siguiente en la celda siguiente y, a continuación, presione Mayús + Entrar.
# Read Parquet file into a DataFrame. df = spark.read.parquet(wasbs_path) print(df.printSchema())
Compruebe que el código genera correctamente el esquema DataFrame.
Copie y pegue las líneas siguiente en la celda siguiente y, a continuación, presione Mayús + Entrar. La primera instrucción habilita el método de compresión VORDER y la siguiente instrucción guarda DataFrame como una tabla Delta en el almacén de lago.
# Save as delta table spark.conf.set("spark.sql.parquet.vorder.enabled", "true") df.write.format("delta").saveAsTable("holidays")
Compruebe que todos los trabajos de SPARK se completen correctamente. Expanda la lista de trabajos de SPARK para ver más detalles.
Para comprobar que una tabla se ha creado correctamente, en el área superior izquierda, junto a Tablas, seleccione los puntos suspensivos (...), seleccione Actualizar y, a continuación, expanda el nodo Tablas.
Con el mismo método que anteriormente u otros métodos admitidos, agregue más tablas Delta de los datos que desea analizar.
Creación de un modelo de Direct Lake básico para su almacén de lago
En el almacén de lago, seleccione Nuevo modelo semántico y, a continuación, en el cuadro de diálogo, seleccione las tablas que se incluirán.
Seleccione Confirmar para generar el modelo de Direct Lake. El modelo se guarda automáticamente en el área de trabajo en función del nombre del almacén de lago y, a continuación, lo abre.
Seleccione Abrir modelo de datos para abrir la experiencia de modelado web, donde puede agregar relaciones de tabla y medidas DAX.
Cuando haya terminado de agregar relaciones y medidas DAX, puede crear informes, crear un modelo compuesto y consultar el modelo a través de puntos de conexión XMLA de la misma manera que cualquier otro modelo.