Compartir a través de


Conexión a ADLS y transformación de los datos con Azure Databricks

En esta guía, hará lo siguiente:

  • Cree una tabla Delta en la cuenta de Azure Data Lake Storage (ADLS) Gen2 mediante Azure Databricks.

  • Cree un acceso directo de OneLake a una tabla delta en ADLS.

  • Use Power BI para analizar datos en el acceso directo de ADLS.

Requisitos previos

Antes de comenzar, debe tener:

  • Un área de trabajo con un elemento de almacén de lago.

  • Un área de trabajo de Azure Databricks.

  • Una cuenta de ADLS Gen2 para almacenar tablas Delta.

Crear una tabla Delta, crear un acceso directo y analizar los datos

  1. Con un cuaderno de Azure Databricks, cree una tabla Delta en la cuenta de ADLS Gen2.

     # Replace the path below to refer to your sample parquet data with this syntax "abfss://<storage name>@<container name>.dfs.core.windows.net/<filepath>"
    
     # Read Parquet files from an ADLS account
     df = spark.read.format('Parquet').load("abfss://datasetsv1@olsdemo.dfs.core.windows.net/demo/full/dimension_city/")
    
     # Write Delta tables to ADLS account
     df.write.mode("overwrite").format("delta").save("abfss://datasetsv1@olsdemo.dfs.core.windows.net/demo/adb_dim_city_delta/")
    
  2. En su almacén de lago, seleccione los puntos suspensivos (...) junto a Tablas y, a continuación, seleccione Nuevo acceso directo.

    Captura de pantalla que muestra la ubicación de Nuevo acceso directo en Tablas.

  3. En la pantalla de Nuevo acceso directo, seleccione el icono de Azure Data Lake Storage Gen2.

    Captura de pantalla de las opciones de los iconos en la pantalla de Nuevo acceso directo.

  4. Especifique los detalles de conexión del acceso directo y seleccione Siguiente.

    Captura de pantalla que muestra dónde introducir la configuración de Conexión para un nuevo acceso directo.

  5. Especificar los detalles del acceso directo. Proporcione un nombre de acceso directo y los detalles de la subruta y, a continuación, seleccione Crear. La subruta debe apuntar al directorio donde reside la tabla Delta.

    Captura de pantalla que muestra dónde introducir los detalles del nuevo acceso directo.

  6. El acceso directo aparece como una tabla Delta en Tablas.

    Captura de pantalla que muestra la ubicación del acceso directo de ADLS recién creado.

  7. Ahora puede consultar estos datos directamente desde un cuaderno.

    df = spark.sql("SELECT * FROM lakehouse1.adls_shortcut_adb_dim_city_delta LIMIT 1000")
    display(df)
    
  8. Para acceder a esta tabla Delta y analizarla mediante Power BI, seleccione Nuevo modelo semántico de Power BI.

    Captura de pantalla que muestra cómo crear un nuevo modelo semántico de Power BI.

  9. Seleccione el acceso directo y, a continuación, seleccione Confirmar.

    Captura de pantalla que muestra la nueva configuración del modelo semántico.

  10. Cuando se publiquen los datos, seleccione Iniciar desde cero.

    Captura de pantalla que muestra el proceso para configurar un conjunto de datos.

  11. En la experiencia de creación de informes, los datos de acceso directo aparecen como una tabla junto con todos sus atributos.

    Captura de pantalla que muestra la experiencia de creación y los atributos de las tablas.

  12. Arrastre los atributos al panel de la izquierda para crear un informe de Power BI.

    Captura de pantalla que muestra los datos que se consultan a través del informe de Power BI.