连接到 ADLS 并使用 Azure Databricks 转换数据

在本指南中,你将:

  • 使用 Azure Databricks 在 Azure Data Lake Storage (ADLS) Gen2 帐户中创建 Delta 表。

  • 在 ADLS 中创建 Delta 表的 OneLake 快捷方式。

  • 使用 Power BI 通过 ADLS 快捷方式分析数据。

先决条件

在开始之前,你必须具有:

  • 一个包含 Lakehouse 项的工作区

  • 一个 Azure Databricks 工作区

  • 一个用于存储 Delta 表的 ADLS Gen2 帐户

创建 Delta 表,创建快捷方式,然后分析数据

  1. 使用 Azure Databricks 笔记本在 ADLS Gen2 帐户中创建 Delta 表。

     # Replace the path below to refer to your sample parquet data with this syntax "abfss://<storage name>@<container name>.dfs.core.windows.net/<filepath>"
    
     # Read Parquet files from an ADLS account
     df = spark.read.format('Parquet').load("abfss://datasetsv1@olsdemo.dfs.core.windows.net/demo/full/dimension_city/")
    
     # Write Delta tables to ADLS account
     df.write.mode("overwrite").format("delta").save("abfss://datasetsv1@olsdemo.dfs.core.windows.net/demo/adb_dim_city_delta/")
    
  2. 在湖屋中,选择“表”旁边的省略号 (...),然后选择“新建快捷方式”。

    屏幕截图显示“表”中“新建快捷方式”的位置。

  3. 在“新建快捷方式”屏幕中,选择“Azure Data Lake Storage Gen2”磁贴。

    “新建快捷方式”屏幕中磁贴选项的屏幕截图。

  4. 指定快捷方式的连接详细信息,然后选择“下一步”。

    屏幕截图显示在何处输入新快捷方式的连接设置。

  5. 指定快捷方式详细信息。 提供“快捷方式名称”和“子路径”详细信息,然后选择“创建”。 子路径应指向 Delta 表所在的目录。

    屏幕截图显示在何处输入新快捷方式详细信息。

  6. 快捷方式在“表”下显示为 Delta 表。

    屏幕截图显示新创建的 ADLS 快捷方式的位置。

  7. 现在可以直接从笔记本查询此数据。

    df = spark.sql("SELECT * FROM lakehouse1.adls_shortcut_adb_dim_city_delta LIMIT 1000")
    display(df)
    
  8. 要通过 Power BI 访问和分析此增量表,请选择“新建 Power BI 语义模型”

    屏幕截图显示如何创建新 Power BI 语义模型。

  9. 选择快捷方式,然后选择“确认”。

    屏幕截图显示新语义模型设置。

  10. 发布数据后,请选择“从头开始”

    屏幕截图显示设置数据集的过程。

  11. 在报表创作体验中,快捷方式数据将作为表与其所有属性一起显示。

    屏幕截图显示了创作体验和表属性。

  12. 若要生成 Power BI 报表,请将属性拖到左侧的窗格中。

    屏幕截图显示通过 Power BI 报表查询的数据。