使用 Azure Databricks 将数据引入 OneLake 并进行分析

在本指南中,你将:

  • 在工作区中创建管道,并以增量格式将数据引入你的 OneLake 中。

  • 使用 Azure Databricks 读取和修改 OneLake 中的增量表。

先决条件

在开始之前,你必须具有:

  • 包含湖屋项的工作区。

  • 高级 Azure Databricks 工作区。 只有高级 Azure Databricks 工作区支持 Microsoft Entra 凭据直通。 创建群集时,在“高级选项”中启用 Azure Data Lake Storage 凭据直通。

  • 示例数据集。

引入数据并修改增量表

  1. 导航到 Power BI 服务中的湖屋,依次选择“获取数据”、“新建数据管道”。

    屏幕截图显示了如何从 UI 中导航到“新建数据管道”选项。

  2. 在“新建管道”提示中,输入新管道的名称,然后选择“创建”。

  3. 对于本练习,请选择“NYC 出租车 - 绿色”示例数据作为数据源,然后选择“下一步”。

    屏幕截图显示如何选择 NYC 示例语义模型。

  4. 在预览屏幕上,选择“下一步”。

  5. 对于数据目标,选择要用于存储 OneLake 增量表数据的 湖屋的名称。 可以选择现有湖屋或新建湖屋。

    屏幕截图显示了如何选择目标湖屋。

  6. 选择要存储输出的位置。 选择“表”作为根文件夹,并输入“nycsample”作为表名称。

  7. 在“查看 + 保存”屏幕上,依次选择“立即开始数据传输”、“保存 + 运行”。

    屏幕截图显示了如何输入表名称。

  8. 作业完成后,导航到湖屋并查看 /Tables 文件夹下列出的增量表。

  9. 右键单击创建的表名称,选择“属性”,然后复制 Azure Blob 文件系统 (ABFS) 路径。

  10. 打开 Azure Databricks 笔记本。 读取 OneLake 上的增量表。

    olsPath = "abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample" 
    df=spark.read.format('delta').option("inferSchema","true").load(olsPath)
    df.show(5)
    
  11. 通过更改字段值更新增量表数据。

    %sql
    update delta.`abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample` set vendorID = 99999 where vendorID = 1;