通过笔记本浏览镜像数据库中的数据

可以在笔记本中使用 Spark 查询浏览从镜像数据库复制的数据。

笔记本是一种功能强大的代码项,可用于基于数据开发 Apache Spark 作业和机器学习试验。 可以使用 Fabric 湖屋中的笔记本浏览镜像表。

先决条件

创建快捷方式

首先,需要从镜像表创建一个进入湖屋的快捷方式,然后在湖屋中通过 Spark 查询构建笔记本。

  1. 在 Fabric 门户中,打开数据工程

  2. 如果尚未创建湖屋,请选择湖屋,并通过为其命名来创建新的湖屋。

  3. 选择“获取数据” ->“新建快捷方式”

  4. 选择“Microsoft OneLake”

  5. 可以在 Fabric 工作区中看到所有镜像数据库。

  6. 选择要添加到湖屋的镜像数据库,作为快捷方式。

  7. 从镜像数据库中选择所需的表。

  8. 选择“下一步”,然后选择“创建”

  9. 资源管理器中,现在可以看到在湖屋中选择的表数据。 Fabric 门户中的屏幕截图,包含显示了镜像数据库表和数据的湖屋资源管理器。

    提示

    可以直接在湖屋中添加其他数据,也可以引入 S3、ADLS Gen2 等快捷方式。 可以导航到湖屋的 SQL 分析终结点,并将所有这些源中的数据与镜像数据无缝连接。

  10. 若要在 Spark 中浏览这些数据,请选择任何表旁边的点 ...。 选择“新建笔记本”“现有笔记本”开始分析。 Fabric 门户的屏幕截图,显示了在笔记本中用于打开镜像数据库表的关联菜单。

  11. 笔记本将自动打开,并使用 SELECT ... LIMIT 1000 Spark SQL 查询加载数据帧。

    • 新笔记本最长可能需要两分钟才能完全加载。 可以使用一个具有活动会话的现有笔记本,以避免这种延迟。 Fabric 门户的屏幕截图,显示了使用 Spark SQL 查询的新笔记本中镜像数据库表中的数据。