入门:通过笔记本查询和可视化数据

本入门文章将指导你使用 Azure Databricks 笔记本通过 SQL、Python、Scala 和 R 查询 Unity Catalog 中存储的示例数据,然后在笔记本中可视化查询结果。

要求

要完成本文中的任务,必须满足以下要求:

步骤 1:创建新笔记本

若要在工作区中创建笔记本,请单击边栏中的““新建”图标 新建”,然后单击“笔记本”。 将在工作区中打开一个空白笔记本。

若要了解有关创建和管理笔记本的详细信息,请参阅管理笔记本

步骤 2:查询表

使用所选语言查询 Unity Catalog 中的 samples.nyctaxi.trips 表。

  1. 将以下代码复制并粘贴到新的空笔记本单元格中: 此代码显示了对 Unity Catalog 中 samples.nyctaxi.trips 表的查询结果。

    SQL

    SELECT * FROM samples.nyctaxi.trips
    

    Python

    display(spark.read.table("samples.nyctaxi.trips"))
    

    Scala

    display(spark.read.table("samples.nyctaxi.trips"))
    

    R

    library(SparkR)
    display(sql("SELECT * FROM samples.nyctaxi.trips"))
    
  2. Shift+Enter 以运行单元格,然后移动到下一个单元格。

    查询结果显示在笔记本中。

步骤 3:显示数据

按行程距离显示平均车费金额,数据按上车地点邮政编码分组。

  1. 在“”选项卡旁边,单击 +,然后单击“可视化效果”。

    这会显示可视化效果编辑器。

  2. 在“可视化效果类型”下拉列表中,确认是否已选择“条形图”。

  3. 为“X 列”选择 fare_amount

  4. 为“Y 列”选择 trip_distance

  5. 选择 Average 作为聚合类型。

  6. 选择 pickup_zip 作为“分组依据”列

    条形图

  7. 单击“ 保存”。

后续步骤